Bài tập kiểm định Chi bình phương

Trình bày số liệu của các biến định tính được mô tả ở chương Thống kê, biến số và phân phối. Khi có hai biến định tính, số liệu được sắp xếp trong bảng dự trù (contigency table). Các phạm trù cho một biến số tạo thành hàng và các phạm trù cho biến số khác tạo thành cột. Cá nhân được đưa vào một ô thích hợp của bảng dự trù tùy theo giá trị của hai biến số. Bảng dự trù cũng được dùng cho các biến số định lượng rời rạ hay biến số định lượng liên tục khi các giá trị được phân nhóm.

Kiểm định chi bình phương (c2 ) được dùng để kiểm định xem có sự liên hệ giữa các biến số hàng và biến số cột hay không hay nói cách khác, sự phân phối của các cá nhân trong các phạm trù của một biến số có phụ thuộc vào sự phân phối trong các phạm trù của biến kia hay không. Khi bảng chỉ có hai hàng và hai cột điều này có nghĩa là so sánh phân phối của biến số nhị giá (được biểu thị bằng tỉ lệ) ở hai  nhóm hay  còn gọi là so sánh hai tỉ lệ.

2. Bảng 2 x 2 (so sánh hai tỉ lệ)

Chúng ta sử dụng lại thí dụ đã nêu trong chương Nguyên tắc kiểm định - so sánh hai tỉ lệ. Trong một thử nghiệm lâm sàng để điều trị ung thư vú đã di căn, bệnh nhânh được phân nhóm ngẫu nhiên để được điều trị với L-Pam hay CMF (một phối hợp gồm 3 loại thuốc). Ðáp ứng khối u được định nghĩa là sự teo nhỏ trên một nửa của diện tích  khối u trong thời gian tối thiểu là 2 tuần. Số liệu như sau:

Bảng 11. Ðáp ứng khối u của 184 bệnh nhân ung thư vú với điều trị bằng CMF và L-PAM

Ðiều trị

CMF

L-Pam

Tổng số

Ðáp ứng của khối u

49
(52,7%)

18
(19,8%)

67
(36,4%)

Không

44

73

117

Tổng số bệnh nhân

93

91

184

Với số liệu trên, chúng ta có thể sử dụng kiểm định ý nghĩa để xem bằng chứng để kết luận CMF tốt hơn L-Pam mạnh đến mức độ nào.

Bước đầu tiên trong việc lí giải số liệu bảng dự trù là tính toán tỉ lệ hay phần trăm thích hợp. Do đó tỉ lệ đáp ứng là 52,7% trong nhóm điều trị CMF, 19,8% trong nhóm placebo và 36,4% toàn bộ. Sau đó chúng ta cần quyết định như vậy có đủ chứng cứ để xem CMF có hiệu quả hơn L-Pam hay sự khác biệt là chỉ là do tình cờ.

Ðiều này được tiến hành bằng kiểm định chi bình phương (chi square test) nhằm so sánh số quan sát trong một trong bốn phạm trù trong bảng dự trù với vọng trị nếu không có sự khác biệt về hiệu quả giữa CMF và L-Pam. Tổng số 67/184 bệnh nhân đáp ứng và nếu CMF và L-Pam có hiệu quả bằng nhau, tỉ lệ đáp ứng trong hai nhóm cũng bằng giá  trị trên và chúng ta sẽ có 93 * 67/184 =33,9 người trong nhóm CMF và 91 * 67/184 = 33,1 người trong nhóm L-Pam đáp ứng với điều trị. Tương tư như vậy sẽ có 93 * 117/184 = 59,1 người và 91 * 117/184  = 57,9 người không đáp ứng. Những vọng trị này đươc trình bày trong bảng 13.1(b). Chúng cũng tạo tổng số hàng và tổng số cột tương tự như trị số quan sát. Giá trị chi bình phương có được bằng cách tính (quan sát - vọng trị)2/vọng trị cho mỗi ô trong bảng dự trù và cộng chúng lại.

Giá trị này được gọi là giá trị c2 của Pearson. Nếu hiệu số giữa số quan sát được và vọng trị càng lớn, giá trị c2 càng lớn và ít có thể sự khác biệt này là do tình cờ. Ðiểm phần trăm của phân phối c2 được trình bày trong bảng A5. Giá trị này phụ thuộc vào độ tự do và trong bảng 2 ´ 2 độ tự do bằng 1.

Trong thí dụ này

21,4 lớn hơn 10,83, điểm 0,001 của phân phối c2 một độ tự do. Do đó xác suất của sự khác biệt quan sát được về tỉ lệ đáp ứng do tình cờ nhỏ hơn 0,001 (0,1%), nếu không có sự khác biệt về hiệu quả giữa CMF và L-Pam. Do đó có thể kết luận rằng CMF có hiệu quả tốt hơn.

Bảng 13.1 Kết quả thử nghiệm CMF và L-Pam trên bệnh nhân ung thư vú.

(a) Số quan sát

Ðiều trị

CMF

L-Pam

Tổng số

49
(52,7%)

18
(19,8%)

67
(36,4%)

Không

44

73

117

Tổng số bệnh nhân

93

91

184

(a) Vọng trị

Ðiều trị

CMF

L-Pam

Tổng số

33,9

33,1

67

Không

59,1

57,9

117

Tổng số bệnh nhân

93

91

184

Công thức c2 của Mantel-Haenzen

Khi trường hợp chỉ có một bảng 2 x 2 giá trị của cMH2 sẽ hơi nhỏ hơn c2 của Pearson tuỳ theo cỡ mẫu;

Công thức c2 của Yates để hiệu chỉnh tính liên tục

Giống như kiểm định bình thường, kiểm định chi bình phương đối với bảng 2 ´ 2 có thể được cải tiến nhờ hiệu chỉnh tính liên tục, thường được gọi là hiệu chỉnh tính liên tục của Yates (Yates' continuity correction). Công thức như sau

cho giá trị c2 nhỏ hơn, |O - E| có nghĩa là giá trị tuyệt đối của O-E hay nói cách khác, giá trị của O-E bỏ qua dấu của nó.

Trong thí dụ này giá trị của c2 là

So sánh với kiểm định bình thường

Kiểm định bình thường để so sánh hai tỉ lệ và kiểm định chi bình phương cho bảng dự trù 2 ´ 2 thực chất là tương đương với nhau và c2 = z2. Ðiều này đúng với cả khi có hay không có hiệu chỉnh tính liên tục, với điều kiện là nó cùng hiệu chỉnh hoặc không cùng hiệu chỉnh. Từ thí dụ trong Bảng 11, z2 với (không hiệu chỉnh tính liên tục) = 4,632= 21,4 giống hệt như giá trị c2 = 21,4 đã được tính ở trên. Kiểm định bình thường có ưu điểm là dễ tính khoảng tin cậy hơn cho hiệu số hơn và vì vậy thường được sử dụng để so sánh hiệu quả điều trị của thử nghiệm lâm sàng hay để ước lượng nguy cơ quy trách. Kiểm định c2 dễ áp dụng hơn và có thể ứng dụng để tính khoảng tin cậy của nguy cơ tương đối (RR) nên thường được sử dụng trong các nghiên cứu dịch tễ quan sát. Ngoài ra kiểm định  c2 có thể mở rộng để so sánh nhiều tỉ lệ và dùng cho bảng dự trù lớn hơn và

Lưu ý rằng điểm phần trăm trong Bảng A5 cho kiểm định chi bình phương một độ tự do tương ứng với điểm phần trăm hai đuôi trong bảng A2 của phân phối bình thường. (Khái niệm kiểm định một đuôi hay hai đuôi không dùng đối với kiểm định chi bình phương có độ tự do lớn hơn bởi vì chúng bao gồm việc so sánh nhiều tỉ lệ (multiple comparison).)

Tính hợp lệ (validity)

Nên luôn luôn sử dụng hiệu chỉnh tính liên tục mặc dù chúng có tác động nhiều nhất khi vọng trị nhỏ. Khi chúng rất nhỏ kiểm định chi bình phương (và kiểm định bình thường) không phải là xấp xỉ tốt, ngay cả khi có hiệu chỉnh tính liên tục và khi đó nên dùng kiểm định chính xác (exact test) cho bảng 2 ´ 2. Cochran (1954) đề nghị sử dụng kiểm định chính xác khi tổng số của bảng nhỏ hơn 20 hay khi nó ở giữa 20 và 40 và số nhỏ nhất trong bốn giá trị vọng trị nhỏ hơn 5. Do đó kiểm định chi bình phương hợp lệ khi tổng số phải lớn hơn 40 bất kể các giá trị vọng trị hay khi tổng vọng trị ở giữa 20 và 40 với điều kiện tất cả các giá trị vọng trị phải lớn hơn hoặc bằng 5.

Bảng 12. Kí hiệu tổng quát cho bảng dự trù 2 ´ 2

Ðiều trị

CMF

L-Pam

Tổng số

a1

a0

m1

Không

b1

b0

m0

Tổng số bệnh nhân

n1

n0

N

Công thức tính nhanh

Nếu các số trong bảng dự trù được kí hiệu bằng các kí tự như trong bảng 13.2 thì công thức để tính chi bình phương nhanh hơn cho bảng 2 ´ 2 như sau:

Nếu không có sai số làm tròn, kết quả có được từ công thức tính nhanh hoàn toàn đồng nhất với công thức tính c2  kinh điển.

Công thức tính nhanh cho c2  của Mantel Haenszel là:

Công thức tính nhanh cho c2  của Yates để hiệu chỉnh tính liên tục là:                     

Kết quả này tương tự như như giá trị đã tính ở trên, nếu không xét đến sai số làm tròn.

3. Bảng lớn

Kiểm định chi bình phương có thể được áp dụng cho bảng lớn hơn, nói chung là bảng r x c, trong đó r kí hiệu số hàng trong bảng và c là số cột.

Và không có hiệu chỉnh tính liên tục hay kiểm định chính xác cho bảng dự trù ngoại trừ bảng 2 ´ 2. Cochran (1954) đã đề nghị rằng xấp xỉ của kiểm định chi bình phương sẽ hợp lệ nếu có ít hơn 20% số các giá trị vọng trị dưới 5 và không có giá trị vọng trị nào nhỏ hơn một. Có thể vượt qua hạn chế này bằng cách kết hợp các hàng (hay các cột) có giá trị vọng trị thấp.

Không có công thức tính nhanh cho bảng r x c (trường hợp đặc biệt 2 x c hay r x 2 sẽ được xét ở phần sau). Phải tính vọng trị cho mỗi ô. Sử dụng các lí luận y như trong trường hợp bảng 2 ´ 2. Qui tắc chung để tính vọng trị là:

           

Cần lưu ý rằng kiểm định chi bình phương chỉ hợp lệ nếu được áp dụng cho số thực tế trong các phạm trù khác nhau. Không bao giờ được áp dụng nó cho bảng chỉ có tỉ lệ hay phần trăm mà thôi.

Bảng 13. So sánh các nguồn nước chính được sử dụng bởi gia đình trong 3 làng ở Tây phi

Nguồn nước

Làng A

Làng B

Làng C

tổng số

Sông

20(40,0%)

32(53,3%)

18(45,0%)

70(46,7%)

Ao hồ

18(36,0%)

20(33,3%)

12(30,0%)

70(33,3%)

Suối

12(24,0%)

8(13,3%)

10(25,0%)

30(20,0%)

Tổng số

50(100,0%)

60(100,0%)

40(100,0%)

150(100,0%)

Bảng 14. So sánh các nguồn nước chính được sử dụng bởi gia đình trong 3 làng ở Tây phi (vọng trị)

Nguồn nước

Làng A

Làng B

Làng C

tổng số

Sông

23,3

28,0

18,7

70

Ao hồ

16,7

20,0

13,3

50

Suối

10,0

12,0

8,0

30

Tổng số

50

60

40

150

Thí dụ

Bảng 13 trình bày kết quả của cuộc điều tra so sánh nguồn nước chính trong 3 xã ở Tây châu Phi. Trong bảng trình bày số và phần trăm các gia đình dùng, nước sông, nước ao, hay suối. Thí dụ trong làng A, 40% sử dụng nước sông chủ yếu, 36% nước ao hồ, 24,0% sử dụng giếng. Việc tính toán các phần trăm là cần thiết trong việc lí giải số liệu của bảng dự trù. Nói chung, 70 trong 150 hộ dùng nước giếng. Nếu không có sự khác biệt giữa các làng, người ta có thể cho rằng tỉ lệ dùng nước sông là giống nhau trong mỗi làng. Do đó vọng trị của số hộ dùng nước sống là

70 ´ 50/150 = 23,3                70 ´ 60/150= 28,0               70 ´ 40/150 = 18,7

Vọng trị có thể được tính bằng cách áp dụng quy tắc chung. Thí dụ vọng trị của hộ dùng nước sống trong làng B là:

           

Vọng trị của toàn bộ bảng được trình bày trong Bảng 14.

           

Bởi vì 3,53 nhỏ hơn 5,39 (điểm 25% của c2 4 độ tự do), có thể kết luận rằng không có sự khác biệt ý nghĩa giữa các làng về phần trăm số hộ dùng các nguồn nước khá nhau (P>0,25)

4. Công thức ngắn gọn cho bảng 2 x c

Kiểm định chi bình phương được áp dụng cho bảng 2 x c, đó là bảng chỉ có 2 hàng trình bày sự khác biệt giữa c tỉ lệ thể hiện bởi c cột trong bảng. Công thức cô đọng hơn trong trường hợp này

Bảng 15. Tỉ lệ hiện nhiễm Schistosoma mansoni theo nghề nghiệp

S. Manosi

Ngư dân

Nông dân

Nghề nghiệp

Buôn bán

thợ thủ công

tổng số

Dương tính

22(62,9%)

21 (48,8%)

 17 (29,3%)

15 (51,7%)

75 (45,5%)

Âm tính

13

22

41

14

90

Tổng số

35

43

58

29

165

Trong đó n thể hiện tổng số cho cột và r là giá trị của ô trên trong cột đó. r2/n được tính cho mỗi cột trong bảng và tổng của chúng là ( Sr2/n). N là tổng số toàn bộ và R là tổng số cả hàng trên. (đối với bảng có 2 cột chứ không phải hai hàng, từ 'cột' và 'hàng' sẽ đổi chỗ cho nhau trong phần trình bày trên.)

Thí dụ

Bảng 15 trình bày kết quả cuộc điều tra ở một vùng nông thôn ở Trung Phi để so sánh tỉ lệ hiện nhiễm Schistosoma mansoni trong các nghề nghiệp khác nhau. Áp dụng công thức ngắn gọn cho c2:

Ðiều này có ý nghĩa ở mức 2,5%, gợi ý rằng có thể có sự liên hệ giữa nguy cơ nhiễm bệnh và nghề nghiệp. Suất mắc toàn bộ của S. mansoni cao ở người ngư dân, thấp ở người buôn bán so với nông dân và thợ thủ công.