Khi bắt đầu học môn Quant, có một phần tôi luôn thắc mắc khi nói về Sample (mẫu) và Population (tạm dịch là tổng thể). Trong công thức tính Mean thì cả sample mean (thường được ký hiệu $\bar x$ ) và population mean (thường được ký hiệu μ) đều được chia cho n (với giả sử n là số lượng quan sát trong sample hoặc trong population).
Còn với standard deviation thì không như vậy, mẫu số của sample sd là (n-1) còn của population sd là n. Tại sao lại có phân biệt đối xử như vậy?
Ok, tôi so sánh công thức tính độ lệch chuẩn (standard deviation – sd) của một population:
$$ \sigma\ =\ \sqrt{\frac{\sum_{i=1}^N \left(X_i\ –\ \mu_X\right)^2}{N}} $$
và độ lệch chuẩn của một sample :
$$ s\ =\ \sqrt{\frac{\sum_{i=1}^n \left(X_i\ –\ \bar X\right)^2}{n\ –\ 1}} $$
Hmm, có thể nhận ra ngay điểm khác biệt rõ rệt đó là mẫu số: với population là N, và với sample là (n-1). Vào ngày thi, khi áp lực là vô cùng lớn, 2 công thức này có thể rất dễ bị lẫn lộn. Và đương nhiên là, trong 3 đáp án các ông có thể khoanh sẽ bao gồm cả đáp án sai – đáp án sử dụng n thay vì (n-1) (hoặc tương tự thế).
Rõ ràng là tôi có thể học vẹt/thuộc lòng 2 công thức, nhưng mà tôi đã nói ở trên rồi, trong khi thi áp lực là rất kinh khủng; và nếu hiểu được bản chất (as people always say), sẽ dễ dàng hơn để tránh được những cái bẫy được đưa ra.
Vậy vì sao là n và (n-1) ?
Ý tưởng ở đây là tôi muốn trung bình của các phương sai của tất cả các sample có thể phải bằng phương sai của population. Như vậy tôi sẽ không “thiên vị” (bias). Để hiểu rõ hơn, tôi cho các ông ví dụ như sau nhé:
Giả sử có 3 lá bài với các giá trị 0, 2, 4. Như vậy:
$ Population\ mean = \frac{(0+2+4)}{3} = 2 $
$ Population\ variance = \frac{(0-2)^2 + (2-2)^2 + (4-2)^2}{3} = \frac{8}{3} $
Bây giờ tôi xét tất cả những cách lấy các mẫu-có-2-phần-tử. Có 9 cách như vậy, và tôi có bảng sau:
Mẫu |
Trung bình mẫu |
Phương sai – mẫu số (n-1) |
Phương sai – mẫu số (n) |
(0,0) |
0 |
0 |
0 |
(0,2) |
1 |
2 |
1 |
(0,4) |
2 |
8 |
4 |
(2,0) |
1 |
2 |
1 |
(2,2) |
2 |
0 |
0 |
(2,4) |
3 |
2 |
1 |
(4,0) |
2 |
8 |
4 |
(4,2) |
3 |
2 |
1 |
(4,4) |
4 |
0 |
0 |
Có thể thấy:
Với mẫu số (n-1), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+2+8+2+0+2+8+2+0)/9 = 24/9 = 8/3, bằng với phương sai của population.
Với mẫu số (n), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+1+4+1+0+1+4+1+0)/9 = 12/9 = 4/3, khác với phương sai của population.
Và đó là lý do tại sao phải sử dụng (n-1) thay vì n khi tính phương sai/độ lệch chuẩn cho sample. Ý tưởng là để điều chỉnh cho những “thiên vị” (bias) khi chọn mẫu. Nếu tôi lấy 1 sample gồm 30 quan sát, rồi tính mean cho sample đó; sau đó lấy tiếp 30 quan sát khác, thì chỉ có 29 quan sát được phép tự do thay đổi nếu như muốn sample mean không đổi. Nói cách khác, sau khi lấy ngẫu nhiên 29 quan sát đầu tiên, chỉ có duy nhất 1 giá trị cho quan sát thứ 30 đưa lại giá trị sample mean như cũ. Như vậy, tôi đã mất 1 bậc tự do (1 degree of freedom). Số 1 này chính là điều chỉnh từ n thành (n-1).
(Nguồn tham khảo: http://nebula.deanza.edu/~bloom/math10/m10divideby_nminus1.pdf )
Quantitative method đề cập đến các khái niệm standard deviation (độ lệch chuẩn), sample standard deviation (độ lệch chuẩn mẫu hiệu chỉnh) và standard error (sai số chuẩn) để sử dụng Ước lượng khoảng tin cậy (Confident Interval) và Kiểm định (Hypothesis testing). Trong nhiều trường hợp, ngay cả trong các báo cáo nghiên cứu nhiều người vẫn dùng lẫn lộn các khái niệm này. Bài viết sẽ tìm hiểu một cách sơ lược ý nghĩa của các khái niệm trên.
Độ lệch chuẩn là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu.
Độ lệch chuẩn: ∂ = √∑(Xi-X ̅)2/ Từ tập hợp dữ liệu ta rút ra một mẫu, nếu ta coi đấy là một tập hợp thì công thức tính toán độ lệch chuẩn không có gì thay đổi. Tuy nhiên mục đích và các phương pháp được sử dụng trong thống kê học là để ước lượng các giá trị của tổng thể hay tập dữ liệu dựa trên các thông số khi thu thập mẫu. Chính vì vậy ta phải sử dụng độ lệch chuẩn mẫu hiệu chỉnh để ước lượng độ lệch chuẩn tổng thể.
Độ lệch chuẩn mẫu hiệu chỉnh: s = √∑(xi-x ̅)2/(n-1)
Thống kê học đã chứng minh rằng
+ Số bình quân mẫu x ̅ là ước lượng không chệch, hiệu quả và bền vững của số bình quân tổng thể chung X ̅ do đó có thể ước lượng trung bình tổng thể từ trung bình mẫu
+ Độ lệch chuẩn hoặc phương sai mẫu hiệu chỉnh là ước lượng không chệch, hiệu quả và bền vững của độ lệch chuẩn hoặc phương sai tổng thể nên có thể ước lượng Độ lệch chuẩn tổng thể từ độ lệch chuẩn mẫu hiệu chỉnh
Sampling Distribution: Nếu chúng ta lặp lại việc chọn mẫu N lần (N vô cùng lớn) thì ta sẽ có một tập hợp N mẫu (mỗi mẫu gồm n phần tử) rút từ tổng thể chung. Giả sử ta đang khảo sát giá trị trung bình của tổng thể thì với N mẫu ta có N giá trị trung bình của mẫu đây chính là một sampling distribution của giá trị trung bình (Có thể coi đây là một tập hợp giá trị trung bình của các mẫu).
Central limit theorem đã chứng minh rằng khi cỡ mẫu n tăng lên (n≥30) thì sampling distribution sẽ tiến tới normal probability distribution; Tập hợp này sẽ có giá trị trung bình x ̅ tiệm cận giá trị trung bình X ̅ của tổng thể ban đầu và phương sai tiệm cận ∂2/n (∂ là độ lệch chuẩn của tổng thể ban đầu)
Standard error (sai số chuẩn) chính là độ lệch chuẩn của tập hợp mẫu sau khi được sampling. Sai số chuẩn là độ lệch chuẩn của giá trị trung bình trong N lần chọn mẫu. Vì vậy sai số chuẩn phản ánh độ dao động hay biến thiên của các số trung bình mẫu
Standard error = ∂/√n (Trong trường hợp ∂ của tổng thể đã biết)
Trong trường hợp ∂ của tổng thể chưa biết thì ta sử dụng Độ lệch chuẩn mẫu hiệu chỉnh để ước lượng Độ lệch chuẩn của tổng thể
Standard error = s/√n
CFA sử dụng 2 công thức để ước lượng standard error với 2 kí hiệu khác nhau nhưng không phải có 2 loại standard error mà chỉ có một khái niệm. Nhiều tài liệu khác chỉ sử dụng duy nhất một ký hiệu cho 2 cách tính
Central limit theorem cho ta một kết luận rất quan trọng nữa là sampling distribution sẽ có dạng normal probability distribution nên ta có thể sử dụng các đặc tính của normal probability distribution để ước lượng khoảng tin cậy giá trị trung bình của sampling distribution hay đây chính là ước ượng khoảng tin cậy giá trị trung bình của tổng thể.
Không hiểu sao ở word đánh được giá trị trung bình X ̅ mà copy vào đây toàn bị hỏng nhỉ. Bác nào biết chỉ dùm cái. Thanks
Last edited: Mar 16, 2012
hờ dùng cả Mathtype cũng k được thì e cũng chịu luôn:-ss
Lỡ nói về các đại lượng đo lường độ phân tái thì anh Jack làm luôn 1 bài về các đại lương đo lường độ tập trung đi anh. Có cái để so sánh thì em nghĩ mọi người sẽ hiểu hơn đấy.
em thấy ở trường đại học( ngay cả lớp em) phần thống kê mọi người làm rất giỏi, điểm rất cao nhưng mà lại chẳng hiểu sai sô chuẩn là gì, ý nghĩa nó như thế nào, độ lệch chuẩn thì ntn, phương sai ..... nghĩa là cứ áp dụng công thức và làm bài tập -> pass exam.