Professional Documents
Culture Documents
CHƯƠNG 7
MÔ HÌNH HAI BIẾN:
KIỂM ĐỊNH GIẢ THUYẾT
@ Phùng Thanh Bình, MB
Ta đã biết, lý thuyết cổ điển về suy luận thống kê gồm hai nhánh có mối quan hệ chặt
chẽ với nhau; đó là, ước lượng và kiểm định giả thuyết. Cho đến đây, về cơ bản ta đã
hoàn thành việc ước lượng các tham số của mô hình hồi qui tuyến tính theo phương
pháp bình phương bé nhất thông thường. Dưới các giả định mô hình hồi qui tuyến tính
cổ điển ta thấy rằng các ước lượng của các tham số trong mô hình hồi qui tuyến tính:
b1, b2, và ̂ 2 thỏa mãn các tính chất thống kê như mong muốn như tuyến tính, không
chệch, phương sai bé nhất, ... Tuy nhiên, nếu dừng lại ở việc ước lượng thì ta chưa trả
lời được câu hỏi quan trọng nữa là các ước lượng này gần với các giá trị thực B1, B2,
và 2 như thế nào. Đây là nội dung chủ yếu sẽ được đề cập trong Chương 7. Chương 6
cũng đã chỉ ra rằng, các ước lượng này có giá trị thay đổi từ mẫu này qua mẫu khác,
nên chúng là các biến ngẫu nhiên. Như vậy, theo Cụ thể, chương này sẽ tập trung vào
các nội dung sau đây:
• Ý nghĩa phân phối xác suất của hạng nhiễu ui
• Tại sao giả định hạng nhiễu ui có phân phối chuẩn
• Tính chất của các ước lượng OLS dưới giả định phân phối chuẩn
• Ước lượng khoảng của các ước lượng OLS
• Khoảng tin cậy cho các hệ số hồi qui B1 và B2
• Khoảng tin cậy cho phương sai nhiễu 2
• Kiểm định giả thiết về hệ số hồi qui
• Kiểm định về phương sai nhiễu
• Giá trị xác suất p
• Đánh giá kết quả hồi qui
• Ứng dụng dự báo
• Nghiên cứu ứng dụng
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 2
b 2 B2 k i u i (6.29)
Ta biết rằng ki, B1, và B2 đều phi ngẫu nhiên hay cố định, nên các ước lượng b1 và b2
là một hàm tuyến tính theo biến ngẫu nhiên ui. Vì thế, phân phối xác suất của b1 và b2
sẽ phụ thuộc vào giả định về phân phối xác suất của ui. Việc biết phân phối xác suất
của các ước lượng OLS rất cần thiết để có thể rút ra các suy luận thống kê về các giá
trị thực của tổng thể, nên bản chất của phân phối xác suất của hạng nhiễu ui được cho
là có một vai trò hết sức quan trọng trong kiểm định giả thuyết.
đích sử dụng kết quả hồi qui cho suy luận thống kê thì giả định hạng nhiễu có
phân phối chuẩn có ý nghĩa hết sức quan trọng.
4. Phân phối chuẩn là một phân phối tương đối đơn giản chỉ có hai tham số là giá
trị trung bình và phương sai; và phân phối chuẩn là một phân phối rất phổ biến
đã được nghiên cứu rất nhiều trong thống kê toán. Ngoài ra, rất nhiều hiện
tượng kinh tế xã hội theo phân phối chuẩn.
5. Khi ta làm việc với các mẫu nhỏ thì giả định phân phối chuẩn có vai trò hết sức
quan trọng vì nó không chỉ giúp ta suy ra phân phối xác suất của các ước lượng
OLS mà còn giúp ta có thể dễ dàng sử dụng các kiểm định thống kê t, F và 2.
Ngoài ra, ta cũng đã biết rằng các phân phối t, F, và 2 có mối quan hệ rất gần
với phân phối chuẩn. Đặc biệt, các phân phối này được sử dụng rất nhiều trong
các kiểm định giả thuyết trong kinh tế lượng.
B1 b1 B2 b2
0 Z 0 Z
Hình 7.2: Phân phối xác suất biến chuẩn hóa Z của b1 và b2
5 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
, ta thấy
2
xi n2
̂ 2 là một hàm tuyến tính theo e i2 , mà e i2 làm một hàm tuyến tính theo
y i , và y i là một hàm tuyến tính theo u i . Cho nên, (n 2)(ˆ / ) là
2 2 2 2 2
một hàm tuyến tính theo u i2 . Do ui có phân phối chuẩn, nên theo tính chất
của phân phối 2 đã được trình bày ở chương 3, thì (n 2)(ˆ 2 / 2 ) sẽ có phân
phối theo 2 với số bậc tự do d.f. bằng (n-2). Biết được phân phối của ̂ 2 sẽ
giúp ta rút ra các suy luận về giá trị thực của 2 từ ̂ 2 .
7. (b1, b2) có phân phối độc lập với ̂ 2 . Tầm quan trọng của tính chất này sẽ được
giải thích ở chương sau.
8. b1 và b2 có phương sai bé nhất trong số tất cả các ước lượng không chệch của
B1 và B2. Chính vì vậy các ước lượng OLS được gọi là các ước lượng không
chệch tốt nhất.
Như vậy, với giả định hạng nhiễu ui có phân phối chuẩn ui ~ N(0, 2), ta có thể suy
ra rằng Yi, một hàm tuyến tính của ui, sẽ theo phân phối chuẩn với:
E(Yi) = B1 + B2Xi (7.6)
Var(Yi) = 2 (7.7)
Hay ta có thể viết lại như sau:
Yi ~ N(B1+B2Xi, 2) (7.8)
Khoảng ngẫu nhiên này được gọi là khoảng tin cậy; 1- được gọi là hệ số tin cậy; và
được gọi là mức ý nghĩa. Các giá trị giới hạn của khoảng ngẫu nhiên này được gọi
là các giới hạn tin cậy hay giá trị phê phán; trong đó, b2 - là giới hạn chặn dưới và b2
+ là giới hạn chặn trên.
Phương trình (7.8) được gọi là ước lượng khoảng và ước lượng khoảng này đưa
ra một khoảng các giá trị trong đó có thể chứa giá trị thực B2. Ước lượng khoảng có
các tính chắc như sau:
1. Phương trình (7.8) không nói rằng xác suất B2 nằm giữa các giá trị giới hạn là
1- . Vì B2, mặc dù không biết, nhưng được cho là có một giá trị đố định nào
đó, có thể nằm trong hoặc ngoài khoảng đó. Phương trình (7.8) chỉ cho rằng,
xác suất của việc xây dựng một khoảng tin cậy có chứa B2 là 1-.
2. Khoảng (7.8) là một khoảng ngẫu nhiên; nghĩa là, giá trị của nó sẽ thay đổi từ
mẫu này qua mẫu khác vì nó phụ thuộc vào b2, mà b2 là một biến ngẫu nhiên.
3. Vì khoảng tin cậy là ngẫu nhiên, nên các phát biểu xác suất đi kèm nên được
hiểu theo kiểu dài hơi; nghĩa là, số mẫu được lặp đi lặp lại nhiều lần. Nói cách
khác, nếu số mẫu được lặp đi lặp lại nhiều lần, thì, trung bình, các khoảng như
thế sẽ có 1- trường hợp có chứa giá trị thực B2. Ví dụ, ta lấy 100 mẫu như thế
thì có khoảng 95 khoảng tin cậy có chứa giá trị thực B2 nếu bằng 5%.
4. Lưu ý rằng, chừng nào b2 chưa biết thì khoảng tin cậy (7.8) là ngẫu nhiên.
Nhưng khi ta có một mẫu cụ thể và có một giá trị b2 nhất định thì khoảng (7.8)
không còn ngẫu nhiên nữa, mà đó là một khoảng cố định. Trong trường hợp
này, ta không thể phát biểu rằng xác suất một khoảng tin cậy cụ thể chứa B2 là
1- vì B2 nằm trong hoặc ngoàn khoảng cố định đó.
Vấn đề đặt ra bây giờ là các khoảng tin cậy đó được xây dựng như thế nào? Nếu ta
biết phân phối xác suất hoặc phân phối mẫu của các ước lượng OLS, thì việc xây
dựng khoảng tin cậy như thế sẽ trở nên dễ dàng. Như đã phân tích ở trên, do ui có
phân phối chuẩn nên các ước lượng OLS b1 và b2 theo phân phối chuẩn và ước lượng
OLS ̂ 2 theo phân phối 2. Trên cơ sở này, ta sẽ xây dựng khoảng tin cậy cho B1, B2
và 2 như sau.
KHOẢNG TIN CẬY CHO CÁC HỆ SỐ HỒI QUI B1 VÀ B2
Khoảng tin cậy cho B2
Trên cơ sở giả thuyết hạng nhiễu ui có phân phối chuẩn, thì bản thân các ước lượng
OLS b1 và b2 cũng có phân phối chuẩn với trung bình và phương sai như ở phương
trình (7.2) và (7.4). Như vậy, theo tính chất của phân phối chuẩn thì biến
b 2 B2
Z
se(b 2 )
(7.9)
(b 2 B 2 ) x i2
là một biến chuẩn hóa và có phân phối chuẩn với trung bình bằng không và phương
sai bằng một. Vì thế, chúng ta có thể sử dụng phân phối chuẩn để suy luận về B2 nếu
7 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
như đã biết phương sai thực của tổng thể 2 . Nếu biết 2 , thì việc suy luận thống kê
sẽ trở nên rõ ràng theo đúng tính chất của phân phối chuẩn. Nhưng thực tế hiếm khi ta
biết 2 , và ta chỉ có ước lượng không chệch của nó là ̂ 2 . Nếu ta thay 2 bằng ̂ 2 ,
thì phương trình (7.9) sẽ được viết lại như sau:
b 2 B2
t
se(b 2 )
(7.10)
(b 2 B 2 ) x i2
ˆ
Và ta cũng biết rằng, t sẽ theo phân phối t với số bậc tự do là n-k (ở đây là n-2). Thay
vì sử dụng phân phối chuẩn1, ta có thể sử dụng phân phối t để xây dựng khoảng tin
cậy cho B2 như sau:
Pr(-t/2 t t/2) = 1- (7.11)
Trong đó, giá trị t trong ngoặc là giá trị t tính toán bởi công thức (7.10) và t/2 là biến t
có được từ phân phối t với mức ý nghĩa là /2 và n-2 bậc tự do; giá trị này thường
được gọi là giá trị t phê phán ở mức ý nghĩa /2. Thế phương trình (7.10) vào (7.11),
ta có
b B2
Pr t / 2 2 t/2 1 (7.12)
se(b 2 )
Sắp xếp lại phương trình (7.12) ta có
Pr[b 2 t / 2 se(b 2 ) B 2 b 2 t / 2 se(b 2 )] 1 (7.13)
Phương trình (7.13) đưa ra một khoảng tin cậy 100(1-)% cho B2, và công thức này
có thể được viết lại như sau:
khoảng tin cậy 100(1-)% cho B2 là
b2 t/2se(b2) (7.14)
Khoảng tin cậy cho B1
Tương tự như B2, ta dễ dàng xây dựng khoảng tin cậy cho B1 như sau:
Pr[b1 t / 2 se(b1 ) B1 b1 t / 2 se(b1 )] 1 (7.14)
Phương trình (7.14) đưa ra một khoảng tin cậy 100(1-)% cho B1, và công thức này
có thể được viết lại như sau:
khoảng tin cậy 100(1-)% cho B2 là
b1 t/2se(b1) (7.15)
Từ hai phương trình (7.13) và (7.15) ta nhận thấy rằng độ rộng hay hẹp của khoảng tin
cậy tỷ lệ thuận với sai số chuẩn của ước lượng. Nghĩa là, sai số chuẩn của ước lượng
càng lớn thì khoảng tin cậy càng lớn. Nói cách khác, sai số chuẩn của ước lượng càng
1
Diện tích dưới đường phân phối chuẩn và giữa hai giá trị trung bình trừ/cộng một độ lệch khoảng 68%; giữa
trừ/cộng hai độ lệch khoảng 95%; và giữa trung bình trừ/cộng ba độ lệch khoảng 99.7.
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 8
lớn thì sự không chắc chắn của việc ước lượng giá trị thực của tham số tổng thể càng
cao. Như vậy, sai số chuẩn của ước lượng thường được mô tả như một thước đo sự
chính xác của ước lượng.
Trở lại ví dụ minh họa về đường cầu nước đóng chai Aquafina ở Chương 6, ta
thấy rằng b1 = 54.8, se(b1) = 1.55 và b2 = -2.909, se(b2) = 0.25, và d.f. = 8. Giả sử mức
ý nghĩa = 5%; nghĩa là, khoảng tin cậy 95%, từ bảng phân phối t (hoặc tra bằng hàm
=TINV(5%,8)) ta có giá trị t/2 phê phán = t0.025 = 2.306. Thay cac gia tri nay vao các
công thức (7.12) và (7.14), ta có các khoảng tin cậy 95% cho B2 và B1 như sau:
(-3.486 B2 -2.333) (7.16)
(51.226 B1 58.374) (7.17)
Ta giải thích khoảng tin cậy cho B2 và B1 như sau: Với khoảng tin cậy 95%, trong dài
hạn, thì 95 trong số 100 trường hợp các khoảng tin cậy như (7.16) và (7.17) sẽ chứa
giá trị thực B2 và B1. Một lần nữa, quí vị cần lưu ý rằng ta không thể nói xác suất 95%
một khoảng tin cậy nhất định, ví dụ (-3.486, -2.333) chứa giá trị thực B2 bởi vì bây giờ
khoảng tin cậy này là cố định và không còn ngẫu nhiên nữa; vì thế, B2 có thể nằm
trong hoặc nằm ngoài khoảng (-3.486, -2.333). Điều này có nghĩa là xác suất mà một
khoảng tin cậy nhất định có chứa giá trị thực B2 có thể là 1 hoặc 0.
Thao tác xác định khoảng tin cậy trên Excel
Nếu ước lượng trên Excel thì trong báo cáo kết quả hồi qui Excel có sẵn thông tin về
khoảng tin cậy mặc định 95% (hoặc ta có thể chọn một khoảng tin cậy khác ngoài
khoảng mặc định). Nhắc lại rằng, sau khi mở tập tin dữ liệu Excel, ta thực hiện như
sau:
1. Tools/Data Analysis
2. Chọn Regression, và thấy xuất hiện hộp thoại như sau:
9 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
3. Chọn khối dữ liệu của biến Y (Input Y Range) và biến X (Input X Range), nếu
khối dữ liệu được chọn có cả tiêu đề của biến Y và X thì ta chọn ‘Labels’, rồi
chọn vị trí cho kết quả ước lượng, chọn OK, ta có kết quả như sau:
BẢNG 7.1: Kết quả hồi qui Excel
Pr(12 / 2 2 2 / 2 ) 1 (7.19)
Trong đó 2 được xác định theo công thức (7.18) và 12 / 2 và 2 / 2 (các giá trị 2 phên
phán) là hai giá trị được lấy từ bảng phân phối 2 với n-2 bậc tự do. Thay thế 2 ở
công thức (7.18) vào công thức (7.19) và sắp xếp lại, ta có
ˆ 2 ˆ 2
Pr (n 2) 2 2 (n 2) 2 1 (7.20)
/ 2 1 / 2
Công thức này cho một khoảng tin cậy 100(1-)% cho giá trị thực 2. Để minh họa, ta
quay lại ví dụ minh họa về ước lượng phương trình đường cầu nước đóng chai
Aquafina ở Chương 6. Trong ví dụ này ta có ˆ 2 (2.275) 2 5.18 và d.f. = n-2 = 8.
Nếu chọn mức ý nghĩa = 5%, từ bảng phân phối 2 ta thấy 02.025 17.5346 (hoặc
=CHIINV(2.5%,8)) và 02.975 2.1797 (hoặc = CHIINV(97.5%,8)). Các giá trị này
cho thấy rằng xác suất của một giá trị 2 lớn hơn 17.5346 là 2.5% và lớn hơn 2.1797
là 97.5%. Vì thế khoảng giữa hai giá trị này là khoảng tin cậy 95% của 2 như trên
HÌNH 7.2.
f(2)
95%
2.5% 2.5%
2.1797 17.5346 2
Thế các thông tin trên vào phương trình (7.20), ta có khoảng tin cậy 95% cho 2 như
sau:
1.038 2 8.350 (7.21)
Giải thích khoảng tin cậy này như sau: Nếu ta thiết lập các khoảng tin cậy 95% cho
2, trong dài hạn, thì 95 trong 100 trường hợp các khoảng tin cậy như vậy sẽ có chứa
giá trị thực 2.
11 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
trong khi đó giả thuyết khác là một giả thuyết hợp; và được biết như một giả thuyết
hai đuôi/hai phía. Thường thì một giả thuyết hai đuôi như vậy phản ánh sự thật rằng ta
không có sẵn thông tin kỳ vọng từ cơ sở lý thuyết hoặc các kết quả nghiên cứu trước
đây về chiều hướng của giả thuyết khác so với giả thuyết không.
Như vậy, giá trị b2 quan sát được từ mẫu có phù hợp với giả thuyết H0 hay
không? Để trả lời câu hỏi này, ta cần đến khoảng tin cậy như đã được thiết lập ở
phương trình (7.16). Ta đã biết rằng trong dài hạn thì các khoảng tin cậy như khoảng
(-3.486, -2.333) sẽ chứa giá trị thực B2 với xác suất 95%. Trong dài hạn (khi mẫu
được lấy lặp đi lặp lại nhiều lần) thì các khoảng tin cậy như thế cung cấp ta một
khoảng giới hạn trong đó có thể chứa giá trị thực B2 với một hệ số tin cậy, ví dụ, 95%.
Nếu B2 dưới giả thuyết H0 nằm trong khoảng tin cậy 100(1-)%, thì ta ‘không bác bỏ’
giả thuyết H0. Ngược lại, nếu B2 dưới giả thuyết H0 nằm ngoài khoảng tin cậy, thì ta
bác bỏ giả thuyết H0.
Trong ví dụ minh họa về đường cầu nước đóng chai, ta nhận thấy rằng giả
thuyết H0: B2 = -2 rõ ràng nằm ngoài khoảng tin cậy 95% như ở phương trình (7.16).
Vì thế, ta có thể bác bỏ giả thuyết cho rằng hệ số độ dốc thực của phương trình đường
cầu nước đóng chai là -2, với khoảng tin cậy là 95%. Lưu ý rằng, nếu giả thuyết H0 là
đúng, thì xác suất ta chấp nhận giá trị -2.909 khoảng 5% và đây chính là xác suất chấp
nhận sai lầm loại I.
Trong thống kê, khi ta ‘bác bỏ’ giả thuyết không, nghĩa là ta nói rằng kết quả
nghiên cứu của ta là có ý nghĩa thống kê. Ngược lại, khi ta ‘không bác bỏ’ giả thuyết
không, nghĩa là ta nói rằng kết quả nghiên cứu của ta là không có ý nghĩa thống kê.
Thông thường, ta hay sử dụng ba mức ý nghĩa là 1%, 5%, và 10%. Tuy nhiên, sau này
ta thấy rằng giá trị xác suất p sẽ rất hữu ích vì chỉ cần nhìn vào giá trị xác suất p, ta có
thể kết luận một hệ số ước lượng có ý nghĩa thống kê ở mức ý nghĩa là bao nhiêu.
HÌNH 7.3: Khoảng tin cậy 100(1-)% cho B2
b 2 t / 2 se(b 2 ) b 2 t / 2 se(b 2 )
13 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
chuẩn hóa Z có phân phối chuẩn với trung bình là 0 và phương sai là 1, như phương
trình (7.5). Tuy nhiên, thực tế ta không thể biết thông tin về phương sai nhiễu (2),
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 14
thay vào đó ta chỉ có thể có ước lượng của nó là ̂ 2 . Chính vì thế, theo lý thuyết thống
kê, ta sẽ có biến t được tính theo công thức (7.10) như sau:
t
b 2 B 2
se(b 2 )
(b B 2 )
2 (7.10)
ˆ x i2
(b 2 B 2 ) x i2
ˆ
sẽ theo phân phối t với n-2 bậc tự do. Nếu giá trị thực B2 đã được xác định dưới giả
thuyết H0, thì giá trị t theo công thức (7.22) có thể được tính toán dễ dàng từ dữ liệu
mẫu, và vì thế nó có thể có vai trò như một thống kê kiểm định. Và do thống kê kiểm
định này theo phân phối t, nên ta có thể xác định khoảng tin cậy như sau:
b 2 B*2
Pr t / 2 t/2 1 (7.22)
se(b 2 )
Trong đó, B*2 là giá trị của B2 dưới giả thuyết H01 và -t/2 và t/2 là các giá trị t phê
phán có từ bảng phân phối t với mức ý nghĩa /2 và n-2 bậc tự do (có thể tính theo
công thức =TINV(,n-2) trên Excel. Như vậy, phương trình (7.23) có thể được viết lại
như sau:
Pr[B*2 t / 2 se(b 2 ) b 2 B*2 t / 2 se(b 2 )] 1 (7.23)
Đây là khoảng tin cậy trong đó xác suất nó có chứa b2 là 1-, khi đã biết B2 = B*2 .
Theo ngôn ngữ kiểm định giả thuyết thống kê, khoảng tin cậy 100(1-)% như phương
trình (7.23) được gọi là vùng chấp nhận giả thuyết H0 và (các) vùng bên ngoài
khoảng tin cậy này được gọi là (các) vùng bác bỏ hay vùng phê phán giả thuyết H0.
Lưu ý, như đã được trình bày trước đây, các điểm giới hạn của khoảng tin cậy này
được gọi là các giá trị phê phán.
Mối quan hệ giữa các cách tiếp cận khoảng tin cậy và kiểm định ý nghĩa có thể
được phân tích dựa trên sự so sánh giữa hai công thức (7.13) và (7.23). Trong cách
tiếp cận khoảng tin cậy, ta cố gắng thiết lập một khoảng với một xác suất nhất định
nào đó có chứa giá trị thực (nhưng không biết) B2, trong khi đó, với cách tiếp cận mức
ý nghĩa, ta giả thuyết một giá trị nhất định nào đó của B2 và cố gắng xem xét giá trị b2
tính toán từ mẫu có nằm trong khoảng tin cậy theo giá trị được giả thuyết hay không.
Trở lại ví dụ minh họa về đường cầu nước đóng chai, ta thấy b2 = -2.909, se(b2)
= 0.25, và d.f. = 8. Nếu giả định mức ý nghĩa = 5%, thì t/2 = 2.306. Nếu ta có giả
thuyết như sau:
H0: B2 = B*2 = -2
1
Lưu ý, B *2 là một giá trị nhất định đã biết dưới giả thuyết H0. Cho nên, công thức (7.22) và (7.12) có điểm khác
nhau. Hơn nữa, khoảng tin cậy ở công thức (7.23) cũng khác khoảng tin cậy ở công thức (7.13).
15 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
H1: B2 -2
Thế vào phương trình (7.23) ta có:
Pr[2 2.306 * 0.25 b 2 2 2.306 * 0.25] 0.95
Pr[2.577 b 2 1.424] 0.95 (7.24)
b2=-2.909 ở vùng
phê phán này Vùng phê phán
2.5% 2.5%
-2.577 -1.424 b2
Hình 7.4: Khoảng tin cậy 95% của b2 dưới giả thiết H0: B2=-2
Như vậy, giá trị b2 tính toán từ dữ liệu mẫu bằm ở vùng phê phán, nên ta bác bỏ giả
thuyết không rằng B2 = -2.
Trong thực tế ta không cần ước lượng khoảng tin cậy (7.23), mà ta chỉ cần tính
b 2 B*2
giá trị t tính toán trong công thức (7.22) và xem giá trị này nằm trong hay
se(b 2 )
ngoài hai giá trị t phê phán với một mức ý nghĩa xác định. Cách kiểm định này rất
nhanh và tiện lợi vì hầu hết các phần mềm kinh tế lượng đều có báo cáo các thông tin
về b2, se(b2), bậc tự do d.f., và thậm chí giá trị t tính toán cho giả thuyết H0: B2 = 0.
Nếu giả thuyết H0 cho B2 là một giá trị khác, ví dụ B2 = -2, thì ta cần phải tính lại giá
trị t tính toán như sau:
2.909 (2)
t 3.636 (7.25)
0.25
Với mức ý nghĩa = 5%, ta có hai giá trị t phê phán với d.f. = 8 lần lược là -2.306 và
2.306 (=TINV(5%,8)), nên giá trị t tính toán (-3.636) nằm ở vùng bác bỏ giả thuyết
H0, xem Hình 7.5.
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 16
-2.306 2.306 t
Hình 7.5: Khoảng tin cậy 95% của t dưới giả thiết H0: B2=-2
Lưu ý rằng, nếu giá trị ước lượng của B2 (= b2) bằng với giá trị giả thuyết của B2, thì
giá trị t tính toán sẽ bằng không. Tuy nhiên, khi giá trị ước lượng của b2 càng khác giá
trị giả thuyết của B2, thì giá trị tuyệt đối của t tính toán, t, sẽ càng lớn. Như thế, khi
giá trị tuyệt đối của t tính toán càng lớn sẽ là bằng chứng bác bỏ giả thuyết H0. Dĩ
nhiên, ta có thể luôn sử dụng bảng phân phối t (hay đơn giản nhất là dùng =TINV(,
d.f.)) để xác định xem một giá trị t tính toán là lớn hay nhỏ; và câu trả lời sẽ tùy thuộc
vào số bật tự do và mức ý nghĩa là bao nhiêu. Để người đọc hình dung được tại sao
quyết định chấp nhận hay bác bỏ một giả thuyết H0 lại tùy thuộc vào số bậc tự do và
mức ý nghĩa, tôi xin trình bày một phần của Bảng phân phối t (được tính bằng hàm
=TINV(, d.f.)) như ở Bảng 7.1.
Do ta sử dụng phân phối t, nên qui trình kiểm định vừa trình bày ở trên được
gọi là kiểm định t. Theo ngôn ngữ của các kiểm định mức ý nghĩa, một kiểm định
được cho là “có ý nghĩa về mặt thống kê” nếu giá trị của thống kê kiểm định (giá trị t
tính toán) nằm trong vùng phê phán/bác bỏ giả thuyết H0. Trong trường hợp này, giả
thuyết H0 bị bác bỏ. Ngược lại, một kiểm định được cho là “không có ý nghĩa về mặt
thống kê” nếu giá trị của thống kê kiểm định nằm trong vùng chấp nhận giả thuyết H0.
Trong trường hợp này, giả thuyết H0 không bị bác bỏ. Trong ví dụ của ta, kiểm định t
có ý nghĩa thống kê và vì thế ta bác bỏ giả thuyết H0 cho rằng B2 = -2.
17 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
Lưu ý rằng qui trình kiểm định vừa được nêu ở trên là “qui trình kiểm định ý nghĩa 2
phía/2 đuôi”, trong đó ta xem hai đuôi ở hai đầu của phân phối xác suất tương ứng là
các vùng bác bỏ giả thuyết H0, nghĩa là ta sẽ bác bỏ giả thuyết H0 nếu giá trị thống kê
kiểm định (giá trị t tính toán) nằm ở một trong hai đuôi này. Tuy nhiên, nếu các kinh
nghiệm trước đây cho rằng hệ số co giãn của cầu nước đóng chai theo giá là lớn hơn -
2 (nghĩa là ít co giãn hơn). Trong trường hợp này ta có:
H0: B2 -2
H1: B2 -2
Như vậy, H1 bây giờ là một giả thuyết một phía. Qui trình thực hiện loại kiểm định
một phía này cũng giống với qui trình thực hiện kiểm định hai phía, nhưng ngoại trừ
giới hạn tin cậy hay giá trị phê phán cận trên bây giờ sẽ là t = t0.05. Như vậy, lúc này
với số bậc tự do là 8, thì giá trị t trang bảng sẽ ở mức ý nghĩa 5% cho một phía hoặc
10% cho hai phía (1.86). Nếu sử dụng hàm trên Excel, ta sẽ thực hiện như sao:
=TINV(10%,8) = 1.86. Với giá trị t phê phán là 1.86, thì giá trị giá trị tin cậy cận dưới
của B2 sẽ là -2 - 1.86 * 0.25 = -2.465. Như vậy, cả giá trị t tính toán là -3.636 hoặc b2
= -2.909 đều nằm ở vùng phê phán, nên ta bác bỏ giả thuyết H0. Hình 7.6 và Bảng 7.2
minh họa qui tắc quyết định khi sử dụng phương pháp kiểm định mức ý nghĩa.
BẢNG 7.2: Qui tắc quyết định với kiểm định ý nghĩa t
Với B*2 là giá trị theo giả thuyết của B2, t là giá trị tuyệt đối của t tính toán, t ,d .f . và t / 2,d.f .
là các giá trị t phê phán ở các mức ý nghĩa và /2 với d.f. là số bậc tự do, d.f. = số quan sát
- số hệ số ước lượng trong mô hình hồi qui.
Nguồn: Gujarati, 2003, trang 133.
19 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
-2.465 b2
[B2*-1.86*se(b2)]
-1.860 t
Hình 7.6: Kiểm định mức ý nghĩa trường hợp một đuôi
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 20
Để kiểm định giả thuyết H0 này ta sử dụng thống kê kiểm định là thống kê 2 với giá
trị tính toán như ở công thức (7.26). Thay các giá trị đã biết vào công thức (7.26) ta có
giá trị 2 tính toán sẽ là:
5.18
2 (10 2) 4.142 (7.27)
10
Nếu với mức ý nghĩa = 5%, thì các giá trị 2 phê phán sẽ lần lượt là 2.1797 và
17.5346 (như ở Hình 7.2). Do giá trị 2 tính toán nằm giữa hai giá trị 2 phê phán này,
nên ta không bác bỏ giả thuyết H0. Qui trình kiểm định như vậy được gọi là kiểm định
ý nghĩa của 2.
f(2)
95%
2.5% 2.5%
2.1797 17.5346 2
Giá trị 2 phê phán tùy thuộc vào mức ý nghĩa được chọn và số bậc tự do. Với một
mức ý nghĩa nhất định, 2 tăng khi d.f. tăng; ngược lại, với một bậc tự do nhất định, 2
tăng khi mức ý nghĩa giảm. Các giá trị 2 phê phán có thể được tính bằng hàm
=CHIINV(, d.f.) trên Excel hoặc scalar chi2=@qchisq(,d.f.)
Tương tự kiểm định ý nghĩa (bằng thống kê t) của các hệ số hồi qui, nguyên tắc
quyết định theo phương pháp kiểm định ý nghĩa (bằng thống kê 2) của phương sai
nhiễu ( ̂ 2 ) ta có thể được tóm tắt như trong Bảng 7.3.
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 22
BẢNG 7.3: Qui tắc quyết định với kiểm định ý nghĩa 2
Qui tắc quyết định: Bác
H0: Giả thuyết không H1: Giả thuyết khác
bỏ giả thuyết H0 nếu
d.f .ˆ 2
2 02 2 02 2 ,d.f .
0 2
d.f .ˆ 2
2 2
2 2
(21 ),d.f .
0 0
0 2
d.f .ˆ 2
2 / 2,d.f . hoặc
0 2
2 02 2 02
d.f .ˆ 2
(21 / 2 ),d.f .
0 2
Với 02 là giá trị theo giả thuyết của 2 , các giá trị bên trái của các bất đẳng thức ở cột 3 là
các giá trị 2 tính toán và các giá trị bên phải là các giá trị 2 phê phán ở các mức ý nghĩa
khác nhau với d.f. là số bậc tự do, d.f. = số quan sát - số hệ số ước lượng trong mô hình hồi
qui.
Nguồn: Gujarati, 2003, trang 133.
BẢNG 7.4: Bảng phân phối xác suất 2
Mức ý nghĩa
2 phê phán
97.5% 95.0% 90.0% 10.0% 5.0% 2.5%
2 0.051 0.103 0.211 4.605 5.991 7.378
8 2.180 2.733 3.490 13.362 15.507 17.535
10 3.247 3.940 4.865 15.987 18.307 20.483
15 6.262 7.261 8.547 22.307 24.996 27.488
20 9.591 10.851 12.443 28.412 31.410 34.170
25 13.120 14.611 16.473 34.382 37.652 40.646
30 16.791 18.493 20.599 40.256 43.773 46.979
Bậc tự do
H0: B2 = 0
Giả thuyết H0 này có thể được kiểm định một cách dễ dàng bằng phương pháp khoảng
tin cậy hay kiểm định mức ý nghĩa như đã trình bày ở trên. Nhưng thông thường
người ta có thể kiểm định “nhanh” bằng cách áp dụng nguyên tắc “t=2” như sau:
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 24
là sai lầm loại I và sai lầm loại II (xác suất chấp nhận giả thuyết sai) luôn có sự đánh
đổi. Trên thực tế, người ta thường chọn các mức ý nghĩa 1%, 5%, và 10%. Tuy nhiên,
việc sử dụng máy tính ngày càng trở nên phổ biến thì chúng ta có thể chọn bất kỳ mức
ý nghĩa nào, ví dụ 2%, 3%, hay 6%. Vấn đề đặt ra ở đây là nên chọn mức ý nghĩa nào
là thích hợp nhất cho từng trường hợp nhất định. Để tránh khó khăn này, người ta có
xu hướng sử dụng phương pháp giá trị xác suất (p value) của thống kê kiểm định.
Giá trị xác suất p: Mức ý nghĩa chính xác
Con số này có nghĩa xác
suất để giá trị tuyệt đối
của t lớn hơn 11.613. Nói
cách khác
Pr ( t 11.613) 0.000
Một khi giá trị thống kê kiểm định đã biết từ một kết quả ước lượng (ví dụ, -11.613),
thì tại sao ta không tìm giá trị xác suất sao cho giá trị đó thống kê kiểm định đó lớn
hơn hoặc bằng giá trị thống kê kiểm định được tính toán từ kết quả ước lượng? Nói
cách khác, sao ta không tìm xác suất sao cho giá trị tuyệt đối của t (kiểm định hai
đuôi) lớn hơn hoặc bằng (hoặc chỉ lớn hơn là đủ) 11.613? Khi đã biết xác suất đó là
bao nhiêu thì ta dễ dàng so sánh nó với mức ý nghĩa mong muốn. Giá trị xác suất này
được tính rất đơn giản trên Excel như sau: =TDIST(X,d.f.,tails) =TDIST(11.613,8,2)
= 0.000. Ở đây, X là giá trị thống kê muốn tính xác suất (ở đây là thống kê t, với giá
trị t tính toán là 11.613); d.f. là số bậc tự do; và tails nghĩa là tính xác suất một đuôi
hay hai đuôi, nếu một đuôi ta chọn số “1”, nếu hai đuôi, ta chọn số “2”. Thật quá dễ
dàng phải không! Một lưu ý nho nhỏ cần nhắc quí vị ở đây như sau. Bất kỳ một phân
phối xác suất nào cũng có dạng một hàm y = f(x), với X là giá trị thống kê kiểm định,
ví dụ t, ở trục hoành và y là giá trị xác suất ở trục tung (diện tích của vùng phê phán).
Khi ta có X thì ta thế X vào hàm y để tính xác suất, và ta sử dụng hàm “X”DIST, ví dụ
TDIST, FDIST, … Ngược lại, khi ta biết y (tức biết giá trị xác suất), thì ta cũng dễ
dàng tìm được giá trị X bằng cách sử dụng hàm ngược, tức “X”INV, ví dụ TINV,
FINV, …
Quay lại công việc hiện đang được đề cập, thì giá trị xác suất được tính như
vậy được gọi là giá trị xác suất p. Giá trị xác suất này cũng được gọi là mức ý nghĩa
chính xác hay mức ý nghĩa quan sát được; hay cũng có thể gọi là xác suất chính xác
chấp nhận sai lầm loại I. Nói theo ngôn ngữ thống kê, giá trị xác suất p được định
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 26
nghĩa là mức ý nghĩa thấp nhất tại đó một giả thuyết H0 có thể bị bác bỏ. Nếu dữ liệu
mẫu không “ủng hộ” giả thuyết không, thì giá trị tuyệt đối của t tính toán dưới giả
thuyết không đó sẽ “lớn” và vì thế giá trị xác suất p để có được giá trị đó sẽ “nhỏ”, và
ngược lại. Nói cách khác, với một cỡ mẫu nhất định, nếu giá trị tuyệt đối của t tăng,
giá trị xác suất p sẽ giảm.
Có mối quan hệ gì giữa giá trị xác suất p và mức ý nghĩa hay không?
Gujarati (2003) cho rằng nếu chúng ta cứ giữ thói quen cố định một mức ý nghĩa
bằng với giá trị xác suất p của một thống kê kiểm định (ví dụ, thống kê t), thì sẽ không
có gì mâu thuẫn giữa hai giá trị này. Nói cách khác, tốt nhất là nên từ bỏ thói quen cố
định mức ý nghĩa bằng một mức nào đó và hãy làm quen với việc chọn giá trị xác
suất p của thống kê kiểm định. Tốt nhất là hãy để cho quí vị tự quyết định có bác bỏ
giả thuyết H0 hay không trên cơ sở giá trị xác suất p đã được tính. Điều này rất tự
nhiên và tùy thuộc vào mức độ khắc khe hay dễ giải của chính quí vị đối với vấn đề
mà minh đang nghiên cứu. Giả sử, sau khi tính được giá trị xác suất p là 12%, nếu quí
vị muốn bác bỏ H0 tại mức ý nghĩa chính xác bằng 12% cũng được. Tương tự, nếu quí
vị chọn giá trị xác suất p là 0.05% (nghĩa là không chấp nhận sai lầm lớn hơn năm lần
trong 10.000 lần. Điều này không có vấn đề gì cả. Nói chung, mỗi người chúng ta có
cách suy nghĩ riêng, tùy thuộc quí vị là người thích rủi ro hay sợ rủi ro.
Rất nhiều người là nghiên cứu hay sinh viên có thói quen đã trở nên phổ biến là
so sánh giá trị xác suất p với một mức ý nghĩa nào đó, ví dụ 5%, để quyết định xem
nên bác bỏ hay không bác bỏ giả thuyết H0 ở mức ý nghĩa 5%. Cách làm như vậy khác
nào việc đã biết món đồ trên tay là 9 lạng nhưng lại cứ muốn đặt lên cân 1kg để xem
nó có nhẹ hơn 1kg hay không. Điều này thật ra cũng không thành vấn đề, nhưng quí vị
hãy tự hỏi xem cách làm như thế có phải là quá máy móc không nhỉ!
Lưu ý, với bất kỳ giả thuyết H0 nào ta cũng có một giá trị t tính toán nhất định
và hiễn nhiên ta đều có thể biết giá trị xác suất p.
Thao tác với Eviews
Để tính giá trị xác suất p, thì trên cửa sổ lệnh của Eviews ta thực hiện như sau:
• Đuôi phải: scalar pval=1-@ctdist(tstat,d.f.)
• Đuôi trái: scalar pval=@ctdist(tstat,d.f.)
• Hai đuôi:
o Scalar leftpval=@ctdist(-abs(tstat),d.f.)
o Scalar rightpval=@1-@ctdist(abs(tstat),d.f.)
o Scalar pval2=leftpval+rightpval
yi
2
ŷ i2 e i2
b 22 x i2 e i2 (6.93)
Nghĩa rằng, TSS = ESS + RSS, đó chính là một cách phân tích TSS thành hai thành
phần: phần được giải thích bởi hồi qui (ESS) và phần không được giải thích bởi hồi
qui, hay còn gọi là phần dư (RSS). Theo ngôn ngữ thống kê, việc phân tích các thành
phần của TSS được gọi là phân tích phương sai (ANOVA).
Nếu ta chia từng thành phần của TSS cho bậc tự do tương ứng của nó thì ta sẽ
có hai phương sai (và chúng đều là các biến ngẫu nhiên có phân phối 2). Nếu ta tiếp
tục lập một tỷ số với tên gọi là F trên cơ sở hai phương sai này thì:
ESS
d.f .1 b 22 x i2 / 1 b 22 x i2
F (7.28)
RSS e i2 /(n 2) ˆ 2
d.f .2
Sẽ theo phân phối F với với bậc tự do của tử d.f.1 (với d.f.1 = số biến giải thích trong
mô hình) và bậc tự do của mẫu d.f.2 (với d.f.2 = số bậc tự do của phần dư = n - số hệ
số ước lượng trong mô hình). Ở đây, tôi nhắc quí vị rằng, do ui được giả định có phân
phối chuẩn, nên b2 là một biến có phân phối chuẩn, vậy các biến b 22 và ̂ 2 sẽ có phân
phối 2 với số bậc tự do là số biến được bình phương trong tổng của nó. Nói như vậy
có vẻ khó hiểu! Nghĩa là, trên tử số của F chỉ có một biến b2 được lấy bình phương,
nên số bậc tự do sẽ bằng 1; và ở mẫu số của F thì hiễn nhiên ̂ 2 có số bậc tự do là n –
2 (như đã nói ở trên).
Vấn đề đặt ra là tỷ số F ở (7.28) nói lên điều gì? Từ công thức (6.30) ta có b2 =
B2 + kui, nên nếu thế vào (7.28) ta sẽ có:
(B 2 ku i ) 2 x i2
F
ˆ 2
B 22 x i2 ku i x i 2 ku i x i2
2
= (7.29)
ˆ 2
Nếu lấy giá trị kỳ vọng của tỷ số F thì ta sẽ có:
E B 22 x i2 ku i x i 2 ku i x i2
2
E ˆ 2
EB 22 x i2 E ku i x i 2 kE(u i ) x i2
2
(do 6.64)
2
EB 22 x i2 E ku i x i 0
2
(do 6.23)
2
B 22 x i2 E u i
2
(do 6.28)
2
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 28
B 22 x i2 2
(7.30)
2
Như vậy, nếu B2 = 0, nghĩa là thực sự X không có ảnh hưởng/không giải thích gì đến
Y, thì tử và mẫu của (7.28) sẽ bằng nhau. Điều này có nghĩa, toàn bộ biến thiên trong
Y chỉ được giải thích bởi hạn nhiễu ngẫu nhiên ui. Ngược lại, khi B2 khác không, thì
tử và mẫu của (7.28) sẽ khác nhau, và biến thiên trong Y sẽ phụ thuộc vào X. Như
vậy, tỷ số F cung cấp chúng ta một kiểm định cho giả thuyết H0: B2 = 0. Do tất cả các
đại lượng trong công thức (7.28) có được từ dữ liệu mẫu, nên tỷ số F cung cấp một
thống kê kiểm định cho giả thuyết H0: B2 = 0. Để kiểm định giả thuyết này, thì việc ta
cần làm là tìm giá trị tính toán của F từ dữ liệu mẫu và so sánh với giá trị F phê phán ở
một mức ý nghĩa nhất định, hoặc ta cũng có thể tìm giá trị xác suất p của thống kê F
tính toán. Giá trị F tính toán có thể được tra từ bảng phân phối F hoặc đơn giản bằng
hàm =FINV(,d.f.1,d.f.2). Và giá trị xác suất p có thể được tính dễ dàng bằng hàm
=FDIST(X,d.f.1,d.f.2), với “X” chính là giá trị F tính toán từ mẫu theo công thức
(7.28).
BẢNG 7.5: Bảng ANOVA của mô hình hồi qui đơn
n2
TSS yi n-1
2
Với giá trị F tính toán là 134.855, và giá trị F phê phán ở mức ý nghĩa 5% là
=FINV(5%,1,8) = 5.317, hoặc =FINV(1%,1,8) = 11.259, hoặc giá trị xác suất p =
FDIST(134.855,1,8) = 0.0000028, thì ta dễ dàng bác bỏ giả thuyết H0: B2 = 0. Như
vậy, ngoài thống kê t, thống kê F cung cấp một phương pháp kiểm định khác cho giả
thuyết H0: B2 = 0 với cùng một kết quả quyết định như kiểm định t. Tới đây, có lẽ quí
vị sẽ tự hỏi rằng tại sao chúng ta không dựa vào kiểm định t và không nhất thiết phải
quan tâm đến kiểm định F? Gujarati (2003) cho rằng đối với mô hình hồi qui đơn thì
ta không cần thiết phải quan tâm đến kiểm định F. Nhưng trong các mô hình hồi qui
bội thì kiểm định F sẽ cung cấp nhiều ứng dụng quan trọng cho việc kiểm định các giả
thuyết thống kê.
Pr(F>13
4.855)
mà chúng ta cần xem xét trước. Đó là, tính phân phối chuẩn của các hạng nhiễu ui.
Lưu ý rằng, các kiểm định t, 2, và F đều dựa vào giả định cho rằng các hạng nhiễu ui
có phân phối chuẩn. Cho nên, nếu điều này không xảy ra thì các qui trình kiểm định
trên trở nên không có giá trị đối với một mẫu tương đối nhỏ như ví dụ của chúng ta.
Có nhiều cách kiểm định tính chuẩn, nhưng ở đây ta chỉ xét hai cách điển hình.
Đồ thị tần suất Histogram của phần dư
Đồ thị tần suất là một công cụ hình vẽ đơn giản được sử dụng để xem hình dạng của
hàm PDF của một biến ngẫu nhiên. Nếu nhìn vào đồ thị ta thấy phân phối xác suất của
phần dư có dạng một phân phối hình chuông, ta có thể tin rằng phần dư có thể có phân
phối chuẩn. Thực vậy, từ kết quả hồi qui đường cầu nước đóng chai (bây giờ ta xem
một mẫu có 55 quan sát), ta thấy phần dư của mô hình này có vẻ có phân phối chuẩn.
HÌNH 7.3: Đồ thị tần suất của phần dư
12
Series: RESID
Sample 1 55
10
Observations 55
8 Mean 4.76e-15
Median 7.11e-15
Maximum 5.000000
6 Minimum -7.000000
Std. Dev. 2.775555
4 Skewness -0.256974
Kurtosis 2.614992
2 Jarque-Bera 0.945022
Probability 0.623435
0
-6 -4 -2 0 2 4
Để có đồ thị trên, ngay sau kết quả hồi qui ta vào Quick/Graph/ vào nhập vào hộp
thoại tên biến “RESID”, chọn “OK”, và thực hiện một số chỉnh sửa nhỏ và khung,
font chữ, … ta có được đồ thị như trên.
Kiểm định JB (Jarque-Bera)
Theo Gujarati (2003), kiểm định JB về tính chuẩn là một kiểm định áp dụng cho cỡ
mẫu lớn. Với giả thuyết H0 cho rằng “phần dư của mô hình hồi qui có phân phối
chuẩn”, trước hết ta phải tính các thống kê về độ nghiêng (S) và độ nhọn (K) của phần
dư, sau đó tính giá trị thống kê JB theo công thức sau đây:
S 2 (K 3) 2
JB n
24
(7.32)
6
Trong đó, n = cỡ mẫu, S = hệ số độ nghiêng, và K = hệ số độ nhọn. Theo lý thuyết
thống kê, một biến có phân phối chuẩn khi S = 0 và K = 3. Như vậy, kiểm định tính
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 32
chuẩn JB là một kiểm định đồng thời với H0: S = 0 và K = 3. Nếu điều này xảy ra, JB
sẽ được kỳ vọng sẽ bằng không.
Với giả thuyết H0 cho rằng phần dư có phân phối chuẩn, Jarque và Bera cho
rằng thống kê JB như ở công thức (7.32) sẽ có phân phối 2 với số bậc tự do là 2 (tại
sao?). Gujarati (2003) cho rằng nếu giá trị xác suất p của thống kê JB tương đối thấp,
nghĩa là giá trị thống kê JB rất khác không, ta có thể bác bỏ giả thuyết H0 cho rằng
phần dư có phân phối chuẩn. Ngược lại, nếu giá trị xác suất p tương đối cao, nghĩa là
giá trị thống kê JB rất gần với 0, ta sẽ không bác bỏ giả thuyết H0.
Với kết quả như trong bảng thống kê trên Hình 7.3 ta có thể kết luận rằng phần
dư trong mô hình hồi qui của chúng ta có thể có phân phối chuẩn và các kết luận kiểm
định ở các phần trước, trong chừng mực nào đó, có thể tin cậy.
Ŷ0 = b1 + b2X0
= 54.8 – 2.909 *(12)
= 19.89
Trong đó: Ŷ0 là ước lượng của E(YX=X0). Nhiều nghiên cứu đã chứng minh rằng ước
lượng điểm này là một ước lượng tuyến tính không chệch tốt nhất (BLUE).
Vì Ŷ0 là một ước lượng, nên Ŷ0 có thể khác giá trị thực của nó trên đường hồi
qui tổng thể. Chênh lệch giữa hai giá trị này là sai số dự báo. Để đánh giá sai số dự
báo này, chúng ta cần tìm phân phối mẫu của Ŷ0 . Cho Xi = X0, giá trị dự đoán trung
bình thực E (Y0 X 0 ) như sau:
E(Y0X0) = B1 + B2X0 (7.33)
Ta ước lượng (7.33) từ:
Ŷ0 = b1 + b2X0 (7.34)
Như vậy, Ŷ0 là một ước lượng không chệch của E(Y0X0)
Khoảng tin cậy cho giá trị dự báo trung bình
Ta có:
Var(Ŷ0 ) = E Ŷ0 E (Ŷ0 )
2
Xi
2
var(b1 ) (6.47)
n x i2
2
var(b 2 ) (6.44)
xi
2
Cov(b1,b2) = E{[b1-E(b1)][b2-E(b2)]}
= E(b1-B1)(b2-B2)
(Do b1 Y b 2 X và E(b1 ) Y B2 X nên
b1 E(b1 ) X(b 2 B2 ) )
= X(b 2 B2 ) 2
= X var(b 2 ) (6.68)
Từ (7.37), (6.44), (6.47), và (6.68) ta có:
1 (X 0 X) 2
Var (Ŷ0 ) 2Ŷ0 = 2 2
(7.38)
n (X X)
Bằng cách thay 2 bằng ̂ 2 ta có
1 (X 0 X) 2
̂ 2
= ˆ
2
2
(7.39)
n (X X)
Ŷ0
DỰ BÁO CÁ BIỆT
Nếu ta muốn dự báo giá trị Y cá biệt, ví dụ Y0, tương ứng với một giá trị X cho trước,
ví dụ X0, thì Y0 được xác định như sau:
Y0 = B 1 + B 2 X0 + u 0 (7.42)
Ta dự đoán Y0 khi
Ŷ0 = b1 + b2X0 (7.43)
Đặt f = Y0 - Ŷ0 , ta
1 (X 0 X) 2
Var(f) = = 1
2 2
2
Var (Ŷ0 ) (7.48)
n (X X)
f
1 (X 0 X) 2
̂ = ˆ 1
2 2
2
(7.49)
n (X X)
f
ˆ 2
̂ f2 = ˆ 2 (X 0 X) 2 ˆ 2b 2 (7.50)
n
Ta có:
Y0 Ŷ0
t (7.51)
se(Y0 Ŷ0 )
cũng theo phân phối t với bậc tự do d.f. = n-2. Vì thế phân phối t có thể được sử dụng
để rút ra các suy luận thống kê vê giá trị thực Y0. Với X0 = 12, ta có khoảng tin cậy
cho giá trị Y0 tại X0 = 12 như sau:
1 (12 0 5.5) 2
Với X0 = 12, thì Var(Ŷ0 ) = 5.18 * 1 8.35 , và se(Ŷ0 ) =
10 82.5
2.89. Vậy khoảng tin cậy 95% của giá trị Y0 được tính như sau:
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 36
60
Forecast: YF
Actual: Y
50 Forecast sample: 1 11
Included observations: 10
40
Root Mean Squared Error 2.035146
Mean Absolute Error 1.836364
Mean Abs. Percent Error 5.017189
Theil Inequality Coefficient 0.025621
30
Bias Proportion 0.000000
Variance Proportion 0.014406
Covariance Proportion 0.985594
20
10
1 2 3 4 5 6 7 8 9 10 11
YF ± 2 S.E.
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 38
Ŷi
Khoảng tin cậy
của giá trị Y cá
biệt
X X
Lưu ý, nếu quí vị sử dụng Eviews 6.0 thì kết quả hồi qui có khác kết quả hồi qui trên
Eviews 5.0 hay 5.1 một chút. Đây là kết quả ước lượng với Eviews 6.0:
39 CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT
Do mô hình chỉ có 28 quan sát, nên ta cần đánh giá phần dư của mô hình này có đảm
bảo giả định phân phối chuẩn hay không. Từ kết quả hồi qui trên Eviews, ta có thể
kiểm định theo một trong hai cách sau đây:
Sử dụng thống kê JB
Từ bảng kết quả hồi qui, ta chọn View/Residual Tests/Histogram – Normality Test và
ta có kết quả sau đây:
6
Series: Residuals
Sample 2006M02 2008M08
5
Observations 28
4 Mean -3.97e-18
Median -0.005601
3 Maximum 0.185969
Minimum -0.097673
Std. Dev. 0.067031
2 Skewness 0.818430
Kurtosis 3.534869
1
Jarque-Bera 3.459627
Probability 0.177318
0
-0.1 -0.0 0.1 0.2
CHƯƠNG 7: MÔ HÌNH HAI BIẾN: KIỂM ĐỊNH GIẢ THUYẾT 40
Như vậy, với xác suất p = 17.73% là tương đối cao, nên ta kết luận rằng phần dư của
mô hình hồi qui của chúng ta có thể có phân phối chuẩn và các kiểm định thống kê
như t, F có thể áp dụng được.
Ngoài ra, ta cũng có thể sử dụng giản đồ tự tương quan để kiểm định phần dư
có theo phân phối hay không. Từ kết quả hồi qui, ta chọn View/Residual
Tests/Correlogram Squared Residuals và có kết quả như sau:
Với hệ số tự tương quan r1 = 0.196 không có ý nghĩa thống kê ở mức ý nghĩa = 5%,
nên ta có thể nói rằng phần dư của mô hình là một chuỗi dừng và sẽ có phân phối
chuẩn.
Vớigiá trị t tính toán của hệ số beta là 10.287 lớn hơn giá trị t phê phán ở mức ý
nghĩa 1% với d.f. = 26 là 2.779 (=TINV(1%,26)). Điều này có nghĩa hệ số b2 = 0.846
khác không một cách có ý nghĩa thống kê ở mức ý nghĩa 1%. Hệ số xác định r2 =
0.803 cho biết Rm đã giải thích được 80.3% biến thiên của Ri quanh giá trị trung bình.
Trên cửa sổ lệnh của Eviews ta nhập các lệnh sau đây và xác định được khoảng tin
cậy 95% cho B2 như sau:
• Giá trị chặn dưới: scalar b2_lb=c(2)-@qtdist(0.975,26)*@stderrs(2) = 0.676
• Giá trị chặn trên: scalar b2_ub=c(2)+@qtdist(0.975,26)*@stderrs(2) = 1.014
Với hệ số tự tương quan giữa Ri và Rm là 0.896 (scalar rim=@cor(log(vnm/vnm(-
1)),log(vni/vni(-1))) thì các hệ số beta chặn trên và chặn dưới sẽ được tính như sau:
• Hệ số beta chặn dưới: scalar b2a_lb= b2_lb/rim = 0.676/0.896 = 0.755
• Hệ số beta chặn trên: scalar b2a_ub= b2_ub/rim = 1.014/0.896 = 1.132
Như vậy, chi phí sử dụng vốn cho công ty VinaMilk có thể nằm trong khoảng 14.95%
(scalar coc_lb=10.8%+b2a_lb*5.5%) đến 17.02% (scalar
coc_ub=10.8%+b2a_ub*5.5%), với mức trung bình khoảng 15.99% (xem Chương 6).