Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
ĐỀ TÀI : PHÂN TÍCH HỒI QUY - TƯƠNG QUAN VÀ ỨNG DỤNG
TRONG PHÂN TÍCH CÁC NHÂN TỐ ẢNH HƯỞNG ĐẾN TỔNG TỶ
SUẤT SINH
A. PHẦN MỞ ĐẦU
Thống kê học ra đời, phát triển từ nhu cầu thực tiễn của xã hội và là
một trong những môn khoa học xã hội có tính lịch sử lâu dài nhất. Đó là một
quá trình phát triển không ngừng từ đơn giản đến phức tạp, được đúc rút dần
thành lý luận khoa học và ngày nay đã trở thành một môn khoa học độc lập.
Kể từ khi ra đời, thống kê ngày càng đóng vai trò quan trọng trong đời
sống xã hội. Thông qua việc phát hiện, phản ánh những quy luật về mặt lượng
của hiện tượng, các con số thống kê giúp cho việc kiểm tra, giám sát, đánh giá
các chương trình, kế hoạch và định hướng sự phát triển kinh tế - xã hội trong
tương lai. Do vai trò quan trọng của thống kê nên V.I.Lê – nin đã khẳng định
rằng :" thống kê kinh tế - xã hội là một trong những công cụ mạnh mẽ nhất để
nhận thức xã hội ".
Ngày nay, thống kê được coi là một trong những công cụ quản lý vĩ mô
quan trọng, có vai trò cung cấp các thông tin thống kê trung thực, khách quan,
chính xác, đầy đủ, kịp thời phục vụ các cơ quan nhà nước trong việc đánh giá,
dự báo tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát
triển kinh tế - xã hội ngắn hạn và dài hạn .
Đối tượng nghiên cứu của thống kê học là mặt lượng trong mối liên hệ
mật thiết với mặt chất của các hiện tượng số lớn, trong điều kiện thời gian và
địa điểm cụ thể .
1.Lý do chọn đề tài
Các hiện tượng kinh tế - xã hội tồn tại trong mối liên hệ phụ thuộc lẫn
nhau. Phân tích hồi quy và tương quan là phương pháp thường sử dụng để
nghiên cứu mối liên hệ phụ thuộc đó.
2.Mục đích nghiên cứu
Nhiệm vụ của phương pháp phân tích hồi quy và tương quan phải giải
quyết hai vấn đề cơ bản sau :
Một là : xác định mô hình hồi quy phản ánh mối liên hệ
Hai là : đánh giá mức độ chặt chẽ của mối liên hệ tương quan đó.
1
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
Trong đề án này, em sử dụng phương pháp phân tích hồi quy và tương
quan để xây dựng mối liên hệ và phân tích các nhân tố ảnh hưởng đến tổng tỷ
suất sinh.
Và qua đây, em xin gửi lời cảm ơn chân thành tới TS Bùi Đức Triệu Giảng viên khoa Thống kê Trường Đại học Kinh Tế Quốc Dân đã hướng dẫn
em hoàn thành đề án này.
2
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
B. PHẦN NỘI DUNG
I. LÝ THUYẾT VÀ ỨNG DỤNG
1. Liên hệ hàm số và liên hệ tương quan
Chủ nghĩa duy vật biện chứng khẳng định : các hiện tượng tồn tại trong
mối liên hệ phụ thuộc lẫn nhau. Phương pháp phân tích hồi quy và tương
quan là một trong những phương pháp thường được sử dụng để nghiên cứu
mối liên hệ phụ thuộc đó. Khi nghiên cứu mối liên hệ phụ thuộc, nếu xét theo
mức độ chặt chẽ của mối liên hệ, có thể phân thành hai loại : liên hệ hàm số
và liên hệ tương quan.
- Liên hệ hàm số là mối liên hệ hoàn toàn chặt chẽ giữa tiêu thức
nguyên nhân – kí hiệu là x và tiêu thức kết quả - kí hiệu là y. Dạng tổng quát
của liên hệ hàm số : y = f(x), tức là : Cứ mỗi giá trị của tiêu thức nguyên nhân
sẽ có một giá trị tương ứng của tiêu thức kết quả. Mối liên hệ này có thể thấy
được không những ở toàn bộ tổng thể, mà cả trên từng đơn vị cá biệt. Liên hệ
hàm số thường gặp khi nghiên cứu các hiện tượng tự nhiên như Vật lý, Toán
học…như mối liên hệ giữa bán kính và diện tích hình tròn, ta có công thức
sau : S = R2.
- Liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ giữa tiêu
thức nguyên nhân và tiêu thức kết quả : Cứ mỗi giá trị của tiêu thức nguyên
nhân sẽ có nhiều giá trị tương ứng của tiêu thức kết quả. Ví dụ : mối liên hệ
giữa số lượng sản phẩm và giá thành đơn vị sản phẩm.Không phải khi khối
lượng sản phẩm tăng lên thì giá thành đơn vị sản phẩm sẽ giảm theo một
lượng tương ứng. Cũng như mối liên hệ giữa số lượng phân bón và năng suất
cây trồng, mối liên hệ giữa vốn đầu tư và kết quả sản xuất…Các mối liên hệ
này là các mối liên hệ không hoàn toàn chặt chẽ, không được biểu hiện một
cách rõ ràng trên từng đơn vị cá biệt. Do đó để phản ánh mối liên hệ tương
quan thì phải nghiên cứu hiện tượng số lớn, tức là thu thập tài liệu về tiêu
thức nguyên nhân và tiêu thức kết quả của nhiều đơn vị. Liên hệ tương quan
thường gặp khi nghiên cứu các hiện tượng kinh tế - xã hội.
2. Ý nghĩa phân tích hồi quy và tương quan
Phương pháp phân tích hồi quy và tương quan là phương pháp thường
được sử dụng trong thống kê để nghiên cứu mối liên hệ giữa các hiện tượng,
như mối liên hệ giữa các yếu tố đầu vào của quá trình sảnh xuất với kết quả
sản xuất, mối liên hệ giữa thu nhập và tiêu dùng, mối liên hệ giữa phát triển
kinh tế – xã hội…
Phương pháp phân tích hồi quy và tương quan còn được vận dụng trong
một số phương pháp nghiên cứu thống kê khác như phân tích dãy số thời
gian, dự đoán thống kê…
3
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
3. Hồi quy tương quan tuyến tính đơn
Ví dụ : Có tài liệu về số lao động và giá trị sản xuất (GO) của 10 doanh
nghiệp công nghiệp như sau :
Lao động
(người)
60
78
90
115
126
169
198
226
250
300
GO
(Tỷ đồng)
9.25
8.73
10.62
13.64
10.93
14.31
22.1
19.17
25.2
27.5
Trong mối liên hệ giữa số lượng lao động và giá trị sản xuất thì số
lượng lao động là tiêu thức nguyên nhân – kí hiệu la x, giá trị sản xuất là tiêu
thức kết quả - kí hiệu là y.
Tài liệu trên cho thấy: Nhìn chung,cùng với sự tăng lên của số lượng
lao động thì giá trị sản xuất cũng tăng lên,nhưng cũng có trường hợp không
hẳn như vậy – như doanh nghiệp thứ hai so vơi doanh nghiệp thứ nhất: Số lao
động nhiều hơn nhưng giá trị sản xuất lại thấp hơn. Điều này chứng tỏ giữa số
lượng lao động và giá trị sản xuất có mối liên hệ không hoàn toàn chặt chẽ tức là liên hệ tương quan.
Có thể dùng đồ thị để biểu hiện mối liên hệ với trục hoành là số lao
động (x) , trục tung là giá trị sản xuất (y) như sau:
4
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
30
20
Y
10
0
0
100
200
300
400
X
Trên đồ thị có mười chấm, mỗi chấm biểu hiện số lao động và giá trị
sản xuất của từng doanh nghiệp.Các chấm trên đồ thị tạo thành một băng
đường thẳng,từ đó có thể xây dựng mô hình hồi quy sau.
Mô hình hồi quy đơn :
ŷx = b0 + b1x
Trong đó :
ŷx : là giá trị của tiêu thức kết quả được tính từ mô hình hồi quy
b0 : là hệ số tự do, phản ánh ŷx không phụ thuộc vào x
b1 : là hệ số góc, phản ánh sự thay đổi của ŷx khi x tăng một đơn vị.
Các hệ số b0 và b1 được xác định bằng phương pháp bình phương nhỏ nhất :
∑ (y- ŷx)2 = Min
Từ đó, có hệ phương trình sau :
�
�y nb0 b1 �x
�
�
�
�xy b0 �x b1 �x 2
Để tìm b0 và b1 cần tính ∑x, ∑y, ∑xy, ∑x2 bằng cách lập bảng sau:
5
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
x
y
xy
x2
60
78
90
115
126
169
198
226
250
300
∑x =1612
9.25
8.73
10.62
13.64
10.93
14.31
22.1
19.17
25.2
27.5
∑y=161.45
555.00
680.94
955.80
1568.60
1377.18
2418.39
4375.80
4332.42
6300.00
8250.00
∑xy=30814.13
∑x2=318226
3600
6084
8100
13225
15876
28561
39204
51076
62500
90000
Thay số liệu vào hệ phương trình trên:
161.45 10b0 1612b1
�
�
30814.13 1612b0 318226b1
�
Giải hệ phương trình trên ,sẽ được :
b0 = 2.927 ; b1 = 0.082
Mô hình hồi quy tuyến tính phản ánh mối liên hệ giữa số lượng lao
động và giá trị sản xuất là :
ŷx = 2.927 + 0.082x
b0 = 2.927 : nói lên các nguyên nhân khác ngoài x, ảnh hưởng đến GO.
b1 = 0.082 : nói lên khi thêm một lao động thì GO tăng bình quân 0.082 tỷ
đồng.
Bằng cách biến đổi hệ phương trình trên, có thể tính b0 và b1như sau:
b1
xy x. y
x2
b0 y b1.x
�xy =
Với
30814.13
= 3081.413
10
n
�x = 1612 = 161.2
x
10
n
�y = 161.45 = 16.145
y
10
n
xy
6
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
318226
(161.2) 2 5837.16
10
3081.413 161.2*16.145
b1
0.082
5837.16
b0 16.145 0.082*161.2 2.927
x2 x 2 ( x )2
Để đánh giá mức độ chặt chẽ của mô hình hồi quy giữa hai tiêu thức số
lượng, ta tính hệ số tương quan tuyến tính ( kí hiệu : r )
Có nhiều công thức để tính r, trong đó hai công thức sau đây thường được sử
dụng :
r
xy x. y
x . y
Hoặc :
r b1
x
y
Theo ví dụ trên:
r=
3081.413 161.2*16.145
= 0.961
5837.16* 42.54
Tính chất : r nằm trong khoảng 1;1 , tức là :-1≤ r ≤1
Cụ thể :
- Nếu r = 1 ( hoặc r = -1 ): Giữa x và y có mối liên hệ hàm số.
- Nếu r = 0 : Giữa x và y không có mối liên hệ tương quan tuyến tính.
- Nếu r � 1 ( hoặc r � -1 ) : Giữa x và y có mối liên hệ càng chặt chẽ.
- Nếu r dương : Giữa x và y có mối liên hệ thuận, nếu r âm : Giữa x và y
có mối liên hệ nghịch.
Ta thấy r = 0.961 nói lên : mối liên hệ giữa số lượng lao động và giá trị sản
xuất rất chặt chẽ và đây là mối liên hệ thuận.
4. Hồi quy tương quan phi tuyến giữa hai tiêu thức số lượng
4.1 Mô hình parabol :
$
y x b0 b1 x b2 x 2
Áp dụng phương pháp bình phương nhỏ nhất sẽ có hệ phương trình sau
đây để tìm giá trị các hệ số b0 , b1, b2 :
�
y nb0 b1 �x b2 �x 2
�
�
�
�
�xy b0 �x b1 �x 2 b2 �x 3
� 2
�x y b0 �x 2 b1 �x3 b2 �x 4
�
7
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
4.2
Mô hình hyperbol :
b
$
y x b0 1
x
Áp dụng phương pháp bình phương nhỏ nhất sẽ có hệ phương trình sau
đây để tìm giá trị các hệ số b0 , b1 :
�
�ln y n ln b0 ln b1 �x
�
�
�
�x ln y ln b0 �x ln b1 �x 2
4.3
Mô hình hàm mũ :
$
y x b0b1x
Áp dụng phương pháp bình phương nhỏ nhất sẽ có hệ phương trình sau
đây để tìm giá trị các hệ số b0 , b1 :
�
�ln y n ln b0 ln b1 �x
�
�
�
�x ln y ln b0 �x ln b1 �x 2
Giải hệ phương trình trên sẽ tính được lnb 0 ,lnb1. Tra đối ln sẽ được giá trị của
b0 , b1.
* Để đánh giá mức độ chặt chẽ của mối liên hệ tương quan phi tuyến và
tuyến tính giữa hai tiêu thức số lượng, ta tính tỷ số tương quan ( kí hiệu :êta )
Tính chất : nằm trong khoảng 0;1 tức là : 0 � �1 . Cụ thể :
- Nếu = 1 : Giữa x và y có mối liên hệ hàm số
- Nếu = 0 : Giữa x và y không có mối liên hệ.
- Nếu � 1 : Giữa x và y có mối liên hệ càng chặt chẽ.
5. Hồi quy tương quan tuyến tính bội
Giả sử có k tiêu thức nguyên nhân :
x1 , x2 , x3 ,..., xk $
y x1 x2 ..... xk b0 b1 x1 b2 x2 b3 x3 ..... bk xk và tiêu thức kết quả y, mô
hình hồi quy tuyến tính bội sẽ có dạng :
$
y x1x2 ..... xk b0 b1 x1 b2 x2 b3 x3 ..... bk xk
Trong đó :
b0 là hệ số tự do.
b1,b2,b3,…,bk là các hệ số hồi quy riêng.
Áp dụng phương pháp bình phương nhỏ nhất sẽ có hệ phương trình sau đây
để tính b0, b1,b2,b3,…,bk :
8
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
�
�y nb0 b1 �x1 b2 �x2 b3 �x3 .... bk �xk
�
�
�yx1 b0 �x1 b1 �x12 b2 �x1 x2 b3 �x1 x3 .... bk �x1xk
�
�yx 2 b0 �x2 b1 �x1 x2 b2 �x22 b3 �x2 x3 .... bk �x2 xk
�
�
......................................................................................................
�
�
......................................................................................................
�
......................................................................................................
�
�
yx k b0 �xk b1 �x1 xk b2 �x2 xk b3 �x3 xk .... bk �xk2
�
�
�
* Hệ số hồi quy chuẩn hóa – kí hiệu: beta, được sử dụng để đánh giá
mức độ ảnh hưởng của từng tiêu thức nguyên nhân xi đối với tiêu thức kết quả
y, và được tính hệ công thức sau đây :
betai bi
xi
y
Với
xi
SS ( xi )
n 1
y
SS ( y )
n 1
Dấu của betai là dấu của bi, phản ánh chiều hướng mối liên hệ là thuận
hay nghịch giữa tiêu thức nguyên nhân xi đối với tiêu thức kết quả y. Nếu
betai dương thì phản ánh mối quan hệ thuận, nếu betai âm thì phản ánh mối
quan hệ nghịch.
betai phản ánh mức độ ảnh hưởng của từng tiêu thức nguyên nhân x i đối
với tiêu thức kết quả y.
* Hệ số tương quan bội và hệ số tương quan riêng phần.
- Hệ số tương quan bội ( kí hiệu R ) được sử dụng để đánh giá mức độ
chặt chẽ mối liên hệ tương quan tuyến tính giữa tất cả các tiêu thức nguyên
nhân x1 , x2 , x3 ,..., xk với tiêu thức kết quả y và được tính theo công thức sau
đây :
R
�( y $y
1
�( y y)
x1 x2 ... xk
)2
2
Tính chất : R nằm trong khoảng 0;1 , tức là 0 �R �1 . Cụ thể :
+ Nếu R = 1 : Giữa x1 , x2 , x3 ,..., xk và y có mối quan hệ hàm số.
+ Nếu R = 0 : Giữa x1 , x2 , x3 ,..., xk và y không có mối liên hệ tương quan
tuyến tính.
9
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
+ Nếu R � 1 : Giữa x1 , x2 , x3 ,..., xk và y có mối liên hệ tương quan tuyến tính
càng chặt chẽ.
Trong trường hợp chỉ có hai tiêu thức nguyên nhân, ta có thể tính hệ số
tương quan tuyến tính bội theo công thức sau đây :
R
Với
ryx2 1 ryx2 2 2ryx1 ryx 2 rx1x2
1 rx21x2
ryx1 , ryx 2 , rxx x2 là các hệ số tương quan tuyến tính đơn, ta có :
ryx1
( x1 y x1 y )
x1 y
ryx 2
( x2 y x2 y )
x2 y
rx1x2
( x1 x2 x1 x2 )
x1 x2
- Hệ tương quan riêng phần được sử dụng để đánh giá mức độ chặt chẽ
giữa một tiêu thức nguyên nhân nào đó với tiêu thức kết quả y trong khi các
tiêu thức nguyên nhân khác không đổi.
+ Hệ số tương quan riêng phần giữa x1 và y trong khi x2 không đổi:
ryx1 ( x2 )
ryx1 ryx 2 rx1x2
(1 ryx2 2 )(1 rx21x2 )
+ Hệ số tương quan riêng phần giữa x2 và y trong khi x1 không đổi:
ryx 2 ( x1 )
ryx 2 ryx1 rx1x2
(1 ryx2 1 )(1 rx21x2 )
6. Đa cộng tuyến
Khi xây dựng mô hình hồi quy giữa nhiều tiêu thức, về phương diện lý
thuyết phải đảm bảo các tiêu thức nguyên nhân xi không tương quan với nhau.
Nếu giữa các tiêu thức nguyên nhân x i có tương quan tuyến tính với nhau thì
được gọi là hiện tượng đa cộng tuyến.
Hậu quả của đa cộng tuyến là làm cho việc ước lượng các hệ số của mô
hình hồi quy sẽ không chính xác, ảnh hưởng đến việc suy rộng các kết quả
tính toán.
Để khắc phục hiện tượng đa cộng tuyến, trong một số chương trình về
thống kê, ví dụ như chương trình SPSS, có một số phương pháp xây dựng mô
hình hồi quy sau đây :
- Phương pháp đưa vào dần ( Forward selectinon ): Tiêu thức đầu tiên
được xem xét để đưa vào mô hình hồi quy là tiêu thức nguyên nhân có hệ số
tương quan lớn nhất ( về trị tuyệt đối ) với tiêu thức kết quả. Để xem xét tiêu
thức nguyên nhân này ( và những tiêu thức nguyên nhân khác ) có được đưa
10
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
vào mô hình hồi quy hay không thì sử dụng tiêu chuẩn vào là thống kê F
(được mặc định F = 3,84 ) . Nếu tiêu thức nguyên nhân đầu tiên được xem xét
để đưa vào mô hình hồi quy thỏa mãn tiêu chuẩn vào thì phương pháp đưa
vào dần sẽ tiếp tục, nếu không, không có tiêu thức nguyên nhân nào được đưa
vào mô hình hồi quy.
Khi tiêu thức nguyên nhân đầu tiên đã thỏa mã tiêu chuẩn vào mô hình
hồi quy thì tiêu thức nguyên nhân thứ hai được xem xét có thoả mãn tiêu
chuẩn vào hay không là tiêu thức nguyên nhân có hệ số tương quan riêng
phần lớn nhất ( về trị tuyệt đối ) với tiêu thức kết quả. Nếu tiêu thức này thoả
mãn tiêu chuẩn vào sẽ được đưa vào mô hình hồi quy. Thủ tục này sẽ tiếp tục
cho đến khi không còn tiêu thức nguyên nhân nào thỏa mãn tiêu chuẩn vào.
- Phương pháp loại trừ dần ( Backward elimintion ): Tất cả các tiêu
thức nguyên nhân được đưa vào mô hình hồi quy. Sau đó loại trừ dần chúng
bằng tiêu chuẩn loại trừ. Tiêu chuẩn loại trừ là giá trị F tối thiểu ( được mặc
định F = 2,71 ) mà tiêu thức nguyên nhân phải đạt được để được ở lại trong
mô hình hồi quy. Nếu các tiêu thức nguyên nhân có giá trị F nhỏ hơn giá trị F
tối thiểu thì chúng sẽ bị loại khỏi mô hình hồi quy.
- Phương pháp chọn từng bước ( Stepwise selection ): Là sự kết hợp
giữa hai phương pháp trên và là phương pháp thường được sử dụng.
Tiêu thức nguyên nhân đầu tiên được chọn để đưa vào mô hình hồi quy
giống như phương pháp đưa dần vào, nếu có không thỏa mãn tiêu chuẩn vào
thì thủ tục này sẽ chấm dứt và không có tiêu thức nguyên nhân nào được lựa
chọn. Nếu nó thỏa mãn tiêu chuẩn vào thì tiêu thức nguyên nhân thứ hai được
lựa chọn dựa vào hệ số tương quan riêng phần lớn nhất ( về trị tuyệt đối ).
Nếu tiêu thức nguyên nhân thứ hai thỏa mãn tiêu chuẩn vào thì nó cũng sẽ đi
vào mô hình hồi quy.
Sau đó, dựa vào tiêu chuẩn ra để xem xét tiêu thức nguyên nhân thứ
nhất có phải loại bỏ khỏi mô hình hồi quy hay không. Trong bước kế tiếp, các
tiêu thức nguyên nhân không ở trong mô hình hồi quy được xem xét và để
đưa vào. Sau mỗi bước, các tiêu thức nguyên nhân ở trong mỗi mô hình hồi
quy được xem xét để loại trừ ra cho đến khi không còn tiêu thức nguyên nhân
nào thỏa mãn tiêu chuẩn ra thì kết thúc.
Các mô hình hồi quy được xây dựng theo các phương pháp trên có thể
khác nhau. Tuỳ thuộc vào mục đích và nhiệm vụ nghiên cứu cụ thể để lựa
chọn mô hình thích hợp.
7. Tương quan hạng
Tương quan hạng có thể được sử dụng trong trường hợp số lượng đơn
vị không nhiều để nghiên cứu mối liên hệ tương quan giữa hai tiêu thức. Đối
với mỗi tiêu thức, cần phải xếp hạng từ thấp đến cao phù hợp với biểu hiện
11
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
của tiêu thức - tức là sử dụng thang đo thứ bậc. Nếu biểu hiện tiêu thức của
một số đơn vị giống nhau thì lấy hạng bình quân của các đơn vị đó.
Hệ số tương quan hang rs của Spearman được sử dụng để đánh giá mức
độ chặt chẽ và tính theo công thức sau đây:
rs 1
6�di2
n(n 2 1)
Trong đó :
n : Số đơn vị nghiên cứu ;
di : Hiệu của hai hạng đơn vị i, với i 1, n
Tính chất của hệ số tương quan hạng giống với tính chất của hệ số
tương quan tuyến tính giữa hai tiêu thức số lượng, tức là :
1 �rs �1
8. Tương quan giữa hai tiêu thức thuộc tính
Để nghiên cứu mối liên hệ tương quan giữa hai tiêu thức thuôc tính,
trước hết phải phân tổ kết hợp theo hai tiêu thức đó. Dựa vào bảng phân tổ kết
hợp để tính hệ số liên hợp. Hệ số liên hợp thường được sử dụng là hệ số liên
hợp của Cramer :
2
k
n.min (d 1), (c 1)
Trong đó :
(n n$ij )2
2 � ij
n$ij
với nij là tần số thực tế,
n$ij = (tổng dòng x tổng cột)/n là tần số lý thuyết.
n: số đơn vị nghiên cứu
d: số dòng của bảng phân tổ kết hợp
c: số cột của bảng phân tổ kết hợp
k: có giá trị trong khoảng 0;1 .
Nếu k = 0 cho biết không có mối quan hệ
k = 1 cho biết mối quan hệ hoàn toàn chặt chẽ.
12
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
II. VẬN DỤNG ĐỂ PHÂN TÍCH SỐ LIỆU THỰC TẾ
(dùng hồi quy tương quan tuyến tính giữa nhiều tiêu thức số lượng)
Theo kết quả cuộc Tổng điều tra dân số năm 1999 và báo cáo phát triển
con người năm 2001, có tài liệu của 10 tỉnh phía Bắc nước ta như sau :
Tỉnh
A
B
C
D
E
F
G
H
I
K
Y
2.72
2.27
2.39
2.53
2.61
3.04
3.96
3.55
3.61
5.07
X1
2.18
2.85
2.25
2.21
1.62
2.5
2.11
1.82
1.52
1.85
X2
3.3
9.69
32.29
29.35
2.74
25.8
29.35
43.09
32.3
56.49
X3
57.6
65.1
31.6
41.7
40.1
62.1
53.6
53.3
65.8
64.5
X4
21.08
21.21
21.19
20.82
20.98
20.39
20.06
19.38
20.69
19.78
X5
56.45
31.45
49.49
51.68
60.85
33.47
31.29
53.84
39.85
32.17
Trong đó :
Y : Tổng tỷ suất sinh
X1: GDP bình quân theo đầu người ( triệu đồng )
X2: Tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết (%)
X3: Tỷ suất chết của trẻ em dưới 1 tuổi (‰)
X4: Tuổi kết hôn trung bình lần đầu của phụ nữ 15 – 49 tuổi (tuổi)
X5: Tỷ lệ phụ nữ 15 – 49 tuổi thực hiện biện pháp tránh thai (%)
Có nhiều phương pháp để xây dựng mô hình hồi quy như : phương
pháp đưa vào một lượt (enter), phương pháp loại trừ dần ( forward ), phương
pháp chọn từng bước ( stepwise )
- Phương pháp đưa vào một lượt ( enter ) : các tiêu thức nguyên nhân
( các biến độc lập ) đều được đưa vào một lượt trong mô hình hồi quy, không
có tiêu thức nguyên nhân nào bị loại khỏi mô hình. Ta có một số kết quả sau
đây :
Descriptive Statistics
Y
X1
X2
X3
X4
X5
Mean
Std. Deviation
3.1750 .87768
2.0910 .40421
26.4400 17.13944
53.5410 11.99905
20.5580 .63512
44.0540 11.60432
Correlations
13
N
10
10
10
10
10
10
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
Pearson
Correlation
Y
Sig. (1-tailed)
N
X1
X2
X3
X4
X5
Y
X1
X2
X3
X4
X5
Y
X1
X2
X3
X4
X5
Y
X1
X2
X3
X4
X5
1.000
-.473
.744
.475
-.789
-.460
-.473
.744
.475
-.789
-.460
.
.084
.007
.083
.003
.090
10
10
10
10
10
10
1.000
-.283
.103
.358
-.392
.084
.
.214
.389
.155
.131
10
10
10
10
10
10
-.283
1.000
.140
-.736
-.374
.007
.214
.
.349
.008
.144
10
10
10
10
10
10
.103
.140
1.000
-.307
-.643
.083
.389
.349
.
.194
.022
10
10
10
10
10
10
.358
-.736
-.307
1.000
.242
.003
.155
.008
.194
.
.250
10
10
10
10
10
10
-.392
-.374
-.643
.242
1.000
.090
.131
.144
.022
.250
.
10
10
10
10
10
10
Bảng Correlations cho các hệ số tương quan cặp ( tương quan giữa hai tiêu
thức số lượng ).
Variables Entered/Removed(b)
Model
1
Variables Entered
Variables
Removed
Method
X5, X4, X1, X3, X2(a)
.
Enter
a All requested variables entered.
b Dependent Variable: Y
Model Summary
Model
R
R Square
Adjusted R Square
1
.939(a)
.882
.735
a Predictors: (Constant), X5, X4, X1, X3, X2
Std. Error
of
the
Estimate
.45180
Bảng Model Summary cho thấy :
+ hệ số tương quan bội R = 0,939 phản ánh mối liên hệ giữa các tiêu thức
nguyên nhân X1,X2,X3,X4,X5 với tiêu thức kết quả Y rất chặt chẽ.
+ hệ số xác định bội R2 = 0,882 phản ánh 88,2% sự biến động của tiêu thức
kết quả Y là do các tiêu thức nguyên nhân X mang lại.
14
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
Coefficients(a)
Model
1
(Constant)
X1
X2
X3
X4
X5
Unstandardized
Coefficients
Std.
B
Error
15.71
9.280
8
-1.021 .500
.010
.016
.009
.019
-.477 .394
-.031 .024
Standardized
Coefficients
t
Sig.
1.694
.166
-2.042
.603
.492
-1.211
-1.308
.111
.579
.648
.292
.261
Beta
-.470
.186
.129
-.345
-.409
a Dependent Variable: Y
Bảng Coefficients(a) cho các hệ số của các mô hình hồi quy tuyến tính bội:
Ŷ = 15,718 – 1,021X1 + 0,01X2 + 0,009X3 – 0.477X4 – 0,031X5
b0 = 15,718 : là hệ số tự do phản ánh tổng tỷ suất sinh không phụ thuộc
vào các nguyên nhân có trong mô hình.
b1 = -1,021 : khi GDP bình quân theo đầu người tăng thêm 1 triệu đồng
thì tổng tỷ suất sinh giảm tương ứng 1,021 đơn vị.
b2 = 0,01 : khi tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc, biết viết
tăng thêm 1% thì tổng tỷ suất sinh tăng tương ứng 0,01 đơn vị.
b3 = 0,009 : khi tỷ suất chết của trẻ em dưới 1 tuổi tăng thêm 1‰ thì
tổng tỷ suất sinh tăng tương ứng 0,009 đơn vị.
b4 = -0,477 : khi tuổi kết hôn trung bình lần đầu của phụ nữ 15 – 49 tuổi
tăng thêm 1 tuổi thì tổng tỷ suất sinh giảm tương ứng 0,477 đơn vị .
b5 = -0,031 : khi tỷ lệ phụ nữ 15 – 49 tuổi thực hiện biện pháp tránh
thai tăng thêm 1% thì tổng tỷ suất sinh giảm tương ứng 0,031 đơn vị.
Dấu của các hệ số hồi quy phản ánh chiều hướng mối liên hệ của từng
tiêu thức nguyên nhân với tiêu thức kết quả.
* b2 = 0,01 và b3 = 0,009 có dấu dương phản ánh mối liên hệ giữa X 2 và
X3 với Y là mối liên hệ thuận. Hay tỷ lệ phụ nữ 15 - 49 tuổi chưa biết đọc,
biết viết và tỷ suất chết của trẻ em dưới 1 tuổi với Tổng tỷ suất sinh có mối
liên hệ thuận.
* b1 = -1,021 ; b4 = -0,477 ; b5 = -0,031 có dấu âm phản ánh mối liên
hệ giữa X1, X4, X5 với Y là mối liên hệ nghịch. Hay GDP bình quân theo đầu
người, tuổi kết hôn trung bình lần đầu của phụ nữ 15 – 49 tuổi, tỷ lệ phụ nữ
15
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
15 – 49 tuổi thực hiện biện pháp tránh thai với Tổng tỷ suất sinh có mối liên
hệ nghịch.
Bảng Coefficients(a) còn cho biết các hệ số hồi quy chuẩn hoá beta,
cho phép đánh giá mức độ ảnh hưởng cũng như chiều hướng tác động của
từng tiêu thức nguyên nhân X đến tiêu thức kết quả Y. Giá trị tuyệt đối của
beta càng lớn thì ảnh hưởng của tiêu thức nguyên nhân đến tiêu thức kết quả
càng lớn và dấu của beta là dấu của hệ số hồi quy thông thường. Theo kết quả
trên :
bate1 0, 47 0, 47 là lớn nhất
bata5 0, 409 là lớn thứ hai
Chứng tỏ ảnh hưởng của X1 ( GDP bình quân theo đầu người ) và X5 ( tỷ lệ
phụ nữ 15 – 49 tuổi thực hiện biện pháp tránh thai ) đến Tổng tỷ suất sinh là
lớn thứ nhất và thứ hai.
Mô hình hồi quy trên có nhiều tiêu thức nguyên nhân,chúng dễ có
tương quan tuyến tính với nhau nên không tránh khỏi hiện tượng đa cộng
tuyến.Vì thế,việc ước lượng các hệ số của mô hình sẽ không chính xác, ảnh
hưởng tới việc suy rộng kết quả tính toán.
Để khắc phục hiện tượng trên,ta dùng một số phương pháp sau đây:
-Phương phap loại trừ dần(backward):Tất cả các tiêu thức nguyên nhân
được đưa vào mô hình hồi quy,sau đó tuần tự loại trừ chúng bằng tiêu chuẩn
loại trừ.Tiêu chuẩn loại trừ là giá trị F tối thiểu phải đạt được để ở lại mô
hình.Nếu các tiêu thức nguyên nhân có giá trị F nhỏ hơn giá trị F tối thiểu thì
chúng sẽ bị loại khỏi mô hình.Theo phương pháp này ta có kết quả sau đây:
Model Summary
Model R
R Square Adjusted R Square
1
.939(a) .882
.735
2
.935(b) .875
.775
3
.933(c) .870
.805
a Predictors: (Constant), X5, X4, X1, X3, X2
b Predictors: (Constant), X5, X4, X1, X2
c Predictors: (Constant), X5, X4, X1
Std. Error of the Estimate
.45180
.41616
.38780
Coefficients(a)
Model
Unstandardized
Standardized
16
t
Sig.
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
1
(Constant)
2
X1
X2
X3
X4
X5
(Constant)
3
X1
X2
X4
X5
(Constant)
X1
X4
X5
Coefficients
Coefficients
Std.
B
Error
Beta
15.71
9.280
8
-1.021 .500
-.470
.010
.016
.186
.009
.019
.129
-.477 .394
-.345
-.031 .024
-.409
18.37
6.949
8
-1.084 .445
-.499
.006
.013
.115
-.553 .333
-.400
-.039 .016
-.516
20.69
4.441
5
-1.132 .404
-.521
-.648 .244
-.469
-.042 .014
-.551
a Dependent Variable: Y
1.694
.166
-2.042
.603
.492
-1.211
-1.308
.111
.579
.648
.292
.261
2.645
.046
-2.435
.458
-1.661
-2.498
.059
.666
.158
.055
4.660
.003
-2.804
-2.660
-3.081
.031
.038
.022
Phương pháp này cho ba mô hình hồi quy:
Mô hình 1:
Ŷ = 15,718 – 1,021X1 + 0,01X2 + 0,009X3 – 0.477X4 – 0.031X5
Mô hình 2:
Ŷ = 18.378 – 1,084X1 + 0,006X2 – 0.553X4 – 0.039X5
Hệ số tương quan bội R = 0.935
Như vậy X3 đã bị loại khỏi mô hình.
Mô hình 3:
Ŷ = 20.695 – 1,132X1 – 0.648X4 – 0.0417X5
Hệ số tương quan bội R=0.933
Như vậy thêm X2 bị loại khỏi mô hình.
-Phương pháp đưa dần vào(forward): Tiêu thức đầu tiên được xem xét
để đưa vào mô hình hồi quy là tiêu thức nguyên nhân có hê số tương quan lớn
nhất ( về trị tuyệt đối ) với tiêu thức kết quả. Để xem xét tiêu thức nguyên
nhân này ( và những tiêu thức nguyên nhân khác ) có được đưa vào mô hình
hồi quy hay không thì sử dụng tiêu chuẩn vào là thống kê F ( được mặc định
F = 3,84 ) . Nếu tiêu thức nguyên nhân đầu tiên được xem xét để đưa vào mô
hình hồi quy thỏa mãn tiêu chuẩn vào thì phương pháp đưa vào dần sẽ tiếp
tục, nếu không, không có tiêu thức nguyên nhân nào được đưa vào mô hình
hồi quy.Theo phương pháp này,có kết quả sau:
17
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
Model Summary
Model R
R Square
1
.789(a) .622
a Predictors: (Constant), X4
Adjusted R Square
.575
Std. Error of the Estimate
.57202
Coefficients(a)
Unstandardized
Coefficients
Model
1
(Constant)
X4
Standardized
Coefficients
B
Std. Error Beta
25.58
6.175
8
-1.090 .300
-.789
a Dependent Variable: Y
t
Sig.
4.144
.003
-3.632
.007
Như vậy,phương pháp này chỉ có một mô hình:
Ŷ=25.588-1.09X4
Hệ số tương quan R= -0.789(đây là hệ số tương quan cặp giữa X 4 với tiêu
thức kết quả Y có giá trị tuyệt đối lớn nhất).
-Phương pháp chọn tưng bước(stepwise):là sự kết hợp giữa phương
pháp đưa dần vào và phương pháp loại trừ dần.Theo phương phap này,kết quả
tính được giống phương phàp đưa dần vào.Tức là:
Model Summary
Model R
R Square
1
.789(a) .622
a Predictors: (Constant), X4
Adjusted R Square
.575
18
Std. Error of the Estimate
.57202
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
Coefficients(a)
Model
1
(Constant)
X4
Unstandardized Standardized
Coefficients
Coefficients
Std.
B
Error
Beta
25.58
6.175
8
-1.090 .300
-.789
a Dependent Variable: Y
Mô hình:
Ŷ=25.588-1.09X4
19
t
Sig.
4.144
.003
-3.632
.007
Website: http://www.docs.vn Email :
[email protected] Tel (: 0918.775.368
C.PHẦN KẾT THÚC
Trên đây là bốn phương pháp xây dựng mô hình hồi quy tuyến tính bội.
Trong đó , với phương pháp đưa vào một lượt ( Enter ) và mô hình thứ nhất
của phương pháp loại trừ dần ( backward ) thì không có tiêu thức nguyên
nhân nào bị loại khỏi mô hình. Như vậy, nếu như giữa các tiêu thức nguyên
nhân có tương quan với nhau ( gọi là hiện tương đa cộng tuyến ) thì chúng
vẫn ở trong mô hình. Điều đó làm cho mô hình hồi quy phản ánh không chính
xác mối liên hệ. Để khắc phục hiện tượng đa cộng tuyến, tuỳ theo yêu cầu
nghiên cứu cụ thể mà lựa chọn mô hình thứ hai hoặc thứ ba của phương pháp
loại trừ dần ; hoặc các mô hình của phương pháp đưa dần vào ( Forward ) ,
hoặc của phương pháp chọn từng bước ( Stepwise ).
20