VIỆN NGHIÊN CỨU Y XÃ HỘI HỌC
Ứng dụng phân tích hồi quy
Nguyễn Trương Nam
Copyright – Bản quyền thuộc về tác giả và thongke.info. Khi sử dụng một
phần hoặc toàn bộ bài giảng đề nghị mọi người trích dẫn: tên tác giả và
thongke.info. Ví dụ: Nguyễn Thị Linh – Thongke.info.
Nội dung
Tại sao cần phân tích hồi quy?
Các bước xây dựng mô hình hồi quy
Hồi quy tuyến tính đa biến
Hồi quy logic
Đây là ví dụ về hồi quy đa biến, chúng ta ước tính
Y=Điểm tổng kết năm đầu tiên đại học X1=xếp
hạng THPT, X2= Điểm thi vào đại học, X3=giới
tính.
Tại sao cần phân tích hồi quy?
Trong nghiên cứu bán thử nghiệm (quasi-experiment), nghiên cứu viên
không thể có khả năng thay đổi (manipulate) các biến độc lập, do đó
thường có các biến nhiễu xuất hiện. Chúng ta cố gắng để khắc phục
tình huống này bằng phương pháp thống kê cụ thể là sử dụng hồi quy
đa biến.
Trong hồi quy đa biến mối liên hệ của biến phụ thuộc (kết quả) và biến
độc lập (tác động) được đánh giá trong khi kiểm soát các biến nhiễu
khác
Mục đích của hồi quy đa biến: 1) dự báo (prediction): tìm hiểu/phát
hiện các yếu tố có thể dự báo một hiện tượng (biến kết quả); 2) giải
thích (explaination): tìm hiểu/phát hiện các hệ thống/quy trình hoặc
nguyên nhân dẫn tới một hiện tượng.
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Lý do cần phân tích đa biến- ví dụ
ISMS Nghiên cứu đánh giá tác động của một chương trình can thiệp
(kéo dài 2 năm) lên kiến thức và hành vi của trẻ em đường phố tại HP
và HCMC 2010
Hai nhóm: tham gia vào dự án (nhóm can thiệp) – nhóm không tham
gia dự án (nhóm chứng)
Sự thay đổi kiến thức, thái độ, hành vi của nhóm can thiệp sẽ không
chỉ chịu tác động của dự án nói riêng mà còn chịu tác động của các yếu
tố khác ví dụ các chương trình PC HIV khác trên địa bàn, môi trường
sống, tuổi tác, giới tính, có sử dụng ma túy, có bán dâm, nghề kiếm
sống….
Như vậy mối liên quan giữa tham gia dự án và thay đổi hành vi phải
được xem xét/phân tích khi kiểm soát các tác động của các yếu tố
nhiễu khác. Đây chính là nguyên lý của phân tích đa biến
Chỉ số
Nữ
N=179
Nam
N=403
Tiếp cận
dự án
%
Không
tiếp cận
dự án
%
Có kiến thức
đúng về
HIV/AIDS
57.6***
Điểm TB về
kiến thức
HIV± SD
7.49 ±
1.25***
Tổng
N=582
Tiếp cận
dự án
%
Không
tiếp cận
dự án
%
Tổng
%
28.9
56.9***
29.5
39.7
6.33
± 1.85
7.50±
1.23***
5.97
± 1.18
6.55 ±
2.02
Tiếp cận
dự án
%
Không
tiếp cận
dự án
%
29.8
54.9**
5.77
± 2.32
7.56 ±
1.18***
* P < 0.05, ** P < 0.01, *** P < 0.001
Biến độc lập¥
N=582
Tiếp cận với dự án NAM
Không tiếp cận (Nhóm tham chiếu-TC)
Tiếp cận
Trình độ học vấn
THCS
Sử dụng ma túy
Không sử dụng (TC)
Sử dụng ma túy, không chích
Chích ma túy
Nghề kiếm sống
Bán hàng rong hoặc đánh giày (TC)
Làm việc phạm pháp
Bán dâm
Lao động phổ thông
Thất nghiệp/không có thu nhập
Có kiến thức đúng về HIV với không có
kiến thức đúng
Tỉ suất chênh (OR)
95% CI
3.13***
(2.15, 4.54)
1.54
2.16*
(0.85, 2.79)
(1.01, 4.65)
1.61*
2.02**
(1.02, 2.53)
(1.19, 3.45)
-
-
0.80
1.04
0.78
0.42*
(0.46, 1.40)
(0.57, 1.90)
(0.48, 1.26)
(0.19, 0.92)
* P < 0.05, ** P < 0.01, *** P < 0.001
¥Các
biến kiểm soát: giới, tuổi, MSM và nghề kiếm sống.
Bảng: So sánh mức độ sử dụng BCS với PNMD trong vòng 6 tháng qua giữa nhóm tiếp
cận và không tiếp cận dự án
Tiếp cận với dự
án
N=29
%
Không tiếp cận với
dự án
N=48
%
Tổng
N=77
%
Luôn luôn
58.6*
35.4
38.2
Thường xuyên
10.3
14.6
13.0
Thỉnh thoảng
31.0
22.9
26.0
0
27.9
16.0
Mức độ sử dụng BCS với
PNMD
Hiếm khi
* P < 0.05, ** P < 0.01, *** P < 0.001
Một số bằng chứng cho thấy dự án NAM đã có tác động tích cực vào hành vi sử
dụng BCS với PNMD của nam TNDP.Tỉ lệ luôn luôn sử dụng BCS trong vòng 6
tháng qua của trong nhóm có tiếp cận với dự án NAM là 59% trong khi đó tỉ lệ này
ở nhóm không tiếp cận với dự án chỉ là 35%.
Hồi quy logic giữa sử dụng bao cao su với PNMD và tiếp cân với dự án NAM
Biến độc lâp
N=82
Tiếp cận với dự án NAM
Không tiếp cận (TC)
Tiếp cận
Tỉnh/TP
Hai Phong (TC)
Ho Chi Minh
Phân loại TNDP
Các nhóm khác (TC)
Nhóm A
Sử dụng ma túy
Không sử dụng (TC)
Sử dụng ma túy nhưng
không chích
Tiêm chích
Sử dụng BCS với PNMD tất cả các lần
(So với không phải tất cả các lần)
OR (tỉ suất chênh)
95% CI
3.55
(0.89, 14.11)
0.06***
(0.01, 0.28)
0.19*
(0.04, 0.94)
0.74
(0.16, 3.41)
0.13*
(0.02, 0.91)
*P < .05 **P<.01 ***P<.001
Mối quan hệ giữa tiếp cận dự án và sử dụng BCS trong phân tích đa biến không
còn ý nghĩa thống kê (P > 0.005). Kết quả này khác so với các phân tích đôi biến,
bởi vì mô hình đa biến kiểm soát các yếu tố nhiễu tiềm tàng
Xây dựng mô hình hồi quy: đa biến, logic
Hồi quy đa biến
Y = Biến phụ thuộc, liên tục
X1, X2,… Tất cả các biến độc lập là liên tục
hoặc
X1, X2, … Các biến độc lập bao gồm cả
biến liên tục và biến nhị phân (dummy).
X1, X2, … Tất cả các biến độc lập là biến
nhị phân (dummy).
Hồi quy Logic
Y: Biến phụ thuộc là biến nhị phân (biến
đầu ra).
X1, X2,… Tất cả các biến độc lập là biến
liên tục hoặc
X1, X2, … Các biến độc lập bao gồm cả
biến liên tục và biến nhị phân (dummy).
X1, X2, … Tất cả các biến độc lập là biến
nhị phân (dummy).
Ví dụ.
Hồi quy đa biến (Multiple Regression)
◦ Số lần khám thai = b0 + b1(tuổi) + b2(dân tộc)+
b3(học vấn) + b4(tình trạng hôn nhân).
Hồi quy Logic (Logistic Regression)
◦ Hành vi nạo phá thai = b0 + b1(tuổi) + b2(dân
tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)+b5
(Nghề nghiệp) +b6 (tuổi quan hệ tình dục lần
đầu).
Các bước xây dựng mô hình hồi quy
1) Xác định mô hình
◦ Chuyển câu hỏi nghiên cứu thành phương trình
hồi quy.
◦ Xác định các biến độc lập (biến dự đoán).
2) Đánh giá các yếu tố nguy cơ ảnh hưởng tới hiệu
lực của kiểm định thống kê (valid inference)
◦
◦
◦
◦
Cỡ mẫu: đủ mẫu để đảm bảo 20 mẫu/biến độc lập.
Phân phối chuẩn của biến số.
Đảm bảo các biến độc lập – không tương quan.
Kiểm tra và loại trừ outliers.
Các bước xây dựng mô hình hồi quy
3) Xây dựng mô hình (fitting models)
Fitting full model (dựa trên học thuyết – theory).
Fitting từng model bằng cách thêm biến, đánh giá
model fit dựa trên các tiêu chí thống kê, lựa chọn
model tốt nhất – good fit (thăm dò – explotary).
Tự động, ví dụ Stepwise regression.
4) chạy mô hình hồi quy và trình bày kết quả
Xây dựng các mô hình- Chọn các biến trong
mô hình như thế nào?
Y: Biến phụ thuộc (biến kết quả).
X1, X2, X3: Biến độc lập (biến dự đoán).
Mô hình hồi quy đa biến lý tưởng là mô hình có các biến độc lập có
mối liên quan lớn (tuyến tính) với Y (biến phụ thuộc) và biến độc lập
tương đối độc lập với nhau.
Điều này đặt ra câu hỏi chung là làm thế nào để thiết kế mô hình hồi đa
biến tốt?. Trong trường hợp chúng ta đang sư dụng hồi quy đa biến để
kiểm định giả thuyết, tốt nhất là nên dựa vào chính giả thuyết đó để
quyết định những biến độc lập nào sẽ được sử dụng trong mô hình.
Nhưng trong việc thiết kế mô hình tốt để kiểm định một giả thuyết,
chúng ta cũng cần phải dùng một số các tiêu chí thống kê đã được đề
cập để quyết định xây dựng mô hình.
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Các nguyên tắc để thiết kế mô hình hồi quy đa
biến tốt.
Cố gắng đưa tất cả các biến có liên quan quan trọng vào
mô hình hồi quy (nếu không thì tham số ước tính có thể bị
sai số). Trong nghiên cứu bán thử nghiệm, chúng ta cố
gắng đưa tất cả các biến nhiễu không kiểm soát được quan
trọng vào mô hình.
Đảm bảo sự cân bằng giữa mô hình ít tham số“Parsimony”
và “Good fit” (có thể làm tăng lên bằng cách thêm các
tham số).
Không nên sử dụng quá nhiều biến độc lập cho một số hạn
đinh đối tượng nghiên cứu. Một nguyên tắc là mỗi biến
độc lập được đưa vào mô hình phải có ít nhất 20 đối tượng
quan sát (Tốt nhất là 40-50 đối tượng cho 1 biến độc lập,
nhất là khi xây dựng luận thuyết).
Các nguyên tắc để thiết kế mô hình hồi quy đa
biến tốt.
Sử dụng các biến độc lập không có mối tương quan lẫn
nhau (Tránh Multicolinearity). Biến độc lập phải tương đối
‘độc lập’.
Không đưa các biến độc lập giống nhau (thừa) vào cùng
một mô hình. Ví dụ: không sử dụng 2 biến (X1) cấp học
trong kỳ thi cuối cùng và (X2) xếp hạng trong kỳ thi cuối
cùng trong cùng một mô hình để dự đoán về một số các
thay đổi kết quả của học sinh- vì 2 biến này đều dựa trên
các khái niệm và thống kê gần như nhau (redundant).
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Ví dụ.
Hồi quy đa biến (Multiple Regression)
◦ Số lần đi khám thai = b0 + b1(tuổi) + b2(dân
tộc)+ b3(học vấn) + b4(tình trạng hôn nhân) +
b5(nghề nghiệp).
Hồi quy Logic (Logistic Regression)
◦ Hành vi nạo phá thai = b0 + b1(tuổi) + b2(dân
tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)+b5
(Nghề nghiệp) +b6 (tuổi quan hệ tình dục lần
đầu).
Các biến được sử dụng trong mô hình.
1/ Mô hình hồi quy đa biến.
Biến phụ thuộc: Số lần đi khám thai (Q83)
Biến độc lập.
1.
Tuổi (Q2)
2.
Dân tộc (q3)
3.
Học vấn (q10)
4.
Tình trạng hôn nhân (q5)
5.
Nghề nghiệp (Q8)
2/ Mô hình hồi quy logistic.
Biến phụ thuộc: Đã từng nạo phá thai chưa? (Q40_recode).
Các biến độc lập.
1.
Tuổi (Q2)
2.
Dân tộc (q3)
3.
Học vấn (q10)
4.
Tình trạng hôn nhân (q5)
5.
Nghề nghiệp (Q8)
6.
Tuổi quan hệ tình dục lần đầu (Q27).
- Xem thêm -