Lập mô hình phương trình cấu trúc SEM
(Tác giả: Nguyễn Quỳnh Anh – Nguồn: mba-15.com)
Phần này tóm tắt ngắn gọn và không thiên về đặc tính kỹ thuật của các
vấn đề căn bản có liên quan trong SEM, bao gồm các vấn đề ước lượng,
thích hợp mô hình, và các giả thiết thống kê.
SEM (Structural Equation Modeling) là một kỹ thuật mô hình thống kê rất
tổng quát, được sử dụng rộng rãi trong khoa học nghiên cứu hành vi. Nó có
thể được xem là sự kết hợp của phân tích nhân tố và hồi quy hay phân tích
đường dẫn. Sự quan tâm trong SEM thường là vào các kiến trúc lý thuyết,
được trình bày bởi các nhân tố ngầm. Các quan hệ giữa các kiến trúc lý
thuyết được trình bày bởi các hệ số hồi quy hay hệ số đường dẫn giữa các
nhân tố. SEM ám chỉ 1 cấu trúc của các hiệp tương quan (covariances) giữa
các biến được quan sát, các quan hệ này cho ra một tên khác là mô hình hóa
cấu trúc hiệp tương quan (covariance structure modeling). Tuy nhiên, mô
hình có thể được mở rộng thêm bao gồm trung bình của các biến quan sát
được hoặc các nhân tố trong mô hình, làm cho tên mô hình hóa cấu trúc hiệp
tương quan ít chính xác. Nhiều nhà nghiên cứu chỉ đơn giản nghĩ mô hình
loại này là “các mô hình Lisrel,” điều này cũng ít chính xác. LISREL là chữ
viết tắt của Linear Structural RELations (các quan hệ cấu trúc tuyến tính),
và tên này được Jưreskog sử dụng cho một trong những chương trình SEM
đầu tiên thông dụng nhất. Các mô hình phương trình cấu trúc ngày nay
không nhất thiết phải tuyến tính, và khả năng mở rộng của SEM xa hơn
phương trình Lisrel ban đầu. Ví dụ, Browne (1993) thảo luận khả năng làm
thích
hợp
các
đường
cong
phi
tuyến.
SEM cung cấp một khung thuận tiện và rất tổng quát cho các phân tích
thống kê bao gồm các thủ tục đa biến truyền thống, ví dụ các trường hợp đặc
biệt là phân tích nhân tố, phân tích hồi quy, phân tích phân biệt, và tương
quan canonical. SEM thường được minh họa bằng biểu đồ đường dẫn.
Phương trình thống kê này thường được trình bày trong một hệ phương trình
ma trận. Trong đầu thập niên 70, khi kỹ thuật này được giới thiệu lần đầu
trong nghiên cứu xã hội và nghiên cứu hành vi, phần mềm thường yêu cầu
cài đặt chỉ rõ mô hình theo điều kiện của những ma trận này. Do đó, các nhà
nghiên cứu đã phải lọc việc trình bày ma trận từ biểu đồ đường dẫn, và cung
cấp phần mềm với 1 chuỗi ma trận cho các tập hợp tham số khác nhau, như
là hệ số nhân tố và các hệ số hồi quy. Các phần mềm được phát triển gần
đây cho phép các nhà nghiên cứu chỉ định trực tiếp mô hình như là 1 biểu đồ
đường dẫn. Việc này hiệu quả với các vấn đề đơn giản, nhưng có thể gây
mệt mỏi đối với các mô hình có tính phức tạp hơn. Vì lý do này, phần mềm
SEM hiện tại cũng vẫn hỗ trợ các đặc tính kỹ thuật của mô hình loại câu
lệnh-hay
ma
trận.
Path analysis (phân tích đường xu hướng) là kỹ thuật thống kê dùng để kiểm
tra quan hệ nhân quả giữa hai hay nhiều biến. Dựa trên hệ thống phương
trình
tuyến
tính.
Path analysis là thành phần phụ của SEM, một thủ tục đa biến mà theo định
nghĩa của Ullman (1996), “cho phép kiểm tra một tập quan hệ giữa một hay
nhiều biến độc lập, hoặc là liên tục hoặc là rời rạc, và một hay nhiều biến
phụ thuộc, hoặc là liên tục hoặc là rời rạc.” SEM liên quan đến các biến đo
lường được (measured variable) và các biến ngầm (latent variable).
Một measured variable là một biến có thể được quan sát trực tiếp và được
đo lường. Biến đo lường được cũng được biết đến như biến quan sát được
(observed variable), biến chỉ báo hay biến biểu thị (indicator or manifest
variables). Một latent variable là một biến không thể được quan sát trực tiếp
và phải được suy ra từ measured variable. Latent variables được ám chỉ bởi
hiệp tương quan (covariances) giữa hai hay nhiều measured variables.
Chúng cũng được biết đến như là các nhân tố (nghĩa là, phân tích nhân tố),
các biến kiến trúc hay các biến không quan sát được (constructs or
unobserved variables). SEM là sự kết hợp giữa hồi quy đa biến và phân tích
nhân tố. Path analysis chỉ liên quan đến các biến đo lường (measured
variables).
CÁC
THÀNH
PHẦN
CỦA
SEM
Có hai thành phần: mô hình đo lường (measurement model) và mô hình cấu
trúc
(structural
model).
+ Measurement model: liên quan đến quan hệ giữa measured variables và
latent
variables.
+ Structural model: chỉ liên quan đến các quan hệ giữa các latent variables
mà
thôi.
Ký
hiệu
trong
SEM:
–
Các biến đo lường được: hình chữ nhật hay vuông
–
Các
biến
ngầm:
elíp
hay
hình
tròn
–
Các khoản sai số: (“nhiễu” của các biến ngầm) được đưa vào biểu đồ
SEM, đại diện bởi “E’s” cho các biến đo lường và “D’s” cho các biến ngầm.
Các khoản sai số đại diện phương sai phần dư trong các biến không được
tính cho các đường dẫn (pathways) được giả thiết trong mô hình.
Tham
số
của
SEM:
–
Là các biến, hệ số hồi quy và hiệp tương quan giữa các biến.
–
Phương sai có thể được chỉ ra bằng mũi tên hai đầu kết thúc tại cùng
một biến, hoặc đơn giản hơn, ký hiệu bằng số trong hộp vẽ biến hay cung
tròn.
–
Các hệ số hồi quy được trình bày dọc theo mũi tên một chiều chỉ ra
đường dẫn được giả thiết giữa hai biến (có trọng số được áp dụng cho các
biến
trong
các
phương
trình
hồi
quy
tuyến
tính)
–
Hiệp phương sai được kết hợp với các mũi tên vòng cung hai đầu giữa
hai biến hoặc các sai số và biểu thị vô hướng (no directionality). Data cho
SEM là các phương sai mẫu và hiệp phương sai mẫu lấy từ tổng thể (ký hiệu
S, phương sai mẫu quan sát được và ma trận hiệp phương sai).
KIẾN
TRÚC
SEM
Mục tiêu trong việc xây dựng 1 biểu đồ xu hướng (path diagram) hay mô
hình phương trình cấu trúc, là tìm một mô hình đủ thích hợp với dữ liệu (S)
để phục vụ như là 1 đại diện có ích của độ tin cậy và giải thích chi tiết dữ
liệu.
Có
5
bước
trong
kiến
trúc
SEM:
1.
Chỉ
định
mô
hình
(Model
Specification)
2.
Nhận
dạng
mô
hình
(Model
Identification)
3.
Ước
lượng
mô
hình
(Model
Estimation)
4. Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
5. Hiệu chỉnh mô hình (Model Modification)
Chỉ
định
mô
hình
(Model
Specification)
Là việc chính thức bắt đầu một mô hình. Trong bước này, các tham số được
xác định là cố định hay tự do. Tham số cố định (fixed parameters) không
được ước lượng từ dữ liệu và được gán một cách tiêu biểu bằng 0 (chỉ ra
không có quan hệ giữa các biến). Các đường dẫn của các tham số cố định
được gắn nhãn số (trừ khi được gán giá trị là 0, trong trường hợp này không
có đường dẫn nào được vẽ) trong biểu đồ SEM. Tham số tự do (Free
parameters) được ước lượng từ dữ liệu quan sát và được người điều tra tin
rằng nó khác 0. Việc xác định tham số nào là cố định hay tự do trong SEM
là rất quan trọng vì nó xác định tham số nào sẽ được sử dụng để so sánh
biểu đồ giả thuyết với ma trận hiệp phương sai và phương sai tổng thể mẫu
trong việc kiểm tra tính thích hợp của mô hình (bước 4). Việc chọn tham số
nào là cố định và tham số nào là tự do tùy thuộc vào người nghiên cứu. Sự
lựa chọn này trình bày một giả thuyết tiền đề về đường xu hướng trong hệ
thống là quan trọng trong thế hệ của cấu trúc liên quan của hệ thống được
quan sát (ví dụ, phương sai mẫu được quan sát và ma trận hiệp phương sai).
Nhận
dạng
mô
hình
(Model
Identification)
Việc nhận dạng quan tâm đến việc có hay không giá trị duy nhất cho mỗi và
mọi tham số tự do có thể thu thập được từ dữ liệu quan sát. Nó phụ thuộc
vào việc lựa chọn mô hình và đặc tính kỹ thuật của các tham số cố định,
ràng buộc và tự do. Một tham số bị ràng buộc khi nó trong một tập hợp với
các tham số khác. Các mô hình cần phải được nhận dạng hoàn chỉnh để có
thể ước lượng được (bước 3) và để kiểm định giả thuyết về quan hệ giữa các
biến.
Có các dạng mô hình có cấu trúc là just-identified, overidentified, hay
underidentified.
+ Just-identified model: trong đó tương ứng 1-1 giữa data và các tham số
cấu trúc. Nghĩa là, số phương sai dữ liệu và số hiệp phương sai bằng với số
tham số được ước lượng. Tuy nhiên, mặc dầu khả năng của mô hình là đạt
được một giải pháp duy nhất cho tất cả các tham số, just-identified model
không có sự quan tâm của khoa học gia vì bởi nó không có độ tự do và do
đó
không
thể
bị
loại
bỏ.
+ Overidentified model: là mô hình trong đó số tham số có thể ước lượng
được thì nhỏ hơn số điểm dữ liệu (data points) (nghĩa là, phương sai, hiệp
tương quan của các biến quan sát được). Tình trạng này tạo kết quả ra độ tự
do dương cho phép loại bỏ mô hình, do đó được sử dụng một cách khoa học
hơn. Mục đích của SEM là chỉ ra một mô hình như vậy đáp ứng các tiêu
chuẩn
của overidentification.
+ Underidentified model: là mô hình trong đó số tham số được ước lượng
vượt quá số phương sai và hiệp tương quan. Như vậy, mô hình bao gồm
thông tin không ý nghĩa (từ dữ liệu đầu vào) cho việc đạt được 1 giải pháp
xác định về ước lượng tham số; nghĩa là, vô số các giải pháp là khả dĩ cho 1
underidentified model.
Ước
luợng
mô
hình
(Model
Estimation)
Trong bước này, các giá trị khởi đầu của tham số tự do được chọn để sinh
ra 1 ma trận hiệp tương quan tổng thể được ước lượng (estimated population
covariance matrix), S(q), từ mô hình. Các giá trị khởi đầu có thể được chọn
bởi người nghiên cứu từ thông tin ban đầu, bởi các chương trình máy tính
được sử dụng để xây dựng SEM, hay từ phân tích hồi quy đa biến. Mục tiêu
của ước lượng là để sinh ra một S(q) hội tụ trên ma trận hiệp tương quan
tổng thể quan sát được, S, với ma trận phần dư (residual matrix) (khác biệt
giữa S(q) và S) trở nên tối thiểu. Nhiều phương pháp có thể được sử dụng để
sinh ra S(q). Việc chọn các phương pháp được hướng dẫn bằng đặc tính của
data bao gồm kích thước và phân phối mẫu. Hầu hết các tiến trình được sử
dụng là lặp. Hình thức tổng quát của hàm tối thiểu là:
Q
=
(s
– s(q))’W(s
– s(q))
Trong
đó:
s = vector bao gồm phương sai và hiệp phương sai của các biến quan sát
được.
s(q) = vector bao gồm các phương sai corresponding và hiệp phương sai
như
được
dự
đoán
bởi
mô
hình.
W
=
ma
trận
trọng
số
(một
vài
tác
giả
xem Q như
là F)
Ma trận trọng số, W, trong hàm trên, phù hợp với phương pháp ước lượng
được chọn. W được chọn để tối thiểu Q, và Q(N-1) cho việc thích hợp hàm,
trong hầu hết các trường hợp một thống kê phân phối X 2. Kết quả thực hiện
của X2 bị ảnh hưởng bởi kích thước mẫu, sai số phân phối, nhân tố phân
phối, và giả thiết rằng các nhân tố và sai số là độc lập (Ullman 1996). Một
vài phương pháp ước luợng được sử dụng thông dụng nhất là:
Generalized
Least
squares
(GLS)
FGLS =
½
tr[([S
– S(q)]W-1)2]
Trong
đó:
tr = toán tử theo dõi (trace operator), cộng các yếu tố trên đường chéo
chính
của
ma
trận
-1
W = ma trận trọng số tối ưu, phải được chọn bởi nhà nghiên cứu (chọn lựa
thông
thường
nhất
là
S-1)
Maximum
Likelihood
(ML)
-1
FML =
log|S|
–
log|S|
+
tr(SS )
–
p
-1
Trong trường hợp này, W = S và p = số lượng biến được đo lường
Asymptotically Distribution Free (ADF) Estimator (Hàm ước lượng tự do
phân
phối
tiệm
cận)
FADF =
[S
–
s(q)]’W-1[S
–
s(q)]
W, trong hàm này, bao gồm các yếu tố xem xét trong kurtosis.
Ullman (1996) và Hoyle (1995) thảo luận về các thuận lợi và giới hạn của
các
hàm
ước
lượng
trên
đây.
ML và GLS hữu ích cho dữ liệu phân phối chuẩn khi các nhân tố và sai số là
độc lập, ADF hữu ích cho các dữ liệu không phân phối chuẩn, nhưng chỉ có
giá trị khi kích thước mẫu lớn hơn 2.500. Ullman chỉ ra hàm ước lượng tốt
nhất cho dữ liệu không phân phối chuẩn và/hoặc phụ thuộc giữa các nhân tố
và sai số là Scaled ML. Bất kể hàm nào được chọn, kết quả mong đợi của
tiến trình ước lượng là đạt được một hàm thích hợp gần đến 0. Một hàm
thích hợp với số điểm là 0 chỉ ra rằng ma trận hiệp phương sai được ước
lượng của mô hình và ma trận hiệp phương sai mẫu nguyên thủy là tương
đương.
Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
Như đã phân tích, giá trị hàm thích hợp gần đến 0 được mong đợi cho độ
thích hợp mô hình. Tuy nhiên, nói chung, nếu tỷ số giữa X2 và bậc tự do
nhỏ hơn 3, mô hình là thích hợp tốt (Ullman 1996).
Để có độ tin cậy trong kiểm định độ thích hợp mô hình, kích thước mẫu từ
100
đến
200
được
yêu
cầu
(Hoyle
1995).
Ullman (1996) thảo luận sự đa dạng của các hàm thích hợp phân phối
không-X2, mà ông ta gọi là “các chỉ số thích hợp so sánh (comparative fit
indices.)” Hoyle (1995) đề cập đến điều này như “các chỉ số thích hợp phụ
thuộc (adjunct fit indices).” Một cách căn bản, những phương pháp này so
sánh độ thích hợp của một mô hình độc lập (một mô hình khẳng định không
có quan hệ giữa các biến) để thích hợp mô hình được ước lượng. Kết quả
của việc so sánh này thì thường là một số giữa 0 và 1, với 0.90 hoặc lớn hơn
được chấp nhận như là các giá trị chỉ ra độ thích hợp. Cả Hoyle và Ullman
đề nghị sử dụng nhiều chỉ số khi xác định các độ thích hợp mô hình.
Hiệu
chỉnh
mô
hình
(Model
Modification)
Nếu ma trận phương sai/hiệp phương sai được ước lượng bằng mô hình
không mô phỏng một cách thích hợp ma trận phương sai/hiệp phương sai
mẫu, các giả thuyết có thể được hiệu chỉnh và mô hình được kiểm định lại.
Để điều chỉnh 1 mô hình, các đường dẫn mới được vẽ thêm hay các đường
dẫn cũ được bỏ đi. Nói cách khác, các tham số được thay đổi từ cố định tới
tự do hoặc từ tự do đến cố định. Điều quan trọng để nhớ là khi trong các thủ
tục thống kê khác, là việc hiệu chỉnh mô hình sau việc kiểm định lần đầu
làm gia tăng cơ hội của vấp phải sai lầm loại I.
Các thủ tục thông thường được sử dụng cho việc hiệu chỉnh mô hình là
Lagrange Multiplier Index (LM) và Kiểm định Wald. Cả hai loại kiểm định
này báo cáo các thay đổi trong giá trị X 2 khi các đường dẫn được điều chỉnh.
LM yêu cầu dù có hay không việc gia tăng các tham số tự do gia tăng sự
thích hợp của mô hình. Kiểm định Wald yêu cầu có hay không việc xóa bỏ
các tham số tự do gia tăng sự thích hợp mô hình.
Để điều chỉnh tỷ lệ sai lầm loại 1 gia tăng, Ullman (1996) yêu cầu sử dụng
một giá trị xác suất thấp (p<0.01) khi tăng thêm hay bỏ các tham số. Ullman
cũng yêu cầu so sánh giá trị chéo (cross-validation) với các mẫu khác. Vì
trật tự của các tham số tự do có thể ảnh hưởng đến việc lựa chọn của các
tham số khác, LM nên được áp dụng trước kiểm định Wald (nghĩa là, cộng
thêm vào tất cả các tham số trước khi bắt đầu xóa chúng) (MacCullum 1986,
đã trích dẫn của Ullman 1996).
Trình bày mô hình cuối cùng (Final Presentation of Model)
Khi mô hình đã đạt được độ thích hợp chấp nhận được, các ước lượng riêng
biệt về các tham số tự do được đánh giá. Các tham số tự do được so sánh với
giá trị rỗng (null value), sử dụng thống kê phân phối z. Thống kê z đạt được
bằng cách chia tham số ước lượng cho sai số chuẩn của ước lượng đó. Tỷ lệ
của kiểm định này phải vượt +/-1.96 để quan hệ trở nên có ý nghĩa. Sau khi
các quan hệ riêng biệt trong mô hình được đánh giá, các ước lượng tham số
được chuẩn hóa cho việc trình bày mô hình cuố cùng. Khi các ước lượng
tham số được chuẩn hóa, chúng có thể được giải thích tham chiếu với các
tham số khác trong mô hình và cường độ của đường xu hướng có liên quan
trong mô hình có thể được so sánh.
- Xem thêm -