Đăng ký Đăng nhập
Trang chủ Phân tích khác biệt với spss và ứng dụng...

Tài liệu Phân tích khác biệt với spss và ứng dụng

.PDF
54
172
115

Mô tả:

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 KHOA TOÁN ---------------- ĐOÀN THỊ NGÀ PHÂN TÍCH KHÁC BIỆT VỚI SPSS VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Toán ứng dụng HÀ NỘI, 2017 TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 KHOA TOÁN ---------------- ĐOÀN THỊ NGÀ PHÂN TÍCH KHÁC BIỆT VỚI SPSS VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Toán ứng dụng Người hướng dẫn khoa học PGS.TS. TRẦN TRỌNG NGUYÊN HÀ NỘI, 2017 LỜI CẢM ƠN Để hoàn thành khóa luận này, tôi xin chân thành cảm ơn các thầy cô giáo đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và rèn luyện tại Trường Đại học sư phạm Hà Nội 2. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Thầy giáo hướng dẫn PGS.TS. Trần Trọng Nguyên đã tận tình, chu đáo hướng dẫn tôi thực hiện khóa luận này. Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất song do còn hạn chế về kiến thức và kinh nghiệm nên không thể tránh khỏi những thiếu sót nhất định mà bản thân chưa thấy được. Tôi rất mong được sự góp ý của các Thầy, Cô giáo và của bạn bè để khóa luận được hoàn chỉnh hơn. Tôi xin chân thành cảm ơn! Hà Nội, ngày 10 tháng 04 năm 2017 Tác giả khóa luận Đoàn Thị Ngà LỜI CAM ĐOAN Tôi xin cam đoan những nội dung trình bày trong khóa luận là kết quả quá trình nghiên cứu của bản thân tôi và được sự hướng dẫn khoa học của PGS.TS. Trần Trọng Nguyên. Các nội dung này không trùng khớp với kết quả nghiên cứu của người khác. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong khóa luận còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác với thái độ trân trọng biết ơn và đều có trích dẫn, chú thích nguồn gốc. Hà nội, ngày 10 tháng 04 năm 2017 Tác giả khóa luận Đoàn Thị Ngà MỤC LỤC LỜI NÓI ĐẦU ................................................................................................. 1 CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ ....................................................... 3 1.1. Kiến thức về xác suất thống kê .................................................................. 3 1.1.1. Một số kiến thức xác suất ................................................................... 3 1.1.2. Kiến thức về thống kê ......................................................................... 6 1.2. Phương pháp ước lượng hợp lý cực đại ..................................................... 9 1.3. Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm hóa ................................................................................................................... 10 1.4.Công thức xác định tâm và ma trận hiệp phương sai của các đám mây ... 10 1.5. Phân tích hồi quy ...................................................................................... 11 1.5.1. Khái niệm phân tích hồi quy ............................................................. 11 1.5.2. Hàm hồi quy ...................................................................................... 11 1.5.3. Hồi quy tổng thể và hồi quy mẫu ...................................................... 12 1.5.4. Hồi quy tuyến tính............................................................................. 12 1.5.5. Hồi quy đơn và hồi quy bội .............................................................. 13 1.5.6. Biến giả ............................................................................................. 14 1.5.7. Phân tích ANOVA ............................................................................ 14 CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT ................................................... 15 2.1. Tổng quan về phân tích khác biệt ............................................................ 15 2.1.1. Khái niệm .......................................................................................... 15 2.1.2. Mục tiêu của phân tích khác biệt ...................................................... 15 2.1.3. Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích khác biệt ................................................................................................... 16 2.1.4. Phân loại phân tích khác biệt ............................................................ 17 2.1.5. Mô hình phân tích biệt số.................................................................. 17 2.1.6. Các tham số thống kê trong phân tích khác biệt ............................... 17 2.1.7. Tiến trình phân tích khác biệt ........................................................... 19 2.2. Một số phương pháp phân tích khác biệt ................................................. 22 2.2.1. Một minh họa cụ thể của phân tích khác biệt ................................... 22 2.2.2. Phương pháp hồi quy logistic ........................................................... 24 2.2.3. Phương pháp Fisher .......................................................................... 26 2.2.4. Phương pháp Bayes ........................................................................... 27 CHƯƠNG 3: SPSS VỚI PHÂN TÍCH KHÁC BIỆT VÀ ỨNG DỤNG .. 34 3.1. Giới thiệu SPSS ........................................................................................ 34 3.2. SPSS với phân tích khác biệt ................................................................... 35 3.3. Ứng dụng .................................................................................................. 39 KẾT LUẬN .................................................................................................... 47 TÀI LIỆU THAM KHẢO ............................................................................ 48 LỜI NÓI ĐẦU 1. Lý do chọn đề tài Phân tích khác biệt hay phân tích khác biệt theo nhân tố là một trong những phương pháp phân tích có nhiều ứng dụng trong thống kê. Phân tích khác biệt cho phép thiết lập mối quan hệ của các tiêu thức, trên cơ sở đó tìm một đặc trưng định tính làm cơ sở phân biệt các cá thể của một tổng thể vốn được thể hiện bằng nhiều tiêu thức, nói chung là định lượng khác nhau. Tiêu thức định tính này thường được gọi là biến phân biệt hay biến được giải thích. Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kê được dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào các nhóm dựa trên việc đo lường các đặc trưng của đối tượng. Về mặt thực tiễn, phân tích khác biệt được dùng để giải quyết một số tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm đối tượng nghiên cứu với nhau. Ví dụ phân biệt khách hàng trung thành và không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm. Các lĩnh vực đã có nhiều ứng dụng của lớp bài toán phân tích khác biệt là chuẩn đoán lâm sàng trong y học; dự báo thời tiết với các vùng áp suất khác nhau và cấu trúc, mật độ các đám mây; phân nhóm các loại cổ phiếu, các đối tượng đầu tư và các hoạt động tài chính, ... Phân tích khác biệt giúp nhà nghiên cứu phân loại đối tượng vào các nhóm và dự báo một đối tượng mới sẽ thuộc vào nhóm nào trong các nhóm đã có sẵn. Từ ý nghĩa to lớn về mặt thực tiễn của phân tích khác biệt, tôi muốn chọn đề tài “Phân tích khác biệt với SPSS và ứng dụng” để tìm hiểu cách giải quyết bài toán phân loại. Ngoài ra, hiện nay có nhiều phương pháp được 1 đưa ra để phân tích khác biệt với bài toán phân loại. Tôi muốn tìm hiểu một số phương pháp phổ biến và tối ưu để phân tích khác biệt đồng thời có thể ứng dụng phân tích khác biệt trên phần mềm thống kê SPSS. 2. Mục đích nghiên cứu Nghiên cứu một số phương pháp khác biệt, tìm ra ưu điểm và nhược điểm của mỗi phương pháp này và có thể ứng dụng tìm kiếm mô hình tối ưu để áp dụng vào một số ví dụ cụ thể. Ứng dụng phần mềm thống kê SPSS trong thực hành phân tích khác biệt. 3. Phạm vi nghiên cứu Bài viết đề cập đến ba phương pháp tiêu biểu trong rất nhiều phương pháp phân loại hiện nay là: Fisher, hồi quy logistic, Bayes; đồng thời bài viết cũng trình bày phân tích khác biệt trên phần mềm SPSS. 4. Phương pháp, công cụ nghiên cứu Phương pháp nghiên cứu: nghiên cứu tài liệu và phân tích thống kê, xử lý dữ liệu. 5. Nội dung chính của đề tài Ngoài lời nói đầu, nội dung chính của đề tài gồm các nội dung sau: Chương 1: Kiến thức chuẩn bị. Chương 2: Phân tích khác biệt. Chương 3: SPSS với phân tích khác biệt và ứng dụng. 2 CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ Trong chương này tôi sẽ trình bày một số kiến thức về xác suất thống kê là biến ngẫu nhiên, hàm phân bố xác suất, bảng phân bố xác suất, hàm mật độ xác suất, một số đặc trưng của biến ngẫu nhiên và mẫu ngẫu nhiên, giá trị tới hạn chuẩn, một số phân phối thường gặp, mẫu ngẫu nhiên, tổng thể nghiên cứu, kiểm định giả thuyết; về đám mây số liệu, ma trận hiệp phương sai, phương pháp ước lượng hợp lý cực đại, phân tích hồi quy. 1.1. Kiến thức về xác suất thống kê 1.1.1. Một số kiến thức xác suất 1.1.1.1. Biến ngẫu nhiên Một đại lượng hay một biến nhận các giá trị của nó với xác suất nào đấy được gọi là biến ngẫu nhiên. Ký hiệu X, Y, Z, … - Nếu các giá trị của biến ngẫu nhiên rời nhau (cách xa nhau một khoảng nào đấy) thì biến ngẫu nhiên được gọi là rời rạc. - Nếu các giá trị của biến ngẫu nhiên lấp đầy một khoảng nào đó thì biến ngẫu nhiên được gọi là liên tục (theo [3]). 1.1.1.2. Hàm phân bố xác suất Định nghĩa 1.1: Hàm phân bố xác suất (hay hàm phân bố) của biến ngẫu nhiên X, ký hiệu bởi F ( x) , là hàm xác định với mọi x  R theo công thức sau: F ( x)  P  X  x . 1.1.1.3. Bảng phân bố xác suất Phân bố xác suất của một biến ngẫu nhiên rời rạc X là một bảng trên đó ta ghi các giá trị mà X có thể nhận kèm theo các xác suất để nó nhận các giá trị đó. Như vậy phân bố xác suất của X sẽ là một bảng có dạng: 3 ở đó pi  P  X  xi  với n p i 1 i 1. 1.1.1.4. Hàm mật độ xác suất Định nghĩa 1.2 (theo [7]): Hàm số f ( x) xác định trên toàn trục số được gọi là hàm mật độ của biến ngẫu nhiên liên tục X nếu: i) f ( x)  0, x  R  ii)  f ( x)dx  1  b iii) a  b , ta có: P a  X  b   f ( x)dx . a 1.1.1.5. Một số đặc trưng của biến ngẫu nhiên a. Kì vọng Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có x1, x2, …, xn với xác suất tương ứng p1, p2, …, pn. Kì vọng của biến ngẫu nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có của biến ngẫu nhiên với các xác suất tương ứng: n E ( X )   xi pi . Nếu X là biến ngẫu nhiên liên i 1 tục với hàm mật độ xác suất f(x) thì kì vọng E(X) được xác định bằng biểu thức:  E( X )   xf ( x)dx .  b. Phương sai 4 Giả sử biến ngẫu nhiên X có kì vọng EX   . Độ chệch khỏi giá trị trung bình là X   . Phương sai của X, ký hiệu var( X ) , là độ lệch bình phương trung bình tức là kì vọng của  X    . Vậy ta có định nghĩa: 2 var( X )  E  X    . 2 1.1.1.6. Giá trị tới hạn chuẩn Giá trị tới hạn chuẩn mức  của biến ngẫu nhiên U , kí hiệu là u là một giá trị thỏa mãn: P(U  u )    P(U  u )  1   . 1.1.1.7. Một số phân phối thường gặp a. Phân phối đều Biến ngẫu nhiên liên tục X được gọi là có phân bố đều trên đoạn [a, b] nếu X có thể nhận bất kì giá trị nào trên [a, b] với xác suất như nhau và không nhận giá trị nào bên ngoài [a, b] (theo [7]). Hàm mật độ xác suất của biến ngẫu nhiên phân phối đều cho bởi công thức:  1 , x   a, b   f ( x)   b  a 0 , x   a, b   . b. Phân phối chuẩn tắc Biến ngẫu nhiên U được gọi là có phân bố chuẩn tắc nếu hàm mật độ của nó là: 2 1  x2  ( x)  e . 2 5 c. Phân phối chuẩn Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với tham số  và  2 (ở đó   0 ) nếu hàm mật độ xác suất của nó có dạng:  1 f ( x)  e  2 Kí hiệu X ( x   )2 2 2 . N ( , 2 ) . Khi đó hàm phân bố xác suất của X là: 1 F ( x)   2 x e  ( t   )2 2 2  dt . 1.1.2. Kiến thức về thống kê 1.1.2.1.Tổng thể nghiên cứu Định nghĩa 1.3 (theo [2]): Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu hay tổng thể. Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể, ký hiệu là N (kích thước N của tổng thể là hữu hạn). Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua một hay nhiều dấu hiệu đặc trưng. Chúng được gọi là dấu hiệu nghiên cứu, ký hiệu là  . 1.1.2.2. Mẫu ngẫu nhiên Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó. Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó (X 1, X2, …, Xn) được gọi là mẫu ngẫu nhiên, n được gọi là cỡ mẫu. Như vậy, mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X (theo [3]). 1.1.2.3. Một số đặc trưng của mẫu ngẫu nhiên a. Trung bình mẫu 6 Trung bình mẫu của mẫu ngẫu nhiên W = (X1, X2, …, Xn) của biến ngẫu nhiên X được định nghĩa và kí hiệu: X 1 n  Xi . n i 1 b. Phương sai mẫu Phương sai mẫu là trung bình cộng của độ lệch bình phương các thành phần của mẫu với trung bình mẫu và kí hiệu S 2 được xác định như sau: S2  2 1 n 1 n 2 X  X  X i  ( X )2 .     i n i 1 n i 1 1.1.2.4. Kiểm định giả thuyết a. Khái niệm • Giả thuyết: Một mệnh đề (một câu khẳng định) về một vấn đề chưa biết nào đó được gọi là giả thuyết. • Giả thuyết thống kê: Giả thuyết thống kê là những phát biểu về các tham số, quy luật phân phối, hoặc tính độc lập của các đại lượng ngẫu nhiên. • Kiểm định giả thuyết là việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết. • Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm định gọi là giả thuyết không, ký hiệu là H 0 ; mệnh đề đối lập với H 0 gọi là đối thuyết, ký hiệu là H1 . b.Tiêu chuẩn kiểm định giả thuyết thống kê Miền bác bỏ W được xây dựng từ thống kê T của mẫu gọi là tiêu chuẩn kiểm định và được xác định như sau: Từ biến ngẫu nhiên gốc X của tổng thể lập mẫu ngẫu nhiên kích thước n: W  ( X1 , X 2 ,..., X n ) . Chọn thống kê: T  T ( X1 , X 2 ,..., X n , ) trong đó  là tham số liên quan đến giả thuyết cần kiểm định. 7 Nếu H 0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ đó có thể xây dựng miền bác bỏ W . c. Miền bác bỏ giả thuyết Sau khi đã chọn tiêu chuẩn kiểm định T , với  bé cho trước (thường  được lấy bằng 0,05 hoặc 0,01) và với điều kiện H 0 đúng ta có thể tìm được miền W sao cho T nhận giá trị trong miền W với xác suất bằng  : P T  W / H 0    . Giá trị  được gọi là mức ý nghĩa của kiểm định và miền W gọi là miền bác bỏ giả thuyết H 0 với mức ý nghĩa  . d. Giá trị quan sát của tiêu chuẩn kiểm định Thực hiện phép thử với mẫu ngẫu nhiên X  ( X1 , X 2 ,..., X n ) thu được mẫu cụ thể x  ( x1 , x2 ,..., xn ) , thay giá trị này vào thống kê T  T ( X1 , X 2 ,..., X n , ) ta được giá trị quan sát của tiêu chuẩn kiểm định: Tqs  ( x1 , x2 ,..., xn , 0 ) . e. Sai lầm trong bài toán kiểm định • Sai lầm loại I: Bác bỏ giả thuyết H 0 trong khi H 0 đúng. Xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa  . Thật vậy, xác suất ta bác bỏ H 0 bằng xác suất biến cố T  W  , do đó khi H 0 đúng thì xác suất này là xác suất có điều kiện P T  W / H    . Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương pháp lấy mẫu. • Sai lầm loại II: Thừa nhận giả thuyết H 0 trong khi H 0 sai. Điều này xảy ra khi giá trị quan sát Tqs không thuộc miền bác bỏ W trong khi H1 đúng. Vậy xác suất sai lầm loại II là  và được xác định như sau: P T  W / H1   . 8 1.2. Phương pháp ước lượng hợp lý cực đại Ước lượng hợp lý cực đại là một kỹ thuật thống kê dùng để ước lượng giá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được. Phương pháp này được nhà toán học R.A. Fisher phát triển vào khoảng những năm 1912 – 1922. Phương pháp này dựa trên giả thiết các mẫu ngẫu nhiên (X1, X2, …, Xn) có được đều độc lập và có cùng phân phối, với hàm phân phối thuộc một lớp cụ thể với tham số  chưa biết. Mục tiêu của phương pháp này là đi tìm giá trị của tham số để tối ưu hóa hàm hợp lý: n L( X /  )   f ( X ,  ) . k 1 Cụ thể : Cho mẫu ngẫu nhiên (X1, X2, …, Xn) độc lập từ phân phối f ( X , ) trong n đó   (1 ,2 ,...,r ) . Hàm L( X /  )   f ( X ,  ) là hàm hợp lý. Khi đó thống kê k 1  ( X1 , X 2 ,..., X n ) được gọi là ước lượng hợp lý cực đại của  L( X /  ( X ))  L( X /  ) nếu và gọi  ( X )   ( ( X )) là ước lượng cực đại của hàm tham số  ( ) . Trường hợp tổng quát   (1 ,2 ,...,r ) để tìm  ta giải hệ r phương trình:   ln L( X /  ) 0  1  ...   ln L( X /  )  0  r  . Đây là điều kiện cần để L( X /  ) đạt cực đại. Đặt uij   2 ln L( X ,  ) , i, j  1, r .  i  j 9  u11  X 1 0  ... u1r ( X 1 0 )    ... ... Khi đó, ma trận A   ...  là xác định không âm thì  u ( X  ) ... u ( X  )  rr 1 0   r1 1 0 tại   0 hàm hợp lý L( X /  ) đạt cực đại (theo [1]). 1.3. Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm hóa  x11 x12 ... x1 p    x21 x 21 ... x 2 p   X Xét ... ... ... ....    x x ... x  n1 n 2 np   Mỗi dòng của X có thể xem là 1 điểm trong không gian Rp, n điểm tạo nên 1 tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm trung tâm của đám mây này là g thì g có thể tính như sau: g  X T D1 . (1.1) Trong đó 1 là véc tơ có tất cả các thành phần bằng 1 trong không gian Rn. Dễ dàng kiểm tra thấy g là một véc tơ p chiều. Việc trung tâm hóa đám mây số liệu thực hiện bằng cách lập các véc tơ chênh lệch của các cá thể với véc tơ g. Đặt ma trận: Y  X  1g T , g T là chuyển vị của g. (1.2) Tích 1g T là một ma trận có các dòng là đều là véc tơ g T . 1.4. Công thức xác định tâm và ma trận hiệp phương sai của các đám mây + gj  1 qj p X i i ( Xi  E j ) i + g  qj g j j 10 + Vj  1 qj  p (X i i  g j )( X t  g j )T ( X i , X t  E j ) T + V   pi ( X i  g )( X i  g ) i 1.5. Phân tích hồi quy 1.5.1. Khái niệm phân tích hồi quy Là việc tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập (theo [1]). 1.5.2. Hàm hồi quy Giả sử có cơ sở cho rằng sự biến động của X1 (chẳng hạn) phụ thuộc vào tình trạng của các biến còn lại X2,…, Xk (k >2). Như vậy chúng ta đã coi như các biến X2,…, Xk là phi ngẫu nhiên. Trong trường hợp này với mỗi trạng thái của X2,…, Xk biến ngẫu nhiên X1 có một phân phối có điều kiện tương ứng F(X1/X2,…, Xk) có trung bình và phương sai hữu hạn. Để phân biệt biến ngẫu nhiên và phi ngẫu nhiên trong trường hợp này ta đổi tên biến X1 là Y. Như vậy khi (X2,…, Xk) = (x21,…, xk1) xác định duy nhất E1(Y/X2,…, Xk). Tương tự khi (X2,…, Xk) = (x2i,…, xki) xác định duy nhất Ei(Y/X2,…, Xk). Quan hệ trên xác định một hàm số biểu thị quan hệ phụ thuộc của giá trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên (X2,…, Xk). Định nghĩa 1.4 [8]: Hàm hồi quy của Y theo X2,…, Xk là trung bình có điều kiện của Y theo X2,…, Xk. Ta có thể viết: F(Y/X2,…, Xk) = f (X2,…, Xk) 11 (1.3) và gọi f là hàm hồi quy Y theo (X2,…, Xk). Y gọi là biến phụ thuộc và (X2,…, Xk) gọi là các biến độc lập. Trường hợp đơn giản nhất: E(Y/X) = f(X) ta có một hồi quy đơn. Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội. 1.5.3. Hồi quy tổng thể và hồi quy mẫu Định nghĩa 1.5 [8]: Giả sử tổng thể đang xét có số đông cá thể, với cá thể i biến Y và (X2,…, Xk) nhận bộ giá trị Yi và (X2i,…, Xki) ta có quan hệ sau nhận được từ (1.3) và gọi là hồi quy tổng thể: Yi  E (Y / X 2i ,..., X ki )  U i . (1.4) Trong (1.4) Ui gọi là nhiễu hay sai số ngẫu nhiên, nó thể hiện sự sai lệch của cá thể so với trung bình khi sử dụng (1.3). Để ước lượng E(Y/X2i,…, Xki) người ta sử dụng phương pháp mẫu. Giả sử có mẫu ngẫu nhiên kích thước n: W = (Y, X2,…, Xk), từ mẫu này người ta ước lượng E(Y/X2i,…, Xki) bằng một phương pháp nào đó và nhận được Yi  g (Yi , X 2i ,..., X ki ) ta gọi đây là ước lượng của Yi. Quan hệ của Yi và ước lượng của nó có thể mô tả như sau: Yi  Yi  ei , (1.5) (1.5) gọi là hồi quy mẫu và ei gọi là phần dư của Yi trong hồi quy mẫu. 1.5.4. Hồi quy tuyến tính Trong (1.3) khi xem xét cấu trúc của f, người ta có thể quan tâm đến hai vấn đề: Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có các hàm tuyến tính hay phi tuyến tính theo nghĩa giải tích. Thứ hai là các tham số cấu trúc của hàm hồi quy f: với bậc của các tham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phi tuyến tính. Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham 12 số cấu trúc trong phân tích hồi quy, người ta quan niệm một hồi quy tuyến tính là hồi quy có f tuyến tính theo các tham số. Thực tế có nhiều mô hình phi tuyến tính có thể tuyến tính hóa nhờ các phép biến đổi trên các biến. Có thể xếp các mô hình này là các mô hình tuyến tính, các mô hình thông dụng trong kinh tế xã hội là: Hàm tuyến tính: Y  a  b1 X 1  b2 X 2  ...  bk X k . Hàm Cobb-douglas: Y  aXb22 ... X kbk . Hàm tăng trưởng: Y  Yo (1  r )t . Chẳng hạn các hàm hồi quy sau gọi là hồi quy tuyến tính: Y  a  bX ; Y  a  bX  cX 2 ; Y  a  b ln X ; Y a b ; X Trong khi các hàm hồi quy sau là phi tuyến tính: Y a b Y  a  X ;… c b ; c  dX 1.5.5. Hồi quy đơn và hồi quy bội Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất, biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất. Trong trường hợp hồi quy tuyến tính hồi quy đơn luôn có dạng: Y  1   2 X 2 . Mô hình hồi quy bội là mô hình có hơn 1 biến độc lập, có thể có những biến là biến thứ sinh của các biến khác. Trong trường hợp hồi quy tuyến tính, một hồi quy bội có dạng sau: Y  1   2 X 2  ...   k X k . Có thể viết (1.6) dưới dạng sau: Y  X   U . (1.6) (1.7) Hồi quy mẫu tương ứng được mô tả như sau: Y  1   2 X 2  ...   k X k . 13 (1.8) 1.5.6. Biến giả Biến giả được dùng trong mô hình hồi quy để lượng hóa những biến định tính. Biến định tính biểu thị có hay không một tính chất nào đó, hoặc các mức độ khác nhau của một thuộc tính nào đó. Ví dụ : giới tính (nam hay nữ), nơi cư trú (thành thị hay nông thôn). Biến định lượng là các biến mà giá trị quan sát là những con số. Ví dụ : thu nhập, chi tiêu, … 1.5.7. Phân tích ANOVA Phân tích ANOVA hay phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên nhân (định tính) ảnh hưởng đến một yếu tố kết quả (định lượng) đang nghiên cứu. 14
- Xem thêm -

Tài liệu liên quan