Đăng ký Đăng nhập
Trang chủ Tự tương quan trong phân tích hồi quy...

Tài liệu Tự tương quan trong phân tích hồi quy

.PDF
106
273
139

Mô tả:

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN ------—²–------ LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC TỰ TƯƠNG QUAN TRONG PHÂN TÍCH HỒI QUY Giáo viên hướng dẫn Sinh viên thực hiện ThS. DƯƠNG THỊ TUYỀN NGUYỄN THỊ THẢO NGUYÊN (Bộ môn toán – Khoa KHTN) LỚP: Toán ứng dụng K33 MSSV: 1076642 CẦN THƠ THÁNG 5/ 2011 LỜI MỞ ĐẦU -----—²–-----Hiện nay, khoa học công nghệ ngày càng tiên tiến nên cạnh tranh ngày một nhiều. Do đó, khi làm một việc gì con người cần quan tâm đến rất nhiều yếu tố liên quan để tạo điều kiện tốt cho công việc của mình đạt được kết quả như ý muốn. Chẳng hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp hay không?… Và mối liên hệ của tất cả các đặc trưng mà công ty này quan tâm đến sẽ được mô tả bởi một mô hình hồi quy mà chúng tôi muốn nhắc đến ở đây. Đó chính là mô hình hồi quy tuyến tính – một mô hình toán học đang được các nhà kinh tế quan tâm đến. Đối với mô hình trên, để biết được giá bán của một căn nhà, chúng ta cần phải đi phân tích hồi quy đối với tất cả các đặc trưng trên. Muốn làm được điều này, cần phải có một quá trình ước lượng, phân tích và dự báo để xây dựng mô hình chính xác. Ngày nay để tiết kiệm thời gian và công sức, khoa học công nghệ đã cho ra đời nhiều phần mềm thống kê để giúp chúng ta giải quyết vấn đề này như SPSS, R, Eview, Stata, Mfit hay Excel cũng có thể tính được. Tuy nhiên, khoa học công nghệ có hiện đại đến đâu, thì trong quá trình ước lượng mô hình không phải lúc nào cũng như chúng ta mong muốn, mô hình dự báo có thể không phù hợp do nhiều nguyên nhân như tồn tại hiện tượng phương sai sai số thay đổi, đa cộng tuyến hay tự tương quan… Chính những nguyên nhân này làm cho mô hình không còn phù hợp nữa. Vì vậy, cần tìm hiểu nguyên nhân nào làm cho mô hình không phù hợp và từ đó đưa ra các biện pháp khắc phục kịp thời. Và ở đây đề tài mà chúng tôi sẽ trình bày là nghiên cứu một trong các nguyên nhân trên, đó là sự tự tương quan giữa các sai số ngẫu nhiên trong phân tích hồi quy. Qua đề tài này, chúng tôi sẽ đi tìm hiểu nguyên nhân của sự tự tương quan là gì? Nếu có hiện tượng tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui đang xét? Cách khắc phục hiện tượng này như thế nào?... Chúng tôi cần phải nghiên cứu và làm rõ các vấn đề trên. 1 * Nội dung đề tài gồm có 3 chương: - Chương 1: Phân tích mô hình hồi quy tuyến tính. - Chương 2: Tự tương quan. - Chương 3: Bài toán thực tế. Trong quá trình hoàn thành đề tài, chúng tôi đã cố gắng nhưng không tránh khỏi thiếu sót. Do đó, kính mong quý thầy cô thông cảm và góp ý thêm để đề tài được hoàn chỉnh. Chúng tôi xin chân thành cám ơn! 2 LỜI CẢM ƠN -----—²–-----Để hoàn thành bài viết này em gặp rất nhiều khó khăn. Nhưng với sự giúp đỡ nhiệt tình của thầy cô, gia đình, các anh chị và bạn bè đã giúp em vượt qua. Đầu tiên em xin gửi lời cám ơn đến cô Dương Thị Tuyền, cô đã hướng dẫn nhiệt tình để giúp em hoàn thành tốt bài viết này. Bên cạnh đó, em xin gửi lời cảm ơn chân thành đến các thầy cô ở khoa Khoa Học Tự Nhiên, đặc biệt là các thầy cô ở bộ môn Toán. Các thầy cô đã truyền đạt cho em nhiều kiến thức quí báu cũng như là kỹ năng sống. Đó chính là nguồn tài sản quí báu giúp em vững bước trong tương lai. Và trong suốt quãng thời gian đi học, người mà em biết ơn nhiều nhất đó chính là ba mẹ em, người mà ngày đêm vất vả lo cho em ăn học bao năm qua và đạt được kết quả như ngày hôm nay. Con xin gửi đến cha mẹ lời cảm ơn chân thành và sâu sắc nhất. Cuối cùng, tôi cũng xin cảm ơn tất cả các anh chị cũng như các bạn lớp Toán Ứng Dụng khóa 33 đã luôn sát cánh để động viên và giúp tôi vượt qua rất nhiều khó khăn. Em xin chân thành cám ơn ! 3 Chương 1. PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH 1.1 BẢN CHẤT CỦA PHÂN TÍCH HỒI QUY 1.1.1 Khái niệm Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập. Ta có thể xét một số ví dụ sau đây: Ví dụ 1.1: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh. Gọi X là biến ngẫu nhiên để đo độ tuổi của học sinh và Y là biến ngẫu nhiên chỉ chiều cao của học sinh. Với n học sinh ta có n cặp giá trị (Xi,Yi). X x1 x2 x3 ...... xi .......... xn Y(inches) y1 y2 y3 ...... yi .......... yn Hình 1.1: Biểu đồ thể hiện giữa chiều cao và tuổi của học sinh. Ví dụ 1.2: Để cố gắng giúp công chúng bảo toàn năng lượng ta muốn phân tích các nhân tố xác định chi phí sưởi ấm trong gia đình. Trong thành phố có mùa mùa đông 4 dài và lạnh. Để xác định được chi phí sưởi ấm của gia đình người ta quan tâm đến các nhân tố như: kích thước căn nhà, số người trong mỗi gia đình và số cửa sổ … Ví dụ 1.3: Giám đốc tiếp thị của một công ty có thể muốn biết mức cầu đối với sản phẩm của công ty có quan hệ như thế nào với chi phí quảng cáo. Một nghiên cứu như thế sẽ rất có ích cho việc xác định độ co dãn của cầu đối với chi phí quảng cáo. Tức là tỷ lệ phần trăm thay đổi về mức cầu khi ngân sách quảng cáo thay đổi 1%. Kiến thức này rất có ích cho việc xác định ngân sách quảng cáo tối ưu. Chúng ta có thể đưa ra vô số ví dụ như trên về sự phụ thuộc của một biến vào một hay nhiều biến khác. Các kỹ thuật phân tích hồi quy thảo luận trong chương này nhằm nghiên cứ sự phụ thuộc như thế giữa các biến số. Ta ký hiệu: Y - biến phụ thuộc (hay biến được giải thích). X i - biến độc lập (hay biến giải thích) thứ i. Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân phối xác suất. Các biến độc lập Xi không phải là ngẫu nhiên, giá trị của chúng đã được biết trước. 1.1.2 Phân tích hồi quy nhằm giải quyết các vấn đề sau: Ø Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập. Ø Kiểm định giả thiết về bản chất của sự phụ thuộc. Ø Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập. Ø Kết hợp các vấn đề trên. Tóm lại, trong phân tích mô hình hồi quy chúng ta hiểu được các bản chất trên là đã hiểu được một phần nội dung của phân tích hồi quy là như thế nào. Đến đây, chúng tôi sẽ đi tìm hiểu các mô hình cơ bản của phân tích hồi quy. 1.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH Ta xét mô hình hồi quy tuyến tính đơn và mô hình hồi quy tuyến tính bội. 1.2.1 Mô hình hồi quy tuyến tính đơn a) Hàm hồi quy tổng thể (PRF) 5 Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ bằng một mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa X và Y. Mô hình này được gọi là hàm hồi quy tổng thể (PRF). Hàm hồi quy tổng thể có dạng: Yt = β1 + β 2 X t + U t (PRF) (1.1) Nếu chỉ xét trường hợp đơn giản nhất là hàm PRF có dạng tuyến tính: Y = β1 + β 2 X (1.2) Trong đó: Y là biến phụ thuộc. X : biến độc lập. β1 , β 2 là các tham số. β1 là hệ số chặn hay hệ số tung độ gốc. β 2 là hệ số gốc hay hệ số dốc. b) Hàm hồi quy mẫu (SRF) Để mô hình hóa mối liên hệ giữa X và Y tức là phải tìm được giá trị của tham số hồi quy và ta chỉ thực hiện được điều này thông qua các quan sát mẫu. Do đó, mô hình hồi quy tuyến tính mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể.Tuy nhiên để ước lượng mô hình hồi quy mẫu ta áp dụng phương pháp bình phương nhỏ nhất để ước lượng các tham số. Trước khi ước lượng các số liệu phải thỏa mãn các giả thuyết của phương pháp bình phương nhỏ nhất: Giả thiết 1: Biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các con số đã được xác định. Giả thiết này là đương nhiên, vì phân tích hồi quy được đề cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho. Giả thiết 2: Kỳ vọng của các yếu tố ngẫu nhiên U i bằng 0, tức là: E( Ui Xi ) = 0 . Giả thiết này có nghĩa là các yếu tố không có trong mô hình và giá trị U i đại diện cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y. Cho nên có thể nói, các giá trị U i dương triệt tiêu với các giá trị U i âm sao cho trung bình của chúng ảnh hưởng lên Y bằng 0. 6 Chú ý :Giả thiết E ( U i X i ) = 0 kéo theo E ( Yi X i ) = β 0 + β1Xi . Giả thiết 3: Các U i có phương sai bằng nhau (phương sai thuần nhất). Var ( U i X i ) = Var ( U j Xi ) = σ 2 (∀i ≠ j) Giả thiết 3 có nghĩa là phân phối có điều kiện của Y với giá trị đã cho của X có phương sai bằng nhau, các giá trị cá biệt của Y xoay quanh giá trị trung bình với mức độ chênh lệch như nhau. Giả thiết 4: Không có sự tương quan giữa các U i : Cov (Ui ,U j ) = 0 (∀i ≠ j) . Giả thiết này có nghĩa là U i là ngẫu nhiên. Sai số ở quan sát này không ảnh hưởng tới sai số ở quan sát khác. Giả thiết 5: U i và X i không tương quan với nhau: Cov (U i , X i ) = 0 . Giả thiết 5 là cần thiết vì nếu U và X có tương quan với nhau thì ta không thể tách ảnh hưởng riêng biệt của chúng đến Y, trong khi đó Ui lại đại diện cho các yếu tố không có mặt trong mô hình. Giả thiết 5 sẽ thỏa mãn nếu X là phi ngẫu nhiên. Sau khi thõa mãn các giả thuyết trên thì ta có thể ước lượng được một mô hình hồi quy hoàn hảo. Khi đó ta có mô hình hồi quy mẫu (SRF) như sau : Yˆ t = βˆ 1 + βˆ 2 X t + et (SRF) (1.3) Nếu bỏ qua sai số ngẫu nhiên thì hàm hồi quy mẫu có dạng: Yˆ t = βˆ 1 + βˆ 2 X t (1.4) Ta sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các tham số của hàm hồi quy mẫu ta có công thức tính βˆ1 , βˆ2 được tính như sau: n βˆ2 = ∑ X tYt − n X Y t =1 n ∑X t =1 2 t − n( X ) 2 n = ∑x y t =1 n t t ∑x t =1  xt = X t − X βˆ1 = Y − βˆ2 X Với:   yt = Yt − Y 7 (1.5) 2 t (1.6) Khi tính được βˆ1 , βˆ2 ta dễ dàng viết được mô hình hồi quy mẫu. * Các tính chất của các ước lượng bình phương nhỏ nhất: – βˆ1 , βˆ2 được xác định một cách duy nhất ứng với n cặp quan sát (Xi, Yi). – βˆ1 , βˆ2 là các ước lượng điểm của β1 , β 2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng có giá trị khác nhau. c) Hệ số xác định R2 R2 là hệ số nhằm xác định mức độ quan hệ giữa X và Y có quan hệ hay không, hoặc bao nhiêu phần trăm sự biến thiên của Y có thể giải thích bởi sự phụ thuộc tuyến tính của Y vào X hay nói cách khác hệ số xác định R2 dùng để đánh giá mức độ phù hợp của mô hình hồi quy. Ta có công thức tính như sau: R2 = ESS TSS (1.7) Trong đó: TSS là tổng bình phương các sai lệch giữa các giá trị quan sát Yt với giá trị trung bình của chúng. n ( TSS = ∑ Yt − Y t =1 2 ) = ∑Y n t =1 2 t ( ) −n Y 2 (1.8) ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến Y tính theo hàm hồi quy mẫu với giá trị trung bình. Phần này đo độ chính xác của hàm hồi quy. 2    ^ 2 n ESS = ∑  Yˆt − Y  =  β 2  ∑ xt2 t =1     t =1 n (1.9) RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát của biến Y và các giá trị nhận được từ phương trình hồi quy mẫu.   RSS = ∑ e = ∑  Yt − Yˆt  t =1 t =1   n n 2 t Vậy TSS = ESS + RSS 2 (1.10) (1.11) Với ( 0 ≤ R 2 ≤ 1) . 8 – R 2 = 0 : Chứng tỏ X và Y không có quan hệ, tức là mô hình không phù hợp với mẫu nghiên cứu. – R 2 = 1 : Đường hồi quy phù hợp hoàn hảo, tất cả các sai lệch của Y đều giải thích được bởi mô hình hồi quy. d) Hệ số tương quan Hệ số tương quan là số đo mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y và được xác định bởi công thức: ∑( X n R= t =1 ∑( X n t =1 t t −X −X )(Y − Y ) ) ∑ (Y − Y ) 2 n t n t =1 = 2 t ∑x y t t =1 n t (1.12) n ∑x ∑y t =1 2 t t =1 2 t * Các tính chất của hệ số tương quan: – R có thể âm hoặc dương, dấu của R phụ thuộc vào dấu của Cov(X, Y), hay dấu của hệ số góc. – R lấy giá trị trong khoảng -1 đến 1: ( 0 ≤| R |≤ 1) . – R có tính chất đối xứng: RXY = RYX. – R độc lập với gốc tọa độ và các tỉ lệ; nghĩa là nếu ta định nghĩa Xi* = aXi + b và Yi* = cYi + d, trong đó a > 0, c > 0 và b, d là các hằng số thì RXY = RX Y . * * – Nếu X, Y độc lập theo quan điểm thống kê thì hệ số tương quan giữa chúng bằng 0. Nhưng điều ngược lại thì không đúng. – R chỉ là đại lượng đo sự kết hợp tuyến tính hay phụ thuộc tuyến tính. Ví dụ 1.4: Bảng cho số liệu về tỉ lệ thay đổi tiền lương(Y) và tỉ lệ thất nghiệp (X) của vương quốc Anh trong giai đoạn 1950-1966. Dựa vào bảng số liệu này hãy tính hệ số tương quan ứng với bảng số liệu sau: Bảng 1.1: Bảng số liệu về tỉ lệ thay đổi tiền lương (Y) và tỉ lệ thất nghiệp (X) của vương quốc Anh giai đoạn 1950-1966. Năm Y(%) X(%) Năm Y(%) X(%) 1950 1.8 1.4 1959 2.6 1.9 1951 8.5 1.1 1960 2.6 1.5 9 1952 8.4 1.5 1961 4.2 1.4 1953 4.5 1.5 1962 3.6 1.8 1954 4.3 1.2 1963 3.7 2.1 1955 6.9 1 1964 4.8 1.5 1956 8 1.1 1965 4.3 1.3 1957 5 1.3 1966 4.6 1.4 1958 3.6 1.8 Ta có bảng tính Xt và Yt dựa vào công thức : Xt Yt Xt*Yt X t2 Y t2 0.003 8.930 -0.059 -2.99 0.176 -0.359 3.71 -1.332 0.129 13.777 0.041 3.61 0.149 0.002 13.045 0.041 -0.29 -0.012 0.002 0.083 -0.259 -0.49 0.126 0.067 0.238 -0.459 2.11 -0.969 0.211 4.460 -0.359 3.21 -1.152 0.129 10.315 -0.159 0.21 -0.034 0.025 0.045 0.341 -1.19 -0.405 0.116 1.412 0.441 -2.19 -0.965 0.195 4.788 0.041 -2.19 -0.090 0.002 4.788 -0.059 -0.59 0.035 0.003 0.346 0.341 -1.19 -0.405 0.116 1.412 0.641 -1.09 -0.698 0.411 1.184 0.041 0.01 0.000 0.002 0.000 -0.159 -0.49 0.078 0.025 0.238 -0.059 -0.19 0.011 0.003 0.035 Tổng -5.488 Khi đó ta tính được: 10 1.441 65.098 n R= ∑X Y t t t =1 n = n ∑ X ∑Y t =1 2 t t =1 2 −5.448 = −0.567 1441*65098 t Ta thấy R = -0.567 < 0 nên giữa X và Y tồn tại mối quan hệ tuyến tính nghịch. Có nghĩa là khi tỉ lệ thay đổi tiền lương tăng thì tỉ lệ thất nghiệp sẽ giảm và ngược lại. e) Kiểm định sự phù hợp của hàm hồi quy Chúng ta kiểm định giả thuyết: Ho: β 2 = 0 . H1: β 2 ≠ 0 . Để kiểm định giả thuyết trên ta áp dụng quy tắc kiểm định như sau: • Tính F theo công thức: F= R 2 (n − 2) 1− R2 ( 1.13) • Với mức ý nghĩa α , tra bảng phân phối Fisher – Snedecor với bậc tự do n1 = k1 và n 2 = n – 2 để tìm giá trị Fα (1, n − 2) Nếu F > Fα (1, n − 2) thì bác bỏ giả thuyết Ho. Ngược lại, F < Fα (1, n − 2) thì chấp nhận giả thuyết Ho. Trong các phần mềm thống kê khi viết phương trình hồi quy đều tính được giá trị kiểm định F. Ví dụ 1.5: Một cuộc thí nghiệm được tiến hành với 28 chiếc xe, các xe tham gia được cho chạy trên đường cao tốc với các mức độ khác nhau, biến thiên trong khoảng 10 dặm/giờ đến 75 dặm/giờ. Dữ liệu về tốc độ và lượng xăng xe tiêu thụ được ghi lại trong bảng sau: Bảng 1.2: Bảng số liệu về tốc độ và lượng xăng tiêu thụ của 28 chiếc xe. STT Mức tiêu hao xăng (Y) Tốc độ (X) 1 26 45 2 24 45 11 3 20.5 50 4 19.7 50 5 18.6 55 6 19.3 55 7 14.4 60 8 13.7 60 9 12.1 65 10 12.5 65 11 10.1 70 12 9.4 70 13 8.4 75 14 7.6 75 15 32 10 16 30 10 17 29 15 18 27 15 19 26.5 20 20 24 20 21 25.3 25 22 24.6 25 23 19 30 24 22 30 25 19.9 35 26 24 35 27 21 40 28 23.5 40 Từ bảng số liệu trên ta tính được: ∑ Y = 564.1 ; ∑ X i ∑ Y = 20.146 ; i = 1190 ; ∑ X iYi = 20458.5 ; ∑ X = 42.5 12 ∑X 2 i = 61950 ; n βˆ2 = ∑ X Y − nXY t =1 n ∑X t =1 t t 2 t − n( X ) 2 = 20458.5 − 28* 42.5*20.146 = −0.309 61950 − 28*(42.5) 2 βˆ1 = Y − βˆ2 X = 20.146 − (−0.309) * 42.5 = 33.28 Vậy ta có mô hình hồi quy tuyến tính mẫu của tốc độ và lượng xăng xe tiêu thụ: ^ Y = 33.28 - 0.309X Trong mô hình hồi quy này ta thấy khi xe chạy với tốc độ càng chậm thì lượng xăng tiêu thụ của xe càng nhiều. 1.2.2 Mô hình hồi quy tuyến tính bội (mô hình hồi quy tuyến tính đa biến) Mô hình hồi quy tuyến tính đơn đã trình bày ở trên là khá hữu dụng cho rất nhiều trường hợp khác nhau. Mặc dù vậy, nó trở nên không còn phù hợp nữa khi có nhiều hơn một yếu tố tác động đến biến cần giải thích. Chẳng hạn, khi nghiên cứu nhu cầu về một loại hàng hóa nào đó (Y), thì nhu cầu này phụ thuộc vào nhiều yếu tố như thu nhập của người tiêu dùng, giá bán của bản thân hàng hóa, và giá cả của các loại hàng hóa cạnh tranh... Và mô hình hồi quy tuyến tính đa biến cho phép chúng ta nghiên cứu những trường hợp như vậy. Trong phần này chúng ta sẽ mở rộng mô hình hồi quy đa biến (hay còn gọi là mô hình hồi quy bội) trong đó không chỉ một mà nhiều biến giải thích có thể được sử dụng để dự đoán giá trị của biến phụ thuộc. a) Hàm hồi quy tổng thể (PRF) Hàm hồi quy tổng thể trong trường hợp k biến có dạng: Yi = β1 + β 2 X 2i + β3 X 3i + ... + β k X ki + U i (1.14) Giả sử ta có n quan sát và mỗi quan sát gồm k giá trị Y1 = β1 + β2 X 21 + β3 X 31 + ... + β k X k 1 + U1 Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + U 2 ………………………………….. Yn = β1 + β 2 X 2 n + β 3 X 3 n + ... + β k X kn + U n Khi đó ta có hàm hồi quy tổng thể: 13 (1.15)  β1    β β =  2 ,  ...     βk   Y1    Y Y =  2 ,  ...     Yn   1 X 21  1 X 22 X =  ... ...   1 X 2n X 32 X 32 ... X 3n  U1    U U = 2  ...    U n  X k1   ... X k 2  ... ...   ... X kn  ... Hệ thống của các quan sát có thể được viết lại như sau: PRF: Y = β X + U (1.16) b) Hàm hồi quy mẫu (SRF) SRF: Yˆ t = βˆ1 + βˆ 2 X 2n + βˆ 3 X 3n + ... + βˆ k X kn + et (1.17) Nếu bỏ qua sai số ngẫu nhiên thì hàm hồi quy mẫu có dạng Yˆ t = βˆ 1 + βˆ 2 X 2 n + βˆ 3 X 3n + ... + βˆ k X kn (1.18) Hay viết dưới dạng ma trận Y = βˆ X + e (1.19) Khi đó các tham số của hàm hồi quy mẫu được ước lượng như sau:  ˆ   β1     ˆ  βˆ =  β 2  ,  ...     βˆ   k Ta có:      e1    e e= 2  ...     en  Khi đó: e =  Yt − Yˆt  = Yt − βˆ1 − βˆ2 X 2t − βˆ3 X 3t − ... − βˆk X kt (1.20) Theo nguyên lý của phương pháp OLS thì các tham số βˆ1 , βˆ 2 ,..., βˆ k được chọn sao cho : 2 2 n     e = ∑  Yt − Yˆt  = ∑  Yt − βˆ1 − βˆ2 X 2t − βˆ3 X 3t − ... − βˆk X kt  → min ∑ t =1  t =1 t =1    n n 2 t Ta ký hiệu X T , Y T , βˆ T , eT là các ma trận chuyển vị của: X , Y , βˆ , e Tức là Y T = (Y1 , Y2 ,..., Yn ) 14 (1.21) eT = ( e1 , e2 ,..., en )     βˆ =  βˆ1 , βˆ 2 ,..., βˆ k   1  X T X =  21  ...   X k1 1 1 X 22 ... X 23 ... Xk2 X k3 1   ... X 2 n  ... ...   ... X kn  ... Áp dụng phương pháp OLS ta có công thức: βˆ = ( X T X ) X T Y −1 (1.22) Trong đó X T X là ma trận có dạng   n   n ∑X X T X =  t =1 2t  ...  n  X  ∑ kt  t =1 n ∑X t =1 2t n ∑X t =1 t =1 2 2t 3t ∑X t =1 2t X 3t ... n t =1 n n kt X 2t ∑X t =1 kt ∑X ... n ... ∑X   t =1  n  ... ∑ X 2t X kt  t =1   ... ...  n 2  ... X ∑ kt  t =1  n ∑X X 3t kt (1.23) Giải được phương trình (1.22) là ta đã ước lượng được các tham số của hàm hồi quy mẫu c) Hệ số xác định R2 ( ) TSS = Y T Y − n Y 2 (1.24) Trong đó: ( ) ESS = βˆ T X T Y − n Y 2 TSS = ESS + RSS R2 = ESS TSS d) Kiểm định sự phù hợp của hàm hồi quy Kiểm định giả thuyết : Ho : β 2 = β 3 = .... = β k = 0 . H1: Không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0. Để kiểm định giả thuyết trên, ta áp dụng quy tắc kiểm định như sau : • Tính F theo công thức : 15 (1.25) (1.26) (1.27) F= R 2 (n − k ) (1 − R 2 )( k − 1) (1.28) • Với mức ý nghĩa α , tra bảng phân phối Fisher – Snedecor với bậc tự do n 1 = k – 1 và n 2 = n – k để tìm giá trị Fα (k − 1, n − k ) Nếu F > Fα (k − 1, n − k ) thì bác bỏ giả thuyết Ho tức là các hệ số hồi quy không đồng thời bằng 0. Ngược lại, F < Fα (k − 1, n − k ) thì chấp nhận giả thuyết Ho tức là các hệ số hồi quy đồng thời bằng 0. Ví dụ 1.6: Giám đốc của một công ty muốn đánh giá kết quả làm việc của nhân viên nên đã tiến hành tổ chức một cuộc thi để dễ dàng đánh giá năng lực của từng người.Tiêu chí cho cuộc thi gồm: thi phân tích tình huống, khả năng trình bày viết, khả năng trình bày miệng và khả năng làm việc của từng người. Ông tiến hành ghi điểm về kết quả công việc mà nhân viên đạt được (Y), điểm phân tích tình huống (X1), điểm khả năng trình bày viết (X2) và điểm khả năng trình bày miệng (X3). Kết quả được ghi lại trong bảng dưới đây: Bảng 1.3: Bảng đánh giá kết quả làm việc của nhân viên STT Y X1 X2 X3 1 97 8.4 8.7 9.2 2 93 8.2 9.4 9.4 3 91 9.3 9.7 9.5 4 85 7.9 8.1 8.7 5 86 8.1 8.3 8.8 6 97 9.4 9.3 9.5 7 90 9.1 9 9.2 8 93 8.9 8.2 9.5 9 88 8.6 8.4 8.5 10 96 9.7 9.5 9.5 11 86 8.3 7.9 8.4 12 89 8.7 8.5 8.3 16 13 94 9.2 9.1 9.8 14 91 8.1 9.5 9.2 15 95 9.3 9.1 9.7 Ta có:  1 X 21 1 X 22 X = ... ...   1 X 2,15  1 X 21 XT =   X 31   X 41 X 41   1 8.4 8.7 9.2  X 34   1 8.2 9.4 9.4  =  ...  ... ... ... ...     X 4,15   1 9.3 9.1 9.7  X 31 X 32 ... X 3,15 1 X 22 X 32 X 42   n   n  ∑ X 2t t =1 T X X = n   ∑ X 3t  t =1  n  ∑ X 4t  t =1 ... 1  1 1 ... 1    ... X 2,18  8.4 8.2 ... 9.3  = ... X 3,18  8.7 9.4 ... 9.1    ... X 4,18  9.2 9.4 ... 9.7  n ∑ X 2t t =1 n ∑X t =1 t =1 2 2t t =1 t =1 ∑X t =1 2t X 3t n 3t X 2t n ∑X ∑ X 3t n n ∑X n ∑X t =1 2 3t n 4t X 2t ∑X t =1 4t X 3t   t =1  n  X 2t X 4t  ∑ t =1  n  X 3t X 4 t  ∑ t =1  n  X 42t  ∑ t =1  n ∑X 131.2 132.7 137.2   15 131.2 1152.06 1163.1 1202.36   = 132.7 1163.1 1178.71 1216.52    137.2 1202.36 1216.52 1258.24  Suy ra:  27.514 -0.759 -0.354 -1.934   -0.759 0.360 -0.072 -0.192   ( X t X ) −1 =   -0.354 -0.072 0.420 -0.299     -1.934 -0.192 -0.299 0.684  Khi đó: 17 4t  n   ∑ Yt   t =1   n   1371   ∑ X 2t Yt  12011.8 t =1  = X tY =  n   12149.3    ∑ X 3tYt    t =1  12561.4   n   ∑ X 4t Yt   t =1  Ta tính được:  27.514 -0.759 -0.354 -1.934  1371   27.661  -0.759 0.360 -0.072 -0.192 12011.8   1.679  −1  =  βˆ = ( X T X ) X T Y =   -0.354 -0.072 0.420 -0.299 12149.3  0.801        -1.934 -0.192 -0.299 0.684  12561.4  4.588  Vậy ta có mô hình hồi quy như sau: Ŷ = 27.661 + 1.679X1 +0.801X 2 +4.588X 3 1.3 XÂY DỰNG MÔ HÌNH HỒI QUY BỞI CÁC PHẦN MỀM THỐNG KÊ Để xây dựng một mô hình hồi quy nếu ta áp dụng các công thức như trên sẽ rất mất thời gian. Tuy nhiên, để thuận tiện chúng ta có thể sử dụng các phần mềm như: Excel, SPSS, R, Mfit, hay Eview… Ở đây tôi sẽ trình bày phân tích mô hình hồi quy tuyến tính dựa trên Excel, SPSS, R và Eview. 1.3.1 Ứng dụng trên Excel Để thực hiện trên Excel ta thực hiện các bước sau: • Bước 1: Nhập số liệu. Nhập số liệu theo cột, mỗi cột một biến. • Bước 2: Chọn Tool / Data Analysis / Regression. • Bước 3: Đưa các đối số cần tính vào các vùng xử lí. Trong đó: - Input Y Range: Chọn vùng xử lí của biến phụ thuộc. - Input X Range: Chọn vùng xử lí của biến độc lập, nếu nhiều biến thì chọn nhiều cột. Ø Labels: Vùng xử lí có tên biến hay không Ø Constant is Zero: Đây là trường hợp hồi qui với anpha bằng 0 Ø Confidence Level: Độ tin cậy 18 Ví dụ 1.7: Để dễ dàng so sánh ta sử dụng lại bảng số liệu về tốc độ và lượng xăng xe tiêu thụ ở ví dụ 1.5 Ta thực hiện trên Excel như sau: Bước 1: Nhập số liệu. Bước 2: Chọn Tool / Data Analysis / Regression 19
- Xem thêm -

Tài liệu liên quan