Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng thống kê toán học

  • Số trang: 77 |
  • Loại file: PDF |
  • Lượt xem: 26 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ĐÀO THỊ AN THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU KINH TẾ - XÃ HỘI VIỆT NAM BẰNG THỐNG KÊ TOÁN HỌC LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ĐÀO THỊ AN THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU KINH TẾ - XÃ HỘI VIỆT NAM BẰNG THỐNG KÊ TOÁN HỌC Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học Mã số: 60 46 15 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS.HỒ ĐĂNG PHÚC Hà Nội - 2013 Danh mục các kí hiệu Danh mục các kí hiệu yit đáp ứng của đối tượng thứ i, tại thời điểm t. xit vectơ các biến giải thích cho đối tượng thứ i, tại thời điểm t. αi tham số đặc trưng cho đối tượng thứ i. βi tham số tổng thể. εit thành phần sai số. ii Mục lục Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . . ii LỜI NÓI ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi 1 Kiến thức chuẩn bị 1 1.1 Dữ liệu dọc và dữ liệu khối là gì? . . . . . . . . . . . . . . . . . 1 1.1.1 Mô hình thống kê . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Định nghĩa dữ liệu dọc và dữ liệu khối . . . . . . . . . . 2 1.2 Những ưu điểm và hạn chế của dữ liệu dọc . . . . . . . . . . . 2 1.2.1 Mối quan hệ động lực học và phân tích chuỗi thời gian . 3 1.2.2 Dữ liệu dọc với chuỗi thời gian đo lặp . . . . . . . . . . . 3 1.2.3 Dữ liệu dọc với mặt cắt ngang lặp . . . . . . . . . . . . . 4 1.2.4 Tính không thuần nhất . . . . . . . . . . . . . . . . . . . 4 1.2.5 Một vài khái niệm khác . . . . . . . . . . . . . . . . . . 5 1.3 Mô hình hiệu quả cố định . . . . . . . . . . . . . . . . . . . . . 6 1.3.1 Mô hình hiệu quả cố định cơ bản . . . . . . . . . . . . . 6 1.3.2 Ý nghĩa tham số . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3 Ước lượng bình phương nhỏ nhất (OLS) . . . . . . . . . 10 1.3.4 Mô hình mở rộng . . . . . . . . . . . . . . . . . . . . . . 13 2 Mô hình hiệu quả ngẫu nhiên 15 2.1 Mô hình các thành phần sai lệch . . . . . . . . . . . . . . . . . 15 2.1.1 Mô hình cơ bản và giả thiết . . . . . . . . . . . . . . . . 16 2.1.2 Ước lượng bình phương nhỏ nhất tổng quát . . . . . . . 18 iii iv Danh mục các kí hiệu 2.1.3 Kiểm định tính không thuần nhất . . . . . . . . . . . . . 18 2.2 Mô hình hiệu quả hỗn hợp . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 Mô hình hiệu quả hỗn hợp tuyến tính . . . . . . . . . . . 19 2.2.2 Mô hình tuyến tính hỗn hợp . . . . . . . . . . . . . . . . 21 2.3 Các kết luận về hệ số hồi quy . . . . . . . . . . . . . . . . . . . 22 2.3.1 Ước lượng bình phương nhỏ nhất tổng quát (GLS) . . . 22 2.3.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . 23 2.3.3 Kiểm định giả thuyết . . . . . . . . . . . . . . . . . . . . 24 2.4 Ước lượng các thành phần phương sai . . . . . . . . . . . . . . . 25 2.4.1 Ước lượng hợp lý cực đại (MLE) . . . . . . . . . . . . . 25 2.4.2 Ước lượng hợp lý cực đại giới hạn (REML) . . . . . . . . 26 2.5 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5.1 Dự đoán không chệch tuyến tính tốt nhất (BLUP) . . . . 27 2.5.2 Dự đoán mô hình hỗn hợp . . . . . . . . . . . . . . . . . 30 3 Mô hình nhiều mức 32 3.1 Mô hình nhiều mức cắt ngang . . . . . . . . . . . . . . . . . . . 32 3.1.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 33 3.1.2 Mô hình hai mức mở rộng . . . . . . . . . . . . . . . . . 35 3.1.3 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . 36 3.2 Các mô hình nhiều mức dọc . . . . . . . . . . . . . . . . . . . . 37 3.2.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 38 3.2.2 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . 38 3.3 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 39 3.3.2 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . 40 4 Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng mô hình nhiều mức 43 4.1 Sơ lược về nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Các biến số trong mô hình . . . . . . . . . . . . . . . . . . . . . 44 4.3 Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.3.1 Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . 45 4.3.2 Các biến độc lập (biến giải thích) . . . . . . . . . . . . . 46 4.4 Kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4.1 Kết quả phân tích tổng hợp . . . . . . . . . . . . . . . . 49 4.4.2 Kết quả phân tích bằng mô hình nhiều mức . . . . . . . 58 4.5 Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . 70 vi Lời nói đầu LỜI NÓI ĐẦU Thống kê là một bộ phận quan trọng của chuyên ngành Xác suất Thống kê. Phân tích thống kê là nêu ra một cách tổng hợp bản chất cụ thể của cá hiện tượng và quá trình kinh tế xã hội trong điều kiện lịch sử nhất định qua biểu hiện bằng số lượng. Nói cụ thể phân tích thống kê là xác định mức độ nêu lên sự biến động biểu hiện tính chất và trình độ chặt chẽ của mối liên hệ hiện tượng. Phân tích thống kê phải lấy con số thống kê làm tư liệu, lấy các phương pháp thống kê làm công cụ nghiên cứu. Phân tích thống kê có ý nghĩa quan trọng trong quá trình quản lý kinh tế. Nhờ có lý luận và phương pháp phong phú mà thống kê có thể vạch ra nguyên nhân của việc hoàn thành kế hoạch và các quyết định quản lý ; phân tích ảnh hưởng của các nhân tố đến việc sử dụng nguồn lực, xác định các mối liên hệ, các tính quy luật chung của hệ thống. Trong phạm vi bài luận văn này, học viên sử dụng dữ liệu do Tổng cục Thống kê biên soạn thuộc các ngành Nông - Lâm - Ngư nghiệp, Công nghiệp, Giao thông Vận tải & Bưu chính Viễn thông, Thương mại & Dịch vụ, Dân số để tập trung phân tích thử nghiệm sự phụ thuộc của hai yếu tố Bình quân mức bán lẻ hàng hóa & doanh thu dịch vụ tiêu dùng và Bình quân số thuê bao điện thoại được sử dụng vào các yếu tố kinh tế khác. Luận văn được chia thành bốn chương: Chương 1: Đưa ra các khái niệm về dữ liệu dọc, dữ liệu khối, tính không đồng nhất giữa các đối tượng quan sát, mô hình hiệu quả cố định và các phương pháp ước lượng các tham số. Chương 2: Giới thiệu mô hình hiệu quả hỗn hợp cùng các kết quả ước lượng các tham số cố định, ngẫu nhiên, dự đoán các giá trị quan sát tương lai. Chương 3: Giới thiệu mô hình nhiều mức. Chương 4: Áp dụng mô hình nhiều mức để phân tích thử nghiệm một số yếu tố kinh tế của nước ta. Chương 1 Kiến thức chuẩn bị 1.1 Dữ liệu dọc và dữ liệu khối là gì? 1.1.1 Mô hình thống kê Thống kê là một chuyên ngành làm việc với các loại dữ liệu, các công việc thu thập mẫu, tóm lược và phân tích dữ liệu. Khi phân tích dữ liệu, chúng ta thu thập thông tin được định lượng, tức là thông tin này được chuyển về thang số. Có nhiều phương pháp để phân tích dữ liệu bằng việc sử dụng phương pháp số hay tóm lược đồ thị. Khi đó người ta có thể liên kết các phương pháp này với một lý thuyết biểu diễn hay một mô hình mà thông qua đó đưa ra được các kết luận về thế giới xung quanh. Bước đầu tiên trong việc phân tích dữ liệu là chọn ra một đại lượng cơ bản làm đơn vị cho việc thu thập mẫu. Đại lượng đó được gọi là đơn vị phân tích, được biết như đơn vị nghiên cứu hay đơn vị quan sát. Trong khoa học xã hội, đơn vị phân tích có thể là một người, một công ty hay một đơn vị hành chính nào đó... Phân tích hồi quy và phân tích chuỗi thời gian là hai phương pháp quan trọng để phân tích dữ liệu. Phân tích hồi quy là một dạng đặc biệt của phân tích nhiều chiều, trong đó các phép đo lường được thực hiện trên từng đối tượng. Chúng ta xác định một phép đo được gọi là một đáp ứng hay biến phụ thuộc mà chúng ta quan tâm việc đưa ra các phát biểu về phép đo này và việc 1 1.2. Những ưu điểm và hạn chế của dữ liệu dọc 2 kiểm soát các biến khác. Với phân tích hồi quy, người ta thường làm việc với dữ liệu cắt ngang. Ngược lại, với phân tích chuỗi thời gian, chúng ta cần xác định một hay nhiều đối tượng và quan sát chúng theo thời gian. Điều này cho phép chúng ta nghiên cứu được các mối quan hệ theo thời gian, khía cạnh động lực học của bài toán. 1.1.2 Định nghĩa dữ liệu dọc và dữ liệu khối Định nghĩa 1. Dữ liệu dọc là dữ liệu chứa các quan sát của cùng một loại thông tin trên một nhóm các đối tượng tại nhiều thời điểm khác nhau. Phân tích dữ liệu dọc là sự kết hợp của phân tích hồi quy và phân tích chuỗi thời gian. Như với nhiều tập dữ liệu hồi quy, dữ liệu dọc bao gồm mặt cắt ngang của các đối tượng. Không giống như dữ liệu hồi quy, với dữ liệu dọc chúng ta quan sát các đối tượng theo thời gian. Không giống như dữ liệu chuỗi thời gian, với dữ liệu dọc chúng ta quan sát nhiều đối tượng. Việc quan sát một mặt cắt ngang rộng của các đối tượng theo thời gian cho phép chúng ta nghiên cứu khía cạnh động lực học của bài toán. Định nghĩa 2. Dữ liệu khối là dữ liệu chứa các quan sát của nhiều loại thông tin, được theo dõi tại nhiều thời điểm khác nhau của nhóm các đối tượng. Thuật ngữ "dữ liệu khối" xuất phát từ việc quan sát các cá thể riêng biệt. Một khối là một nhóm các cá thể được quan sát lặp đi lặp lại theo thời gian. Trước đây, đối với nhóm ngành kinh tế, phương pháp dữ liệu khối được sử dụng trong ngành kinh tế lao động. Nhưng ngày nay, các ứng dụng của dữ liệu khối trong kinh tế đã không bị hạn chế và được sử dụng rộng rãi hơn. 1.2 Những ưu điểm và hạn chế của dữ liệu dọc • Ưu điểm: Có một vài thuận lợi của dữ liệu dọc so với dữ liệu cắt ngang và dữ liệu chuỗi thời gian. Trong chương giới thiệu này, chúng ta thảo luận 3 1.2. Những ưu điểm và hạn chế của dữ liệu dọc hai thuận lợi quan trọng, đó là khi làm việc với dữ liệu dọc thì có khả năng nghiên cứu được các mối quan hệ động lực học và mô hình hóa được sự khác biệt hay tính không đồng nhất giữa các đối tượng. • Hạn chế: dữ liệu dọc phức tạp hơn dữ liệu cắt ngang hay dữ liệu chuỗi thời gian và hạn chế quan trọng nhất đó là khó khăn trong việc xây dựng mô hình mẫu để đơn giản vấn đề của các đối tượng. 1.2.1 Mối quan hệ động lực học và phân tích chuỗi thời gian Khi nghiên cứu các mối quan hệ động lực học, phân tích chuỗi thời gian một chiều được sử dụng rộng rãi. Tuy nhiên phương pháp này không đưa ra được các mối quan hệ giữa các đối tượng khác nhau. Ngược lại, phân tích chuỗi thời gian nhiều chiều đưa ra được các mối quan hệ giữa một số lượng có hạn các đối tượng khác nhau. Nhưng dù một chiều hay nhiều chiều thì phân tích chuỗi thời gian vẫn đòi hỏi phải có một số quan sát để đưa ra các kết luận đáng tin cậy. Ví dụ, đối với một dãy dữ liệu kinh tế hàng năm với 30 quan sát, việc sử dụng phân tích chuỗi thời gian có nghĩa là chúng ta sử dụng cùng một mô hình để biểu diễn một hệ thống kinh tế với chu kì thời gian là 30 năm. 1.2.2 Dữ liệu dọc với chuỗi thời gian đo lặp Với dữ liệu dọc, chúng ta sử dụng nhiều quan sát của một số đối tượng. Các quan sát lặp đi lặp lại từ cùng một đối tượng thì sẽ tương quan. Một cách để biểu diễn mối tương quan này là thông qua mô hình động lực học, có dạng như sau: yit = Eyit + εit , t = 1, 2, · · · , Ti ; i = 1, 2, · · · , n, trong đó εit biểu diễn độ lệch của đáp ứng so với trung bình của nó. Kí hiệu E biểu diễn kì vọng của đáp ứng yit . Một cách trực giác, nếu có mô hình động học chung cho các đối tượng thì bằng việc quan sát mô hình này trên nhiều đối tượng, chúng ta hi vọng sẽ ước lượng được mô hình với các quan sát chuỗi 4 1.2. Những ưu điểm và hạn chế của dữ liệu dọc thời gian ngắn hơn. Đối với nhiều tập dữ liệu, các đối tượng không có trung bình đồng nhất. Và kì vọng này được biểu diễn bằng phép xấp xỉ bậc nhất của một tổ hợp tuyến tính các biến giải thích sao cho Eyit = α + x′it β, ở đây, xit là một vectơ các biến giải thích, hay các biến độc lập. 1.2.3 Dữ liệu dọc với mặt cắt ngang lặp Dữ liệu dọc được coi như dữ liệu cắt ngang lặp đi lặp lại, bỏ qua thông tin riêng của cá thể được theo dõi theo thời gian. Có nhiều cuộc điều tra quan trọng với dữ liệu được thu thập lặp lại mà các đối tượng điều tra không được theo dõi theo thời gian. Các cuộc điều tra như vậy rất hữu dụng cho việc hiểu được sự thay đổi tổng hợp của một biến theo thời gian. Tuy nhiên nếu quan tâm tới việc nghiên cứu các đặc trưng kinh tế, nhân khẩu học hay các đặc trưng xã hội của cá nhân về vấn đề ly hôn thì việc theo dõi các cá nhân theo thời gian sẽ có nhiều thông tin hơn việc sử dụng dữ liệu cắt ngang lặp lại. 1.2.4 Tính không thuần nhất Bằng việc theo dõi các đối tượng theo thời gian, chúng ta có thể mô hình hóa được trạng thái của đối tượng. Trong nhiều tập dữ liệu, các đối tượng thường không giống nhau, có nghĩa là không thuần nhất. Trong phân tích hồi quy cắt ngang, chúng ta sử dụng các mô hình, ví dụ như yit = α + x′it β + εit , và gán tính không duy nhất của các đối tượng với số hạng nhiễu εit . Ngược lại, với dữ liệu dọc, chúng ta có cơ hội để mô hình hóa tính không thuần nhất này. Mô hình dữ liệu dọc cơ bản kết hợp chặt chẽ tính không thuần nhất giữa các đối tượng có dạng Eyit = αi + x′it β, t = 1, 2, · · · , Ti , i = 1, 2, · · · , n. (1.2.1) 1.2. Những ưu điểm và hạn chế của dữ liệu dọc 5 Trong dữ liệu cắt ngang khi Ti = 1, các tham số của mô hình này không xác định được. Tuy nhiên đối với dữ liệu dọc, chúng ta có đủ số quan sát để ước lượng β và α1 , α2 , · · · , αn . Mặt khác, việc gán các tham số đặc trưng đối tượng αi vào mô hình đã đưa ra một quy tắc quan trọng để kiểm soát tính không thuần nhất của các cá thể. Các mô hình liên kết tính không đồng nhất như phương trình trên, được gọi là mô hình không thuần nhất; trường hợp ngược lại được gọi là mô hình thuần nhất. Chúng ta cũng có thể giải thích tính không thuần nhất giữa các đối tượng theo nghĩa: các quan sát trên cùng một đối tượng thì tương đồng với nhau hơn các quan sát từ các đối tượng khác. Dựa trên giải thích này, tính không thuần nhất có thể được mô hình hóa bằng việc kiểm tra sự tương quan giữa các quan sát lặp đi lặp lại trên một đối tượng. Có nghĩa là, đối với nhiều tập dữ liệu, chúng ta đi tìm mối tương quan dương khi kiểm tra {yi1 , yy2 , · · · , yiTi }. Có hai phương pháp để mô hình hóa cho đại lượng biểu diễn tính không thuần nhất giữa các đối tượng, αi . Ở chương 2, chúng ta sẽ đi khảo sát một phương pháp, trong đó các αi là những tham số cố định, chưa biết và cần được ước lượng. Chương 3 sẽ giới thiệu phương pháp thứ hai, trong đó các αi là những biến ngẫu nhiên, được chọn từ một tổng thể nào đó chưa biết. Trong trường hợp này, phương trình (1.2.1) có thể được biểu diễn như sau E(yit |αi ) = αi + x′it β. Phương trình này mô tả mô hình với các hiệu quả ngẫu nhiên, đặc trưng bởi các tham số αi . 1.2.5 Một vài khái niệm khác Các mô hình dữ liệu dọc đôi khi khác với dữ liệu hồi quy và dữ liệu chuỗi thời gian thông qua chỉ số kép của chúng. Chúng ta có thể phân biệt giữa các đáp ứng bằng các đối tượng và thời gian. Định nghĩa yit là đáp ứng cho đối tượng thứ i ở giai đoạn thời gian t. Một tập dữ liệu dọc bao gồm các quan sát của 6 1.3. Mô hình hiệu quả cố định đối tượng thứ i tại các giai đoạn thời gian t = 1, 2, · · · , Ti chu kì thời gian, với i = 1, 2, 3, · · · , n. Như vậy, chúng ta quan sát được đối tượng đầu tiên − {y11 , y12 , · · · , y1T1 }, đối tượng thứ hai − {y21 , y22 , · · · , y2T2 }, .. . đối tượng thứ n − {yn1 , yn2 , · · · , ynTn }. Với nhiều tập dữ liệu, người ta thường lấy số quan sát phụ thuộc vào từng đối tượng, Ti kí hiệu số quan sát cho đối tượng thứ i. Trường hợp này được biết như tập dữ liệu không cân bằng. Đối với các tập dữ liệu khác, mọi đối tượng đều có số quan sát như nhau thì được biết như tập dữ liệu cân bằng. Định nghĩa 3 (Tương quan chuỗi). Tương quan chuỗi là sự tương quan giữa các quan sát được đo lặp đi lặp lại theo thời gian trên cùng một đối tượng. Định nghĩa 4 (Tương quan cắt ngang). Tương quan cắt ngang là sự tương quan giữa các đối tượng được quan sát theo không gian. 1.3 Mô hình hiệu quả cố định Phần này giới thiệu về việc phân tích dữ liệu dọc và dữ liệu khối bằng việc sử dụng khung mô hình tuyến tính tổng quát. Ở đây, mô hình dữ liệu dọc được coi như một bài toán hồi quy bằng việc sử dụng các tham số cố định để biểu diễn tính không thuần nhất giữa các đối tượng, các đại lượng phi ngẫu nhiên được biết như những hiệu quả cố định. 1.3.1 Mô hình hiệu quả cố định cơ bản Xét một mẫu ngẫu nhiên gồm n đối tượng, mỗi đối tượng là một đơn vị quan sát, được phân biệt với nhau bởi chỉ số i, với i = 1, 2, · · · , n. Mỗi đối tượng có Ti quan sát và chúng ta dùng chỉ số t để phân biệt các lần quan sát. Kí hiệu yit 7 1.3. Mô hình hiệu quả cố định là đáp ứng của đối tượng thứ i tại thời điểm quan sát t. Ứng với mỗi đáp ứng yit là một tập K biến giải thích {xit,1 , xit,2 , · · · , xit,K }. Chúng ta kí hiệu tập các biến giải thích như một vectơ cột với số chiều bằng K:   x  it,1     xit,2   xit =   ..  .  .    xit,n Như vậy, thông tin về đối tượng thứ i bao gồm {xi1,1 , · · · , xi1,K , yi1 } hay {x′i1 , yi1 } .. . {xiTi ,1 , · · · , xiTi ,K , yiTi } hay {x′iTi , yiTi }. Các đáp ứng biến đổi theo từng đối tượng với chỉ số Ti . Đây là trường hợp mô hình không cân bằng. Chúng ta kí hiệu T = max{T1 , T2 , · · · , Tn } là số đáp ứng lớn nhất cho một đối tượng và trường hợp các Ti = T với mọi i thì đây được gọi là mô hình cân bằng. Mô hình cơ bản Để phân tích mối quan hệ giữa biến đáp ứng và các biến giải thích, ta sử dụng hàm hồi quy Eyit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K . (1.3.1) Hàm hồi quy này tuyến tính đối với các tham số α, β1 , β2 , · · · , βK . Trong mô hình này, với giả thiết các biến giải thích là phi ngẫu nhiên thì hạn chế duy nhất của phương trình (1.3.1) là làm cho chúng ta nhầm tưởng rằng phương trình này cũng là tuyến tính đối với các biến. 1.3. Mô hình hiệu quả cố định 8 Các giả thiết của mô hình hồi quy tuyến tính quan sát được F1. Eyit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K . F2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên. F3. V aryit = σ 2 . F4. {yit } là các biến ngẫu nhiên độc lập. F5. {yit } có phân bố chuẩn. Biểu diễn quan sát được dựa trên ý tưởng về kì vọng có điều kiện, trong đó trung bình của đáp ứng lấy điều kiện trên tập các biến giải thích quan sát được {xit,1 , xit,2 , · · · , xit,K }. Vì vậy, chúng ta coi {xit,1 , xit,2 , · · · , xit,K } là các biến phi ngẫu nhiên. Giả thiết F5 không đòi hỏi đối với tất cả các phương pháp kết luận thống kê. Ngược lại với biểu diễn quan sát được, công thức cổ điển của mô hình hồi quy tuyến tính dựa trên các thành phần sai số trong mô hình hồi quy được định nghĩa như sau: εit = yit − (α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K ). Các giả thiết của mô hình biểu diễn sai số E1. yit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K + εit . với Eεit = 0. E2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên. E3. V arεit = σ 2 . E4. {εit } là các biến ngẫu nhiên độc lập. Biểu diễn sai số được dựa trên lý thuyết về sai số Gauss. Các giả thiết E1 - E4 tương đương với các giả thiết F1 - F4. Trong giả thiết F1, các hệ số 9 1.3. Mô hình hiệu quả cố định β1 , β2 , · · · , βK được gán với K biến giải thích. Chúng ta biểu diễn K tham số này như một vectơ cột với số chiều là K:   β  1    β2   β=  ..  .  .    βK Với kí hiệu này, chúng ta có thể viết lại giả thiết F1 như sau Eyit = α + x′it β, (1.3.2) Biểu diễn trong phương trình (1.3.2) là biểu diễn chéo vì nó không sử dụng thông tin được đo lặp đi lặp lại theo thời gian trên một đối tượng. Và vì phương trình này cũng không chứa các số hạng không đồng nhất nên được gọi là mô hình đồng nhất. Và biểu diễn đầu tiên của chúng ta, sử dụng thông tin trên các phép đo lặp đi lặp lại trên một đối tượng và chứa các số hạng chặn biến đổi theo từng đối tượng, có dạng Eyit = αi + x′it β. (1.3.3) Phương trình (1.3.3) và các giả thiết F2 - F4 kết hợp thành mô hình các hiệu quả cố định cơ bản. 1.3.2 Ý nghĩa tham số • Các tham số {βi }, i = 1, 2, · · · , K, chung cho mỗi đối tượng và được gọi là các tham số toàn cục hay các tham số tổng thể. • Các tham số αi biến đổi theo từng đối tượng được gọi là các tham số đặc trưng đối tượng hay các tham số cá thể. Các tham số đặc trưng đối tượng này biểu diễn các đặc điểm khác nhau của các đối tượng và thường được gọi là các tham số riêng. 10 1.3. Mô hình hiệu quả cố định Các tham số đặc trưng đối tượng αi biểu diễn tính không thuần nhất giữa các đối tượng. Các ước lượng của các tham số này sử dụng thông tin trong các phép đo lặp lại trên từng đối tượng. Ngược lại, các tham số này sẽ không định lượng được trong các mô hình hồi quy cắt ngang, không có các quan sát lặp đi lặp lại theo thời gian. Có nghĩa là với Ti = 1 thì mô hình yit = αi + β1 xi1,1 + β2 xi1,2 + · · · + βK xi1,K + εi1 có (n+K) tham số nhiều hơn số quan sát (n) và như vậy ta không xác định được tất cả các tham số. Số hạng nhiễu εit chứa thông tin về αi trong các mô hình hồi quy cắt ngang. Một thuận lợi quan trọng của các mô hình dữ liệu dọc so với các mô hình hồi quy cắt ngang là khả năng tách các hiệu quả của {αi } từ các số hạng nhiễu {εit }. Như vậy, bằng việc tách các hiệu quả đặc trưng đối tượng này, các ước lượng của chúng ta sẽ chính xác hơn và sẽ thu được các kết luận đáng tin cậy hơn. 1.3.3 Ước lượng bình phương nhỏ nhất (OLS) Định lý 1.3.1 (Gauss - Markov). Với các giả thiết F1-F5, các ước lượng bình phương nhỏ nhất là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch. Xét phương trình (1.3.3): Eyit = αi + x′it β i = 1, 2, · · · , n; t = 1, 2 · · · , Ti . Bây giờ chúng ta sẽ ước lượng các tham số β, αi và phương sai σ 2 và đây là các ước lượng không chệch tuyến tính tốt nhất của β và αi . Gọi b ai , bb1 , bb2 , · · · , bbK là các ước lượng của các tham số αi , β1 , β2 , · · · , βK . Định nghĩa hàm tổng bình phương SS(b a, bb) = Ti n X X i=1 t=1 (yit − (b ai + x′itbb))2 , 11 1.3. Mô hình hiệu quả cố định trong đó b a = (b a1 , b a2 , · · · , b an )′ và bb = (bb1 , bb2 , · · · , bbK )′ . Để cực tiểu hóa đại lượng này, đầu tiên chúng ta cần tính đạo hàm riêng theo b ai . Ta có n T i XX ∂ b SS(b a, b) = (−2) (yit − (b ai + x′itbb)). ∂b ai i=1 t=1 Ước lượng bình phương nhỏ nhất của αi là nghiệm của phương trình ∂ SS(b a, bb) = 0 ∂b ai PTi và có dạng b ai (bb) = y i − x′ibb, trong đó x′i = ( t=1 xit /Ti ). Lúc này hàm tổng bình phương sẽ bằng SS(b a(bb), bb) = Ti n X X (yit − y i − (xit − xi )′bb)2 . i=1 t=1 Để tìm ước lượng cho βi , ta lấy đạo hàm riêng theo mỗi thành phần của bb. Với thành phần thứ j, ta có n T i XX ∂ SS(b a, bb) = (−2) (xitj − xij )(yit − y i − (xit − xi )′bb)) b ∂ bj i=1 t=1 Cho phương trình này bằng 0 với mỗi thành phần j, ta có phương trình chuẩn tắc Ti n X X i=1 t=1 Ti n X X (xit − xi )(yit − y i ). (xit − xi )(xit − xi ) = ′ i=1 t=1 Phương trình chuẩn tắc này đã đưa ra cho ta các ước lượng OLS: (i) Ước lượng OLS của β: b= Ti n X X (xit − xi )(xit − xi )′ i=1 t=1 !−1 ! Ti n X X (xit − xi )(yit − y i ) , i=1 t=1 (1.3.4) 1 PTi trong đó b = (b1 , b2 , · · · , bK )′ và xi = xit là giá trị trung bình của Ti t=1 1 P Ti yit là giá trị trung bình của yi . biến xi với Ti lần quan sát; y i = Ti t=1 (ii) Ước lượng OLS của αi : ai = y i − x′ibb. (1.3.5) 12 1.3. Mô hình hiệu quả cố định Các ước lượng OLS của β có thể được biểu diễn như trung bình có trọng số của các ước lượng đặc trưng đối tượng. Đặc biệt, giả sử rằng tất cả các tham số đều đặc trưng đối tượng để hàm hồi quy có dạng Eyit = αi + x′it βi . Khi đó, ước lượng OLS của β có dạng bi = Ti X (xit − xi )(xit − xi )′ t=1 !−1 ! Ti X (xit − xi )(yit − y i ) . t=1 Bây giờ, chúng ta định nghĩa ma trận trọng số Ti X (xit − xi )(xit − xi )′ , Wi = t=1 Khi đó, bi có biểu diễn đơn giản hơn bi = Wi−1 Ti X (xit − xi )(yit − y i ). t=1 Với trọng số này, chúng ta có thể biểu diễn ước lượng của β !−1 n n X X Wi bi . Wi b= i=1 (1.3.6) i=1 như một (ma trận) trung bình có trọng số của các ước lượng tham số đặc trưng đối tượng. Từ phương trình (1.3.4) và (1.3.5), lại xét một vectơ trọng số khác !−1 n X (xit − xi ). Wi Wit = i=1 Với vectơ này, ta có một biểu diễn khác cho phương trình (1.3.4): b= Ti n X X Wit,1 yit . i=1 t=1 Điều này cho ta thấy rằng các hệ số hồi quy của b là những tổ hợp tuyến tính của các đáp ứng. Các hệ số hồi quy được gán với các biến hằng (không đổi theo thời gian) sẽ 13 1.3. Mô hình hiệu quả cố định không ước lượng được nếu sử dụng phương trình (1.3.4). Giả sử biến thứ j không đổi theo thời gian và xit,j = xi,j .Khi đó, các phần tử trên hàng và cột thứ j của ma trận Ti n X X (xit − xi )(xit − xi )′ i=1 t=1 đồng nhất bằng 0 và vì thế ma trận này không khả nghịch. Nhận xét. Cả hai ước lượng ai và b đều có các tính chất của ước lượng bình phương nhỏ nhất và cụ thể, đó là những ước lượng không chệch. Theo Định lý Gauss - Markov, chúng có phương sai nhỏ nhất trong lớp các ước lượng không chệch và phương sai của b sẽ là V arb = σ 2 n X i=1 1.3.4 Wi !−1 . Mô hình mở rộng Để mở rộng mô hình cơ bản, chúng ta sẽ đưa ra một biểu diễn đẹp hơn bằng việc sử dụng khái niệm ma trận. Dạng ma trận của phương trình (1.3.2): Eyi = αi 1i + Xi β, (1.3.7) trong đó yi là vectơ N × 1 các đáp ứng của đối tượng thứ i, yi = (yi1 , · · · , yiTi )′ và Xi là ma trận các biến giải  x  i1,1   xi2,1 Xi =   ..  .  xiTi ,1 thích mức Ti × K,    ′ xi1,2 · · · xi1,K x   i1    ′  xi2,2 · · · xi2,K   xi2     .. .. ..  =  ..  . . .   .     ′ xiTi ,2 · · · xiTi ,K xiTi hay có thể viết Xi = (xi1 , xi2 , · · · , xiTi )′ . Và 1i là vectơ Ti × 1 các số 1. Ma trận hiệp phương sai Với một tập các quan sát đầy đủ, chúng ta kí hiệu R là ma trận hiệp phương sai của y, mức T × T V ary = R(τ ) = R
- Xem thêm -