Tìm hiểu về phân tích chuỗi thời gian

  • Số trang: 76 |
  • Loại file: PDF |
  • Lượt xem: 44 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THU HẰNG TÌM HIỂU VỀ PHÂN TÍCH CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ TOÁN HỌC HÀ NỘI - NĂM 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THU HẰNG TÌM HIỂU VỀ PHÂN TÍCH CHUỖI THỜI GIAN Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số: 60 46 01 06 LUẬN VĂN THẠC SĨ TOÁN HỌC Người hướng dẫn khoa học: PGS. TS. PHAN VIẾT THƯ HÀ NỘI - NĂM 2014 Mục lục 1 Các yếu tố của phân tích chuỗi thời gian thăm dò 1.1 Mô hình cộng tính của chuỗi thời gian . . . . . . . 1.1.1 Mô hình với xu hướng không tuyến tính . . 1.1.2 Hàm Logistic . . . . . . . . . . . . . . . . . 1.1.3 Hàm Mitscherlich . . . . . . . . . . . . . . . 1.1.4 Đường cong Gompertz . . . . . . . . . . . . 1.1.5 Hàm tương quan sinh trưởng (the Allometric 1.2 Bộ lọc tuyến tính của chuỗi thời gian . . . . . . . . 1.2.1 Các bộ lọc tuyến tính . . . . . . . . . . . . . 1.2.2 Điều chỉnh theo mùa . . . . . . . . . . . . . 1.2.3 Chương trình điều tra dân số X - 11 . . . . 1.2.4 Đa thức địa phương phù hợp nhất . . . . . . 1.2.5 Bộ lọc sai phân . . . . . . . . . . . . . . . . 1.2.6 Làm trơn hàm mũ . . . . . . . . . . . . . . 1.3 Tự hiệp phương sai và tự tương quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Function) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Mô hình chuỗi thời gian 2.1 Bộ lọc tuyến tính và quá trình ngẫu nhiên . . . . . . . . . . . . . . . . 2.1.1 Quá trình dừng . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Sự tồn tại của quá trình tuyến tính tổng quát . . . . . . . . . . 2.1.3 Hàm sinh hiệp phương sai (The Covariance Generating Function) 2.1.4 Đa thức đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Bộ lọc ngược . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.6 Bộ lọc nguyên nhân (Causal Filters) . . . . . . . . . . . . . . . 2.2 Trung bình trượt và quá trình tự hồi quy . . . . . . . . . . . . . . . . . 2.2.1 Quá trình khả nghịch . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Quá trình tự hồi quy . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Điều kiện dừng của quá trình tự hồi quy . . . . . . . . . . . . . 2.2.4 Phương trình Yule - Walker . . . . . . . . . . . . . . . . . . . . 2.2.5 Hệ số tự tương quan riêng . . . . . . . . . . . . . . . . . . . . . 2.2.6 Quá trình - ARMA . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.7 Hàm tự hiệp phương sai của quá trình - ARMA . . . . . . . . . 2.2.8 Quá trình - ARIMA . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Nhận dạng mô hình ARMA: Phương pháp Box - Jenkins . . . . . . . . 2.3.1 Lựa chọn bậc . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Ước lượng hệ số . . . . . . . . . . . . . . . . . . . . . . . . . . . i 1 2 3 4 5 6 6 9 9 11 11 13 15 16 18 20 20 22 22 28 29 30 31 33 35 36 36 38 39 41 42 45 46 46 47 2.3.3 2.3.4 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . . . . Dự báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 53 3 Mô hình không gian - trạng thái (State - Space Models) 3.1 Biểu diễn không gian - trạng thái . . . . . . . . . . . . . . . . . . . . . 3.2 Bộ lọc Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 58 62 Kết luận 68 Tài liệu tham khảo 69 ii Lời mở đầu Trong các bài toán kinh tế, kỹ thuật cũng như trong cuộc sống hàng ngày, việc biết trước được các giá trị của tương lai sẽ vô cùng quan trọng. Nó sẽ giúp chúng ta hoạch định được kế hoạch, tránh những rủi ro không cần thiết cũng như lựa chọn những phương án tối ưu. Chuỗi thời gian đang được sử dụng như một công cụ hữu hiệu để phân tích và dự báo trong kinh tế, xã hội cũng như trong nghiên cứu khoa học. Một chuỗi thời gian là tập hợp các quan sát của các dữ liệu được xác định rõ thu được thông qua các phép đo lặp đi lặp lại theo thời gian. Phân tích chuỗi thời gian bao gồm các phương pháp để phân tích dữ liệu chuỗi thời gian, từ đó trích xuất được các thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu. Nhờ đó, ta có cơ sở để dự báo các kết quả cho tương lai. Với mong muốn tìm hiểu về phân tích chuỗi thời gian nhằm dự báo các kết quả trong tương lai, luận văn nghiên cứu về đề tài "Tìm hiểu về phân tích chuỗi thời gian". Luận văn cung cấp kiến thức chính cho việc phân tích chuỗi thời gian trong miền thời gian. Các kiến thức cơ sở cần có là sự hội tụ trong phân phối, hội tụ ngẫu nhiên, ước lượng hợp lý cực đại cũng như kiến thức cơ bản của lý thuyết kiểm định. Luận văn gồm ba chương: Chương 1 đưa ra các yếu tố của việc phân tích chuỗi thời gian thăm dò bao gồm các mô hình phù hợp (Logistic, Mitscherlich, đường cong Gompertz) cho một chuỗi các dữ liệu, bộ lọc tuyến tính cho điều chỉnh theo mùa và xu hướng điều chỉnh (bộ lọc sai phân, chương trình điều tra dân số X – 11) và bộ lọc mũ cho theo dõi hệ thống. Tự hiệp phương sai và tự tương quan sẽ được giới thiệu trong chương này. Chương 2 cung cấp phép toán của các mô hình toán học về dãy ổn định của biến ngẫu nhiên (ồn trắng, trung bình trượt, quá trình tự hồi quy, mô hình ARIMA) cùng với các kiến thức cơ sở (sự tồn tại của quá trình dừng, hàm sinh hiệp phương sai, bộ lọc ngược và bộ lọc nguyên nhân, điều kiện dừng, phương trình Yule – Walker, tự tương quan riêng). Chương trình Box – Jenkins cho mô hình ARMA sẽ được nghiên cứu một cách cụ thể iii (tiêu chuẩn thông tin AIC, BIC và HQ). Quá trình Gaussian và ước lượng hợp lý cực đại trong mô hình Gaussian được giới thiệu cũng như ước lượng bình phương tối thiểu như là một khả năng loại trừ không có tham số. Kết quả được kiểm tra bằng Box – Ljung. Chương 3 giới thiệu mô hình chuỗi thời gian được nhúng trong mô hình không gian trạng thái. Bộ lọc Kalman là một phương pháp dự đoán thống nhất gần với các phân tích của chuỗi thời gian trong miền thời gian. Bản luận văn này được hoàn thành dưới sự hướng dẫn nghiêm khắc và chỉ bảo tận tình của PGS.TS Phan Viết Thư. Thầy đã dành nhiều thời gian hướng dẫn cũng như giải đáp các thắc mắc của tôi trong suốt quá trình làm luận văn. Tôi muốn bày tỏ lòng biết ơn sâu sắc đến người thầy của mình. Qua đây, tôi xin gửi tới các thầy cô Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, cũng như các thầy cô đã tham gia giảng dạy khóa cao học 2011- 2013 lời cảm ơn sâu sắc nhất đối với công lao dạy dỗ trong suốt quá trình giáo dục đào tạo của Nhà trường. Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình. Hà Nội, ngày 11 tháng 02 năm 2014 Học viên Phạm Thu Hằng iv Chương 1 Các yếu tố của phân tích chuỗi thời gian thăm dò Chuỗi thời gian là chuỗi các quan sát được sắp xếp theo thời gian. Ví dụ, thu hoạch hàng năm của củ cải đường và giá của chúng/tấn được ghi lại trong nông nghiệp. Thông báo về giá cổ phiếu hàng ngày, tỷ lệ đầu tư hàng tuần, tỷ lệ số người thất nghiệp hàng tháng và doanh thu hàng năm trong các tờ báo kinh tế. Khí tượng học ghi lại tốc độ gió hàng giờ, nhiệt độ cao nhất và thấp nhất hàng ngày, mực nước mưa hàng năm. Địa lý học liên tục theo dõi sự thay đổi của trái đất để dự đoán khả năng động đất. Một điện não đồ ghi lại dấu vết sóng não thực hiện bởi một máy điện tử để phát hiện bệnh não, điện tâm đồ dấu vết sóng tim. Những điều tra xã hội về tỷ lệ sinh và tỷ lệ chết, các tai nạn trong nhà và hành vi phạm tội. Tham số trong một quá trình sản xuất được theo dõi thường xuyên để kiểm tra trực tuyến, đảm bảo chất lượng. Hiển nhiên, có rất nhiều lý do để ghi lại và phân tích những dữ liệu về chuỗi thời gian. Trong số đó, đặc biệt là sự mong muốn có một hiểu biết tốt hơn về các dữ liệu tạo ra cơ chế, dự đoán về kết quả trong tương lai hoặc điều khiển tối ưu một hệ thống. Tính chất đặc trưng của chuỗi thời gian là dữ liệu không được sinh ra một cách độc lập, sự sai khác của chúng thay đổi theo thời gian, chúng thường bị điều chỉnh bởi xu hướng và chúng có các thành phần chu kỳ. Do đó, các quá trình thống kê mà người ta giả sử dữ liệu có tính độc lập và cùng phân phối, sẽ loại trừ khỏi phân tích của chuỗi thời gian. Điều này đòi hỏi những phương pháp thích hợp được tập hợp lại dưới cái tên Phân tích chuỗi thời gian. 1 1.1 Mô hình cộng tính của chuỗi thời gian Mô hình cộng tính đối với một chuỗi thời gian y1 , y2 , . . . , yn là giả thiết rằng những dữ liệu trên là phép thể hiện của các biến ngẫu nhiên Yt sao cho Yt là tổng của bốn thành phần Yt = Tt + Zt + St + Rt , t = 1, ..., n, (1.1) trong đó Tt là hàm (đơn điệu) của t , gọi là xu hướng. Zt phản ánh một số tác động dài hạn không ngẫu nhiên có chu kỳ. Ví dụ, chu kỳ nổi tiếng trong kinh doanh thường bao gồm suy thoái, phục hồi, tăng trưởng và suy giảm. St mô tả một số ảnh hưởng không ngẫu nhiên theo chu kỳ ngắn hạn như là một thành phần theo mùa trong khi Rt là một biến ngẫu nhiên bao gồm tất cả độ lệch từ mô hình không ngẫu nhiên lý tưởng yt = Tt +Zt +St . Các biến Tt và Zt thường được viết gọn thành Gt = Tt + Zt , (1.2) Gt mô tả diễn biến dài hạn của chuỗi thời gian. Chúng ta sẽ giả thiết rằng kỳ vọng E (Rt ) = 0 của biến sai số tồn tại và bằng 0, điều đó phản ánh giả thiết độ lệch ngẫu nhiên trên hoặc dưới mô hình không ngẫu nhiên cân bằng lẫn nhau về trung bình. Chú ý rằng E (Rt ) = 0 có thể luôn đạt được bằng cách thay đổi thích hợp một hoặc nhiều thành phần không ngẫu nhiên. Biểu đồ dưới đây của dữ liệu thất nghiệp 1 chỉ ra một thành phần theo mùa và một xu hướng giảm. Chu kỳ từ tháng 7 năm 1975 tới tháng 9 năm 1979 có thể hơi ngắn để cho biết về chu kỳ kinh doanh dài hạn. 2 Biểu đồ 1.1.1: Dữ liệu thất nghiệp 1. 1.1.1 Mô hình với xu hướng không tuyến tính Trong mô hình cộng tính Yt = Tt + Rt , ở đó chỉ có thành phần không ngẫu nhiên là xu hướng Tt phản ánh sự phát triển của hệ thống và giả thiết rằng E (Rt ) = 0, ta có: E (Yt ) = Tt = f (t) . Giả thiết chung là hàm f phụ thuộc vào nhiều tham số (chưa biết) β1 , ..., βp tức là f (t) = f (t; β1 , ..., βp ) , (1.3) tuy nhiên đã biết dạng của hàm f . Các tham số chưa biết β1 , ..., βp cần được ước lượng từ tập các thể hiện yt của biến ngẫu nhiên Yt . Cách tiếp cận thông thường là sử dụng phương pháp ước lượng bình phương tối thiểu β̂1 , ..., β̂p thỏa mãn X t  2 X 2 yt − f t; β̂1 , ..., β̂p = min (yt − f (t; β1 , . . . , βp )) . β1 ,...,βp (1.4) t Nếu các  phép toán trên tồn tại thì bài toán đưa về bài toán số .Giá trị ŷt = f t; β̂1 , . . . , β̂p có thể dùng để dự báo giá trị tương lai yt . Hiệu yt − ŷt được gọi là phần dư. Chúng chứa các thông tin về sự phù hợp của mô hình với dữ liệu. Sau đây ta sẽ liệt kê một số ví dụ thông dụng của hàm xu hướng. 3 1.1.2 Hàm Logistic Hàm số flog (t) = flog (t; β1 , β2 , β3 ) = β3 , 1 + β2 exp (−β1 t) t ∈ R, (1.5) với β1 , β2 , β3 ∈ R\ {0} là hàm Logistic được sử dụng rộng rãi. Biểu đồ 1.1.2: Hàm Logistic flog với các giá trị khác nhau β1 , β2 , β3 . Hiển nhiên ta có lim flog (t) = β3 nếu β1 > 0. Giá trị β3 thường giống sự t→∞ sản sinh cực đại hoặc sự phát triển của hệ thống. Chú ý rằng: 1 1 + β2 exp (−β1 t) flog (t) β3 1 − exp (−β1 ) 1 + β2 exp (−β1 (t − 1)) = + exp (−β1 ) β3 β3 1 − exp (−β1 ) 1 = + exp (−β1 ) β3 flog (t − 1) b =a+ . (1.6) flog (t − 1) 1 . Điều này có thể Như vậy tồn tại một mối liên hệ tuyến tính giữa flog (t) dùng làm cơ sở để ước lượng các tham số β1 , β2 , β3 bằng một ước lượng bình phương tối thiểu thích hợp. Trong ví dụ sau, ta sẽ khớp mô hình xu hướng (1.5) với dữ liệu về sự phát triển dân số của phía bắc Rhine-Westphalia (NRW) là một bang của Đức. = 4 Ví dụ 1.1.1 (Dữ liệu dân số 1) Bảng 1.1.1 đưa ra số dân (tính theo đơn vị hàng triệu) của bang NRW các bước chu kỳ 5 năm, từ năm 1935 đến năm 1980 và đưa ra giá trị dự báo của ŷt , xác định bằng phương pháp ước lượng bình phương tối thiểu như mô tả (1.4) cho mô hình Logistic. Năm t 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1 2 3 4 5 6 7 8 9 10 Số dân yt (triệu người) 11.772 12.059 11.200 12.926 14.442 15.694 16.661 16.914 17.176 17.044 Giá trị dự báo ŷt (triệu người) 10.930 11.827 12.709 13.565 14.384 15.158 15.881 16.548 17.158 17.710 Bảng 1.1.1: Dữ liệu dân số 1. Như một dự báo số dân ở thời gian t, ta nhận được trong mô hình Logistic ŷt = = β̂3   1 + β̂2 exp −β̂1 t 21.5016 1 + 1.1436exp (−0.1675t) với kích thước bão hoà ước lượng là β̂3 = 21.5016. 1.1.3 Hàm Mitscherlich Hàm Mitscherlich là một dạng đặc trưng, thường được sử dụng trong mô hình tăng trưởng dài hạn của hệ thống: fM (t) = fM (t; β1 , β2 , β3 ) = β1 + β2 exp (β3 t) , t ≥ 0, (1.7) trong đó β1 , β2 ∈ R và β3 < 0. Vì β3 là số âm nên ta có dáng điệu tiệm cận lim fM (t) = β1 và do đó tham số β1 là giá trị bão hoà của hệ thống. t→∞ Giá trị (khởi tạo) của hệ thống tại thời gian t = 0 là fM (t) = β1 + β2 . 5 1.1.4 Đường cong Gompertz Một hàm khá thông dụng dùng để mô hình hoá sự tăng hoặc giảm của một hệ thống là đường cong Gompertz  (1.8) fG (t) = fG (t; β1 , β2 , β3 ) = exp β1 + β2 β3t , t ≥ 0, trong đó β1 , β2 ∈ R và β3 ∈ (0, 1). Hiển nhiên ta có log (fG (t)) = β1 + β2 β3t = β1 + β2 exp (log (β3 ) t) , và do đó log (fG ) là hàm Mitscherlich với tham số β1 , β2 và log (β3 ). Giá trị bão hoà là exp (β1 ). Biểu đồ 1.1.3: Đường cong Gompertz với các tham số khác nhau. 1.1.5 Hàm tương quan sinh trưởng (the Allometric Function) Hàm tương quan sinh trưởng fa (t) = fa (t; β1 , β2 ) = β2 tβ1 , t ≥ 0, (1.9) với β1 ∈ R, β2 > 0 là hàm xu hướng thông dụng trong sinh vật học và kinh tế học. Nó có thể được xem như là một hàm Cobb-Douglas đặc biệt, là một mô hình kinh tế lượng thông dụng để mô tả số lượng sản phẩm đầu ra phụ thuộc đầu vào. Vì log (fa (t)) = log (β2 ) + β1 log (t) , t > 0, 6 là một hàm tuyến tính của log (t) với hệ số góc β1 và điểm cắt với trục tung là log (β2 ) nên ta có thể giả thiết một mô hình hồi quy tuyến tính cho dữ liệu loga log (yt ) log (yt ) = log (β2 ) + β1 log (t) + εt , t ≥ 1, trong đó εt là các biến sai số. Ví dụ 1.1.2 (Dữ liệu về thu nhập). Bảng 1.1.2 đưa ra thu nhập tích luỹ tăng trung bình hàng năm của thu nhập trước thuế (Gross) và thu nhập sau thuế (Net) tính theo đơn vị nghìn DM (đơn vị tiền tệ) tại Đức từ năm 1960. Năm 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 Thu nhập trước thuế xt 0 0.627 1.247 1.702 2.408 3.188 3.866 4.201 4.840 5.855 7.625 t 0 1 2 3 4 5 6 7 8 9 10 Thu nhập sau thuế yt 0 0.486 0.973 1.323 1.867 2.568 3.022 3.259 3.663 4.321 5.482 Bảng 1.1.2: Dữ liệu thu nhập. Ta giả thiết rằng sự tăng của thu nhập ròng sau thuế yt là một hàm tương quan sinh trưởng của thời gian t và ta có log (yt ) = log (β2 ) + β1 log (t) + εt . (1.10) Ước lượng bình phương tối thiểu của β1 và log (β2 ) trong mô hình hồi quy tuyến tính trên là   10  P log (t) − log (t) log (yt ) − log (y) t=1 = 1.019, β̂1 = 2 10  P log (t) − log (t) t=1 trong đó log (t) = 1 10 10 P log (t) = 1.5104, log (y) = t=1 1 10 10 P log (yt ) = 0.7849 t=1 \ và cuối cùng log (β2 ) = log (y) − β̂1 log (t) = −0, 7549. Do đó ta ước lượng 7 β2 bởi β̂2 = exp (−0, 7549) = 0.4700. Vậy giá trị dự đoán ŷt tương ứng với thời gian t ŷt = 0.47t1.019 . (1.11) yt − ŷt 0,0159 0,0201 -0,1176 -0,0646 0,1430 0,1017 -0,1583 -0,2526 -0,0942 0,5662 t 1 2 3 4 5 6 7 8 9 10 Bảng 1.1.3: Phần thặng dư của dữ liệu thu nhập. Bảng 1.1.3 liệt kê phần dư yt − ŷt , các phần dư này có thể đánh giá sự phù hợp của mô hình (1.11). Một độ đo phổ thông để đánh giá sự phù hợp là hệ số tương quan nhiều chiều bình phương hoặc giá trị R2 n P R2 = 1 − t=1 n P 2 (yt − ŷt ) , (1.12) 2 (yt − ȳ) t=1 n 1P yt là trung bình của các quan sát yt . Trong mô hình hồi n t=1 quy tuyến tính với ŷt dựa trên ước lượng bình phương tối thiểu của các n P 2 2 2 tham số, R nằm giữa 0 và 1 suy ra R = 1 nếu và chỉ nếu (yt − ŷt ) = 0. trong đó ȳ = t=1 Một giá trị R2 gần tới 1 là thuận lợi cho mô hình. Mô hình (1.10) có R2 = 0.9934 trong khi (1.11) có R2 = 0.9789. Tuy nhiên ta phải chú ý rằng mô hình đầu tiên (1.9) không tuyến tính và β̂2 không phải là ước lượng bình phương tối thiểu, trong trường hợp này R2 không nhất thiết phải nằm giữa 0 và 1 và do đó ta cần phải xem xét cẩn thận nó như là một độ đo thô của sự phù hợp. Tổng thu nhập tăng trung bình trong năm 1960 là 6148 DM và tương ứng 8 thu nhập ròng là 5148 DM. Do đó tổng thu nhập trung bình hiện tại và thu nhập ròng là x̃t = xt + 6.148 và ỹt = yt + 5.178 với mô hình ước lượng dựa trên giá trị dự đoán ŷt yˆ˜t = ŷt + 5.178 = 0.47t1.019 + 5.178. Chú ý rằng giá trị thặng dư ỹt − yˆ˜t = yt − ŷt không bị ảnh hưởng bởi hằng số cộng 5.178 vào yt . Mô hình ở trên có thể giúp đánh giá tình trạng người đóng thuế trung bình từ năm 1960 đến năm 1970 và dự đoán họ ở tương lai. Rõ ràng từ giá trị thặng dư trong bảng 1.1.3 cho thấy thu nhập ròng yt gần như là bội số hoàn hảo của t với t nằm giữa 1 và 9 trong khi năm 1970, y10 tăng mạnh nhất dường như là giá trị ngoại lai. Thật vậy, trong năm 1969 chính phủ Đức đã có sự thay đổi và trong năm 1970 có một cuộc đình công lớn ở Đức là nguyên nhân cho việc thu nhập của công chức tăng mạnh. 1.2 Bộ lọc tuyến tính của chuỗi thời gian Sau đây ta sẽ xem xét mô hình cộng tính (1.1) và giả thiết rằng không có thành phần chu kỳ dài hạn. Tuy nhiên ta cho phép một xu hướng, trong trường hợp này, làm trơn thành phần không ngẫu nhiên Gt bằng hàm xu hướng Tt . Do đó, mô hình được phân tích dưới dạng Yt = Tt + St + Rt , t = 1, 2, . . . (1.13) với E (Rt ) = 0. Cho thể hiện yt , t = 1, 2, . . . , n trong chuỗi thời gian, mục đích của phần này là ước lượng T̂t , Ŝt của các hàm không ngẫu nhiên Tt và St và loại bỏ chúng ra khỏi chuỗi thời gian bằng cách xét yt − T̂t hoặc yt − Ŝt thay vào đó. Chuỗi nhận được sau khi loại bỏ xu hướng theo mùa trong chuỗi thời gian gọi là "chuỗi được điều chỉnh theo mùa". 1.2.1 Các bộ lọc tuyến tính Lấy a−r , a−r+1 , . . . , as là các số thực bất kỳ, trong đó r, s ≥ 0, r+s+1 ≤ n. Phép biến đổi tuyến tính Yt∗ = s X t = s + 1, . . . , n − r, au Yt−u , u=−r được gọi là bộ lọc tuyến tính với các trọng số a−r , a−r+1 , . . . , as . Yt được gọi là đầu vào, Yt∗ được gọi là đầu ra. 9 Dễ thấy rằng dữ liệu đầu ra ít hơn dữ liệu đầu vào nếu (r, s) 6= (0, 0). Một giá trị dương s > 0 hoặc r > 0 là nguyên nhân cắt bỏ điểm bắt đầu hoặc kết thúc của chuỗi thời gian. Để thuận tiện, ta gọi véctơ của các trọng số T (au ) = (a−r , . . . , as ) là một lọc (tuyến tính). s P Một lọc (au ) mà các trọng số có tổng bằng 1, au = 1 gọi là trung u=−r 1 bình trượt. Trường hợp riêng au = , u = −s, . . . , s với một số lẻ 2s + 1 1 1 trọng số bằng nhau, hoặc au = , u = −s + 1, . . . , s − 1, a−s = as = , 2s 4s mục đích chọn một số lượng chẵn trọng số để trung bình trượt đơn giản có bậc tương ứng là 2s + 1 và 2s. Lọc chuỗi thời gian là để làm san bằng những thành phần bất thường của chuỗi thời gian, do đó tìm ra xu hướng hoặc thành phần theo mùa, mà nó có thể bị che khuất bởi những biến động. Ví dụ, trong khi đồng hồ tốc độ kỹ thuật số trong ô tô có thể cung cấp vận tốc tức thời của xe, cũng cho thấy sự biến động khá lớn. Một công cụ tương tự dùng tay và một bộ lọc xây dựng làm mịn có thể giảm tải các biến động nhưng mất một ít thời gian để điều chỉnh. Công cụ thứ hai thì rất dễ đọc và các thông tin của chúng phản ánh xu hướng là đủ trong hầu hết các trường hợp. Để tính đầu ra của trung bình trượt đơn giản có bậc 2s + 1 ta sử dụng phương trình sau: ∗ Yt+1 = Yt∗ + 1 (Yt+s+1 − Yt−s ) . 2s + 1 Lọc này là ví dụ riêng cho lọc thông thấp, bảo toàn thành phần xu hướng biến đổi chậm của chuỗi và loại khỏi nó thành phần biến động nhanh hoặc tần số cao. Do đó, có một sự thoả hiệp giữa hai yêu cầu trên là những biến đổi bất thường nên được giảm bởi một bộ lọc, ví dụ chọn nhiều s trong trung bình trượt đơn giản, và do đó sự biến động dài hạn trong dữ liệu sẽ không bị bóp méo bởi làm trơn quá mức, tức là có quá nhiều lựa chọn s. Ví dụ, nếu ta giả sử rằng chuỗi thời gian Yt = Tt + Rt không có thành phần theo mùa, trung bình trượt đơn giản bậc 2s + 1 dẫn tới Yt∗ s X 1 = Yt−u 2s + 1 1 = 2s + 1 u=−s s X u=−s s X 1 Tt−u + Rt−u = Tt∗ + Rt∗ . 2s + 1 u=−s 10 trong đó theo luật số lớn Rt∗ ∼ E (Rt ) = 0 nếu s đủ lớn. Nhưng Tt∗ có thể sau đó không còn phản ánh Tt . Tuy nhiên, nếu chọn s nhỏ, ta thấy hiện tượng Rt∗ không còn gần với kỳ vọng của nó. 1.2.2 Điều chỉnh theo mùa Trung bình trượt đơn giản của chuỗi thời gian Yt = Tt + St + Rt phân tích thành Yt∗ = Tt∗ + St∗ + Rt∗ , trong đó St∗ là trung bình trượt liên quan của thành phần theo mùa. Hơn nữa, giả sử rằng St là hàm chu kỳ p , tức là St = St+p , t = 1, . . . , n − p. Ví dụ nhiệt độ trung bình hàng tháng Yt đo được tại những điểm cố định, trong trường hợp này có thể giả thiết chu kỳ thành phần theo mùa St có chu kỳ p = 12 tháng. Trung bình trượt đơn giản bậc p cho giá trị bất biến St∗ = S, t = p, p + 1, . . . , n − p . Bằng việc cộng thêm hằng số S vào hàm xu hướng Tt và đặt Tt0 = Tt + S , ta có thể giả thiết S = 0. Do đó ta có hiệu Dt = Yt − Yt∗ ∼ St + Rt . Để ước lượng St ta tính trung bình hiệu này với độ trễ p (chú ý rằng chúng dao động xung quanh St ) nt −1 1 X D̄t = Dt+jp ∼ St , nt t = 1, . . . , p, j=0 D̄t = D̄t−p , với t > p, trong đó nt là số chu kỳ dùng để tính D̄t . Do đó p p 1X 1X Ŝt = D̄t − D̄j ∼ St − Sj = St p p j=1 (1.14) j=1 là một ước lượng của St = St+p = St+2p = . . . thoả mãn p−1 p−1 j=0 j=0 1X 1X Ŝt+j = 0 = St+j . p p Hiệu Yt − Ŝt với thành phần theo mùa gần 0 là chuỗi thời gian được điều chỉnh theo mùa. 1.2.3 Chương trình điều tra dân số X - 11 Trong những năm 50 của thế kỷ 20, văn phòng US – điều tra dân số đã phát triển một chương trình điều chỉnh theo mùa của chuỗi thời gian kinh 11 tế, được gọi là chương trình điều tra dân số X – 11. Chương trình này phụ thuộc vào các quan sát hàng tháng và giả thiết mô hình cộng tính Yt = Tt + St + Rt giống như (1.13) với thành phần theo mùa St chu kỳ p = 12. Ta đưa ra một bản tóm tắt chương trình bởi Wallis (1974), đó là kết quả của trung bình trượt với trọng số đối xứng. Phương pháp điều tra dân số được trình bày trong Shiskin và Eisenpress (1957); một mô tả đầy đủ được đưa ra bởi Shiskin et al (1967). Chứng minh lý thuyết được dựa trên mô hình ngẫu nhiên được cung cấp bởi Cleveland và Tiao (1976). Chương trình X - 11 thực chất làm việc như điều chỉnh theo mùa được mô tả ở trên, nhưng chương trình này có thêm các phép lặp và nhiều trung bình trượt khác nhau. Những bước khác nhau trong chương trình này là: (i) Tính trung bình trượt đơn giản Yt∗ bậc 12 để loại bỏ về cơ bản một xu hướng Yt∗ ∼ Tt . (ii) Hiệu Dt = Yt − Yt∗ ∼ St + Rt sau đó bỏ qua một cách xấp xỉ thành phần bất thường cộng theo mùa. (iii) Áp dụng trung bình trượt bậc 5 cho mỗi tháng riêng rẽ bằng cách tính  1  (1) (1) (1) (1) (1) D̄t−24 + 2D̄t−12 + 3D̄t + 2D̄t+12 + D̄t+24 ∼ St . 9 Công thức trên cho ước lượng của các thành phần theo mùa St . Chú ý rằng trung bình trượt với trọng số (1, 2, 3, 2, 1) /9 là trung bình trượt đơn giản có độ dài bằng 3. (1) D̄t = (1) (iv) D̄t được điều chỉnh bằng cộng xấp xỉ dần về 0 trên bất kỳ chu kỳ 12 tháng bằng cách đặt   1 1 (1) 1 (1) (1) (1) (1) (1) Ŝt = D̄t − D̄ + D̄t−5 + . . . + D̄t+5 + D̄t+6 . 12 2 t−6 2 (1) (1) (v) Hiệu Yt = Yt − Ŝt ∼ Tt + Rt là chuỗi điều chỉnh theo mùa sơ bộ, giống như trước đó. (1) (vi) Dữ liệu điều chỉnh Yt sẽ được làm trơn hơn bởi trung bình trượt Henderson Yt∗∗ bậc 9,13 hoặc 23. 12 (2) (vii) Hiệu Dt = Yt − Yt∗∗ ∼ St + Rt sau đó loại ước lượng thứ hai của tổng thành phần theo mùa và thành phần bất thường. (viii) Trung bình trượt bậc 7 được ứng dụng cho mỗi tháng một cách riêng biệt 3 X (2) (2) au Dt−12u , D̄t = u=−3 trong đó trọng số au lấy từ trung bình trượt đơn giản bậc 3 áp dụng cho trung bình trượt đơn giản bậc 5 của dữ liệu gốc tức là véctơ trọng số là (1, 2, 3, 3, 3, 2, 1) /15 . Đây chính là ước lượng thứ hai của thành phần theo mùa St . (2) (ix) Bước (iv) được lặp đi lặp lại cho ra ước lượng xấp xỉ trung tâm Ŝt của thành phần theo mùa. (2) (x) Hiệu Yt (2) = Yt − Ŝt cho ta chuỗi điều chỉnh theo mùa. Tùy thuộc độ dài của trung bình trượt Henderson được sử dụng trong bước (2) (vi), Yt là trung bình trượt có độ dài 165, 169 hoặc 179 của dữ liệu gốc. Nhận thấy rằng, điều này dẫn đến việc lấy trung bình tại thời gian t dao động trước và sau 7 năm là một dạng độ dài đặc trưng của chu kỳ kinh doanh đã được quan sát trong kinh tế (chu kỳ Juglar). Văn phòng US – điều tra dân số gần đây đã phát hành một phiên bản mở rộng của chương trình X – 11 gọi là Census X – 12 – ARIMA. Nó được thực hiện trong SAS phiên bản 8.1 và cao hơn là PROC X12 (độc giả tham khảo các tài liệu trực tuyến SAS để biết chi tiết). 1.2.4 Đa thức địa phương phù hợp nhất Trung bình trượt đơn giản hoạt động tốt trong chuỗi thời gian hầu tuyến tính địa phương, nhưng nó sẽ gặp phải môt số vấn đề khi làm việc với tình trạng hình dạng xoắn. Một gợi ý đưa ra là ta nên làm việc với đa thức địa phương có bậc cao hơn. Xét 2k + 1 dữ liệu liên tục yt−k , . . . , yt , yt+k từ chuỗi thời gian. Một ước lượng đa thức địa phương bậc p < 2k + 1 là cực tiểu hóa β0 , . . . , βp thoả mãn k X 2 (yt+u − β0 − β1 u − . . . − βp up ) = min. (1.15) u=−k 13 Nếu ta lấy đạo hàm vế trái tương ứng với mỗi βj và đặt các đạo hàm đó bằng 0, ta thấy các cực tiểu thoả mãn p + 1 phương trình tuyến tính β0 k X j u + β1 k X j+1 u + . . . + βp j+p u u=−k u=−k u=−k k X k X = uj yt+u u=−k với j = 0, . . . , p. p + 1 phương trình này gọi là phương trình chuẩn tắc và có thể viết dưới dạng ma trận β = XT y XT Xβ (1.16) trong đó 2  1 −k (−k)  1 −k + 1 (−k + 1)2 X=  ... 1 k k2  p ... (−k) p . . . (−k + 1)   .. ...  . ... kp (1.17) T T là ma trận thiết kế, β = (β0 , . . . , βp ) và y = (yt−k , . . . , yt+k ) . Hạng của XT X bằng hạng của X, vì không gian không của chúng trùng nhau. Do đó ma trận XT X là khả nghịch khi và chỉ khi các cột của X là độc lập tuyến tính. Tuy nhiên, đa thức bậc p có nhiều nhất p nghiệm phân biệt. Do đó các phương trình chuẩn tắc (1.16) phải có nghiệm duy nhất −1 β = XT X XT y. (1.18) Dự báo tuyến tính của yt+u dựa trên u, u2 , . . . , up là 2 p  ŷt+u = 1, u, u , . . . , u β = p X βj uj . j=0 Trường hợp riêng, chọn u = 0 ta có β0 = ŷt là một dự báo của quan sát trung tâm yt giữa yt−k , . . . , yt+k . Xấp xỉ đa thức địa phương bao gồm việc thay thế yt bởi điểm giao β0 . Mặc dù, dường như nếu đa thức địa phương phù hợp yêu cầu một tính toán lớn bởi tính β0 cho mỗi yt , nhưng thực ra là tính trung bình trượt. Ta có thể suy ra từ công thức (1.18) β0 = k X u=−k 14 cu yt+u
- Xem thêm -