Tài liệu Ứng dụng tin học trong dự báo và phân tích dữ liệu tài chính, chứng khoán

  • Số trang: 32 |
  • Loại file: PDF |
  • Lượt xem: 113 |
  • Lượt tải: 0
tailieuonline

Đã đăng 39841 tài liệu

Mô tả:

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LỚP CAO HỌC CNTT QUA MẠNG – KHÓA 6 BÀI THU HOẠCH MÔN HỌC: PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC ĐỀ TÀI: ỨNG DỤNG TIN HỌC TRONG DỰ BÁO VÀ PHÂN TÍCH DỮ LIỆU TÀI CHÍNH, CHỨNG KHOÁN Giảng viên: GS TSKH Hoàng Kiếm Sinh viên thực hiện: Nguyễn Hoàng Hạc MSSV: CH1101081 TP. HCM, NĂM 2012 Mở đầu Khoa học và công nghệ là đặc trưng của thời đại, nghiên cứu khoa học đã trở thành hoạt động sôi nổi và rộng khắp trên phạm vi toàn cầu. các thành tựu của khoa học hiện đại đã làm thay đổi bộ mặt thế giới. Khoa học và công nghệ đã trở thành động lực thúc đẩy sự tiến bộ nhân loại. Cùng với nghiên cứu khoa học hiện đại, mọi người đang chú ý đến phương pháp nhận thức khoa học, coi đó là nhân tố quan trọng để phát triển khoa học. Theo Gaudin, chúng ta không thể bằng lòng với vốn kiến thức quá hạn hẹp thu nhận được trong những năm ngồi trên ghế nhà trường, mà phải học suốt đời, phải có đủ vốn kiến thức về phương pháp để tự mình học tập suốt đời. Kiến thức về phương pháp có thể được tích lũy trong kinh nghiệm lao động hay được tích lũy trong quá trình nghiên cứu các khoa học cụ thể, song bản thân phương pháp cũng có một hệ thống lý thuyết của riêng mình. Trong phạm vi của bài thu hoạch nhỏ này, chúng em sẽ trình bày một số vấn đề về phương pháp nghiên cứu khoa học nói chung và đặc biệt là trong ngành tin học. Qua đây, chúng em cũng xin được gửi lời cảm ơn đến Giáo sư - Tiến sĩ Khoa học Hoàng Kiếm, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học “Phương pháp nhiên cứu khoa học trong tin học”. Bên cạnh đó cũng không thể không nhắc đến công lao trợ giúp của các chuyên gia cố vấn qua mạng thuộc Trung tâm phát triển CNTT – ĐH Quốc gia TP.HCM và toàn thể các bạn bè học viên trong lớp. 2 MỤC LỤC Mở đầu ..................................................................................................... 2 PHẦN I: GIỚI THIỆU ............................................................................. 5 I. Cơ sở lý thuyết về dự báo bằng phương pháp định lượng ............................................ 5 I.1. Dự báo chuỗi thời gian........................................................................................... 5 I.2. Dự báo mô hình nhân quả ...................................................................................... 8 II. Ứng dụng phương pháp định lượng dự báo trên thị trường chứng khoán ................... 8 II.1. Dự báo chuỗi thời gian ......................................................................................... 9 II.2. Dự báo bằng mô hình nhân quả ............................................................................ 9 II.3. Dự báo bằng mạng thần kinh (Neural Network) ................................................ 10 PHẦN II: MÔ HÌNH ARIMA ............................................................... 12 I. Mô hình ARIMA ......................................................................................................... 12 I.1. Hàm tự tương quan ACF...................................................................................... 12 I.2. Hàm tự tương quan từng phần PACF .................................................................. 14 II. Mô hình AR(p) ........................................................................................................... 17 III. Mô hình MA(q) ......................................................................................................... 18 IV. Sai phân I(d) ............................................................................................................. 18 V. Mô hình ARIMA ....................................................................................................... 19 VI. Các bước phát triển mô hình ARIMA ...................................................................... 20 VI.1. Xác định mô hình: ............................................................................................. 20 VI.2. Ước lượng tham số: ........................................................................................... 20 VI.3. Kiểm định độ chính xác: ................................................................................... 20 VI.4. Dự báo : ............................................................................................................. 21 3 PHẦN III: ÁP DỤNG MÔ HÌNH ARIMA VÀO BÀI TOÁN PHÂN TÍCH DỮ LIỆU CHỨNG KHOÁN ..................................................... 22 I. Mô hình ARIMA cho dự báo tài chính, chứng khoán ................................................ 22 I.1. Dữ liệu tài chính ................................................................................................... 22 I.2. Mô hình ARIMA cho bài toán dự báo tài chính .................................................. 22 I.3. Thiết kế mô hình ARIMA cho dữ liệu ................................................................. 23 I.3.1 Chọn tham biến ........................................................................................................................23 I.3.2 Chuẩn bị dữ liệu .......................................................................................................................23 I.3.3 Xác định thành phần p, q trong mô hình ARMA ......................................................................24 I.3.4 Ước lượng các thông số của mô hình và kiểm định mô hình phù hợp nhất............................24 I.3.5 Kiểm tra mô hình phù hợp nhất ...............................................................................................24 I.3.6 Dự báo ngắn hạn mô hình ........................................................................................................25 II. Áp dụng ...................................................................................................................... 25 II.1. Dữ liệu ................................................................................................................ 25 II.2. Nhận dạng mô hình ............................................................................................. 26 II.3. Ước lượng và kiểm định với mô hình ARIMA .................................................. 27 II.4. Thực hiện dự báo ................................................................................................ 30 II.5. Kết luận ............................................................................................................... 31 Tài liệu tham khảo: ........................................................................... 32 4 PHẦN I: GIỚI THIỆU Dự báo giá cổ phiếu, biến động của thị trường là một chủ đề thú vị, thu hút được sự quan tâm của nhiều nhà đầu tư, chuyên gia, nhà khoa học. Hiện nay, nhiều phương pháp dự báo đã được phát triển để dự báo xu hướng biến động giá cổ phiếu, thị trường hoặc tìm kiếm các cổ phiếu tiềm năng để đầu tư. Ở Việt Nam, phương pháp phân tích và dự báo được nhiều người biết đến nhất là phân tích kỹ thuật và phân tích cơ bản. Bên cạnh đó, phương pháp phân tích và dự báo bằng định lượng thông quá các mô hình toán học đang dần được quan tâm. Trong tiểu luận này tôi giới thiệu những nguyên tắc cơ bản về phương pháp dự báo định lượng. Tôi cho rằng đây là một phương pháp khá hiệu quả và giúp hạn chế những khiếm khuyết của 2 phương pháp dự báo phổ biến phân tích kỹ thuật và phân tích cơ bản. Dự báo thị trường bằng phương pháp định lượng được sử dụng một cách khá phổ biến trên thế giới. Nhiều quỹ đầu tư đã thiết lập các hệ thống giao dịch tự động bằng phương pháp định lượng (quantitative trading). Hiệu quả từ phương pháp này đã được chứng minh tại rất nhiều thị trường. Ưu điểm của phương pháp dự báo định lượng là những tín hiệu đưa khá khách quan, dựa vào tiêu chí của những chỉ tiêu thống kê từ mô hình. Những tín hiệu mua bán được đưa ra dựa trên những phân tích khách quan nên giảm thiểu sự sai sót do yếu tố con người. Dù vậy, nếu lạm dụng quá mức phương pháp này thì cũng sẽ tạo ra những hệ quả xấu. I. Cơ sở lý thuyết về dự báo bằng phương pháp định lượng Các phương pháp định lượng dùng để dự báo dựa trên các mô hình toán với giả định rằng mối liên hệ giữa các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương lai. Nói cách khác phương pháp định lượng dựa trên dữ liệu quá khứ để phát hiện chiều hướng vận động trong tương lai của các yếu tố theo một quy luật nào đó. Để dự báo diễn biến trong tương lai của một biến, người ta có thể sử dụng mô hình chuỗi thời gian hoặc sử dụng biến nhân quả. Ngoài ra, người ta còn sử dụng phương pháp khá phức tạp là Neural Network. I.1. Dự báo chuỗi thời gian Các mô hình dự báo chuỗi thời gian là dự báo giá trị tương lai của một biến số nào đó, bằng cách phân tích số liệu quá khứ và hiện tại của những biến số đó. Giả định của dự báo chuỗi thời gian là sự vận động trong tương lại của biến dự báo sẽ giữ nguyên xu thế vận động trong quá khứ và hiện tại. Như vậy, chỉ có chuỗi ổn định mới đưa ra được 5 những dự báo tin cậy. Tính ổn định của chuỗi dữ liệu thể hiện qua tính “dừng”, đây là điều kiện quan trọng để phân tích và dự báo chuỗi thời gian. Dự báo quá khứ gọi là dự báo hậu nghiệm và dự báo các giai đoạn trong tương lai gọi là dự báo tiền nghiệm. Toàn bộ dự báo được phân chia làm 2 giai đoạn là dự báo hậu nghiệm (ex-post) và dự báo tiền nghiệm (ex-ante). - Giai đoạn dự báo hậu nghiệm: Là thời gian từ quan sát đầu tiên sau khi chấm dứt giai đoạn mẫu Yn+1 tới quan sát mới nhất YN. Giai đoạn hậu nghiệm là giai đoạn kiểm nghiệm sự chính xác tính dự báo của mô hình. Nếu như mô hình không đảm bảo độ chính xác theo yêu cầu thì lúc đó người dự báo cần tìm các giải pháp khác như tìm kiếm mô hình thay thế hoặc mở rộng mẫu dự báo. - Giai đoạn dự báo tiền nghiệm: Là giai đoạn dự báo tương lai. Đây chính là mục tiêu của dự báo, nhưng vì chưa xảy ra nên không thể so sánh được. Tuy vậy, một số tiêu chí thống kê sẽ cho chúng ta đánh giá được mức độ tin cậy của mô hình. Toàn bộ quá trình dự báo được tóm tắt ở sơ đồ sau: 6 7 I.2. Dự báo mô hình nhân quả Mô hình dự báo này dựa trên sự tác động qua lại giữa các yếu tố với nhau, trong đó biến dự báo (biến phụ thuộc) có quan hệ nhân quả với các biến khác (biến độc lập). Để thực hiện được dự báo theo mô hình nhân quả người làm dự báo dựa trên các lý thuyết về kinh tế, tài chính, các nghiên cứu thực nghiệm có liên quan, kinh nghiệm thực tế. Trước khi xây dựng mô hình người làm dự báo phải thiết lập các cơ sở lý thuyết, mối liên hệ giữa biến phụ thuộc (biến dự báo) và biến số khác (biến độc lập). Sau khi xác định các bước trên sẽ cần phải tiến hành thu thập dữ liệu, xây dựng, ước lượng mô hình, kiểm định giả thuyết và cuối cùng là thực hiện dự báo. II. Ứng dụng phương pháp định lượng dự báo trên thị trường chứng khoán Chúng ta vừa tìm hiểu các nguyên lý chung nhất về dự báo kinh tế. Sự biến động của thị trường chứng khoán phản ánh sức khỏe của nền kinh tế và kỳ vọng của nhà đầu tư. 8 Cơ sở lý thuyết cho việc dự báo biến động của thị trường chứng khoán đã được chứng minh khá rộng rãi. Nhiệm vụ của nhà dự báo là thiết lập các mô hình để có thể dự báo những xu thế thị trường trong tương lai. Thực tế chúng ta phải chấp nhận rằng không có một mô hình nào là hoàn hảo để dự báo mọi sự biến động của thị trường. Việc dự báo bằng định lượng có thể sai sót khi gặp những cú sốc của các biến số ngoài mô hình khiến thị trường đảo chiều một cách đột ngột. Ngoài ra, nếu nguồn dữ liệu đầu vào không được thu thập một cách khoa học, chính xác cũng có thể làm cho tính dự báo thiếu chính xác. Tại Việt Nam, nghiên cứu định lượng để dự báo thị trường chứng khoán xuất hiện chưa nhiều. Nguyên nhân chính là lực lượng những người làm dự báo có đủ trình độ chuyên môn để thực hiện những phép toán phức tạp là khá ít. Ngoài ra, do số liệu về kinh tế, doanh nghiệp và thị trường chưa đủ dài và độ tin cậy chưa cao nên việc thực hiện các dự báo trở nên khó khăn hơn. Dưới đây, Tôi xin đưa ra một số phương pháp dự báo như sau: II.1. Dự báo chuỗi thời gian Sử dụng chuỗi thời gian để dự báo giá cổ phiếu hoặc các chỉ số thị trường được sử dụng khá nhiều. Phương pháp dự báo này có ưu điểm là chỉ sử dụng số liệu theo chuỗi thời gian nên khá phù hợp cho dự báo thị trường chứng khoán. Tuy nhiên, nhược điểm của nó là không hiệu quả trong việc dự báo được xu thế dài hạn của thị trường. Mô hình chuỗi thời gian thường được sử dụng nhất là mô hình ARIMA và phương pháp Box-Jenkins. Mô hình ARIMA (Autoregressive Integrated Moving Average - Tự hồi qui tích hợp Trung bình trượt), được George Box và Gwilym Jenkins (1976) nghiên cứu. Phương pháp Box-Jenkins bao gồm bốn bước: nhận dạng mô hình thử nghiệm; ước lượng; kiểm định bằng chẩn đoán; và dự báo. Mô hình sử dụng để dự báo rủi ro ARCH/GARCH. ARCH/GARCH được sử dụng khá phổ biến trong ngành tài chính để dự báo rủi ro. Mô hình này dùng để dự báo độ giao động suất sinh lời của cổ phiếu theo thời gian. Mô hình ARCH (Autogressive Conditional Heteroskedasticity) do Robert Engle và Clive Granger phát triển năm 1982. Mô hình GARCH (Generalised Autogressive Conditional Heteroskedasticity) được Tim Bollerslev đề xuất năm 1986 để khắc phục những hạn chế của ARCH. Ngày nay, GARCH được sử dụng một cách phổ biến và phù hợp với số liệu chuỗi thời gian ngắn như giá cổ phiếu trên thị trường. II.2. Dự báo bằng mô hình nhân quả 9 Mô hình nhân quả thường sử dụng số liệu bảng. Trong dự báo chứng khoán, biến phụ thuộc (biến cần dự báo) là suất sinh lời của cổ phiếu, thị trường hay giá cổ phiếu và chỉ số thị trường. Trong khi đó, các biến độc lập là các biến số của nền kinh tế như lạm phát, thất nghiệp, cung tiền, tăng trưởng công nghiệp, tăng trưởng bán lẻ, niềm tin tiêu dùng … hoặc là các biến số liên quan đến doanh nghiệp như lợi nhuận, tăng trưởng, giá hàng hóa liên quan đến quá trình sản xuất của doanh nghiệp. Nói tóm lại là bất kỳ yếu tố nào tác động đến sự biến động của thị trường, giá cổ phiếu đều có thể trở thành biến độc lập sử dụng cho dự báo. Phương pháp này sử dụng các mô hình hồi quy để tìm mối liên hệ giữa biến phụ thuộc và biến độc lập. Qua mô hình hồi quy, chúng ta có thể dự báo được xu thế và những nhân tố tác động đến biến động của giá chứng khoán hay thị trường. Ưu điểm của phương pháp này là có thể dự báo một cách khá chính xác xu hướng biến động dài hạn của giá cổ phiếu hay thị trường. Tuy nhiên, việc thu thập dữ liệu là một công việc khó khăn và tốn nhiều chi phí. Đối với Việt Nam, do các dữ liệu về doanh nghiệp và nền kinh tế còn ít nên áp dụng phương pháp dự báo này càng trở nên khó khăn. II.3. Dự báo bằng mạng thần kinh (Neural Network) Lý thuyết Neural Network được phát triển từ những năm 1940 đến nay và đã được ứng dụng rộng rãi trong nhiều lĩnh vực. Lý thuyết Neural Network nhanh chóng trở thành một hướng nghiên cứu triển vọng trong mục đích xây dựng các máy thông minh tiến gần tới trí tuệ con người. Đối với lĩnh vực chứng khoán, Neural Network được sử dụng để dự báo thị trường, giá cổ phiếu. Neural Network được xây dựng xuất phát từ một thực tế là bộ não con người. Có thể coi bộ não là một máy tính hay một hệ thống xử lý thông tin song song, phi tuyến và cực kỳ phức tạp. Bộ não có khả năng tự tổ chức các bộ phận cấu thành của nó, như là các tế bào thần kinh (neural) hay các khớp nối thần kinh (synapse), nhằm thực hiện một số tính toán như nhận dạng mẫu và điều khiển vận động nhanh hơn nhiều lần các máy tính nhanh nhất hiện nay. Sự mô phỏng bộ não con người của mạng neural được dựa trên cơ sở một số tính chất đặc thù rút ra từ các nghiên cứu về thần kinh sinh học. Dữ liệu đầu vào để thực hiện dự báo bằng Neural Network khá đa dạng và tùy thuộc vào trình độ, kinh nghiệm, mục tiêu dự báo và những cơ sở dữ liệu mà người làm dự báo có. Thông thường dữ liệu bao gồm các dữ liệu liên quan đến giao dịch cổ phiếu trên thị trường như giá, khối lượng…. Ngoài ra, các dữ liệu trong nền kinh tế, dữ liệu của doanh nghiệp cũng có thể làm đầu vào cho quá trình dự báo. Các thông tin đầu vào sẽ được xử lý bằng những thuật toán phức tạp thông qua tiến trình mô phỏng việc xử lý thông tin như bộ não con người. 10 Hiện nay, có khá nhiều phần mền miễn phí về Neural Network được đăng tải trên mạng Internet. Tuy nhiên việc vận dụng thành thạo để dự báo thị trường là một công việc không dễ dàng. Để làm được điều này người dự báo cần phải có hàng loạt các kiến thức sâu rộng khác để bổ trợ. Trên đây tôi vừa giới thiệu những cơ sở lý thuyết và một số phương thức phổ biến sử dụng để dự báo trên thị trường chứng khoán. Ưu điểm của các phương pháp định lượng này là phân tích số liệu để đưa ra được những dự báo khách quan, để giảm thiểu rủi ro của việc phân tích cảm tính của con người. Tuy nhiên, áp dụng phương pháp định lượng trong dự báo sẽ có không ít thách thức và nó cũng không phải là phương pháp thay thế hoàn toàn trực giác trong đầu tư. Tôi cho rằng đây là một hướng phát triển trong tương lai đối với công tác dự báo với dự báo thị trường chứng khoán Việt Nam. Tuy vậy, đây là công việc khó khăn và phức tạp, đòi hỏi người làm công tác dự báo cần có trình độ chuyên môn về kinh tế, tài chính, toán học và kinh nghiệm dự báo. Kết quả nghiên cứu bước đầu cho thấy phương pháp định lượng hoàn toàn có thể áp dụng để dự báo đối với thị trường Việt Nam. Sử dụng phương pháp định lượng dự báo thị trường khá hiệu quả và hiệu quả càng tăng lên khi kết hợp với các phương pháp dự báo khác 11 PHẦN II: MÔ HÌNH ARIMA I. Mô hình ARIMA I.1. Hàm tự tương quan ACF Hàm tự tương quan đo lường phụ thuộc tuyến tính giữa các cặp quan sát y(t) và y(t+k), ứng với thời đoạn k = 1, 2, …(k còn gọi là độ trễ). Với mỗi độ trễ k, hàm tự tương quan tại độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên Yt. Yt+k so với các giá trị trung bình, và được chuẩn hóa qua phương sai. Dưới đây, giả thiết rằng các biến ngẫu nhiên trong chuỗi dừng thay đổi quanh giá trị trung bình với phương sai hằng số . Hàm tự tương quan tại các độ trễ khác nhau sẽ có giá trị khác nhau. Trong thực tế, ta có thể ước lượng hàm tự tương quan tại độ trễ thứ k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các độ trễ k, với giá trị trung bình mẫu là , được chuẩn hóa bởi phương sai 2.Chẳng hạn, cho mỗi chuỗi N điểm, giá trị rk của hàm tự tương quan tại độ trễ thứ k được tính như sau : ∑ với: ∑ ∑ yt: chuỗi thời gian dừng tại thời điểm t yt+k : chuỗi thời gian dừng tại thời điểm t +k ^ : giá trị trung bình của chuỗi dừng rk : giá trị tương quan giữa yt và yt+k tại độ trễ k rk = 0 thì không có hiện tượng tự tương quan Về mặt lý thuyết, chuỗi dừng khi tất cả các rk = 0 hay chỉ vài rk khác không. Do chúng ta xem xét hàm tự tương quan mẫu, do đó sai số mẫu sẽ xuất hiện vì vậy, hiện tượng tự tương quan khi rk = 0 theo ý nghĩa thống kê. 12 Khi hàm tự tương quan ACF giảm đột ngột, có nghĩa rk rất lớn ở độ trễ 1, 2 và có ý nghĩa thống kê (|t| >2). Những rk này được xem là những “đỉnh” và ta nói rằng hàm tự tương quan ACF giảm đột ngột sau độ trễ k nếu không có những “đỉnh” ở độ trễ k lớn hơn k. Hầu hết hàm tự tương quan ACF sẽ giảm đột ngột sau độ trễ 1, 2. Nếu hàm tự tương quan ACF của chuỗi thời gian không dừng không giảm đột ngột mà trái lại giảm nhanh nhưng đều: không có đỉnh, ta gọi chiều hướng này là “tắt dần”. Hàm tự tương quan ACF có thể “tắt dần” trong vài dạng sau : Dạng phân phối mẫu 13 Dạng sóng sin Hoặc kết hợp cả hai dạng trên. Sự khác nhau giữa hiện tượng “tắt dần” nhanh và “tắt dần” chậm đều được phân biệt khá tùy tiện. I.2. Hàm tự tương quan từng phần PACF Song song với việc xác định hàm tự tương quan giữa các cặp y(t) và y(t+k), ta xác định hàm tự tương quan từng phần cũng có hiệu lực trong việc can thiệp đến các quan sát y(t+1), ..., y(t+k-1). Hàm tự tương quan từng phần tại độ trễ k Ckk được ước lượng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dưới. Sự kết hợp được tính dựa trên tầm ảnh hưởng của y(t) và các giá trị trung gian y(t+k). y(t+k) = Ck1y(t+k-1) + Ck2y(t+k-2) + ... + Ckk-1y(t + 1) + Ckky(t) + e(t) Giải phương trình hồi quy dựa trên bình phương tối thiểu vì hệ số hồi quy Ckj phải được tính ở mỗi độ trễ k, với j chạy từ 1 đến k. Giải pháp ít tốn kém hơn do Durbin phát triển dùng để xấp xỉ đệ quy hệ số hồi quy cho mô hình ARIMA chuỗi dừng, sử dụng giá trị hàm tự tương quan tại độ trễ k là rk và hệ số hồi quy của độ trễ trước. Dưới đây là phương pháp Durbin sử dụng cho 3 độ trễ đầu tiên. Độ trễ 1: Khởi tạo, giá trị của hàm tự tương quan từng phần tại độ trễ 1 có cùng giá trị với hàm tự tương quan tại độ trễ 1 vì không có trung gian giữa các quan sát kết tiếp: C11 = r1 Độ trễ 2: Hai giá trị C22 và C21 được tính dựa vào hàm tự tương quan r2 và r1, cùng với hàm tự tương quan từng phần trước đó 14 Độ trễ 3: Tương tự, ba giá trị C33, C32, C31 được tính dựa vào các hàm tự tương quan trước r3, r2, r1 cùng với các hệ số được tính ở độ trễ thứ 2: C22 và C21. Tổng quan, hàm tự tương quan từng phần được tính theo Durbin : ∑ ∑ Trong đó : rk: Hàm tự tương quan tại độ trễ k v: Phương sai Ckj : Hàm tự tương quan từng phần cho độ trễ k, loại bỏ những ảnh hưởng của các độ trễ can thiệp. Ckj = Ck-1,j – (Ckk).C(k-1,k-j) k = 2,…; j = 1,2, …, k-1 C22 = (r2-r12)/(1-r12) C11 = r1 Khi độ trễ tăng, số các hệ số tăng theo. Phương pháp của Durbin cho phép việc tính đệ quy dựa vào việc sử dụng kết quả trước đó. Tóm lại, hàm tự tương quan ACF và hàm tự tương quan từng phần PACF của chuỗi thời gian có các đặc tính khác nhau. Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính giữa các cặp quan sát. Hàm tự tương quan từng phần PACF đo mức độ phụ thuộc tuyến tính từng phần. ARIMA khai thác những điểm khác biệt này để xác định cấu trúc mô hình cho chuỗi thời gian. Xu hướng vận động của hàm tự tương quan từng phần PACF có thể giảm đột ngột (thường sau độ trễ 1 hoặc 2) hay có thể giảm đều. Cũng như hàm tự tương quan ACF, xu hướng giảm đều của hàm tự tương quan từng phần PACF cũng có các dạng phân phối mũ, dạng sóng hình sin hoặc kết hợp cả 2 dạng này 15 Dao động hàm mũ tắt dần (Damped Exponential) Dao động tắt dần theo quy luật số mũ (Damped exponential oscillation) 16 Dao động sóng tắt dần theo quy luật hình sin (Damped sine wave) II. Mô hình AR(p) Ý tưởng chính của mô hình AR(p) là hồi quy trên chính số liệu quá khứ ở những chu kì trước. Y(t) = a0 + a1y(t-1) + a2y(t-2) +…apy(t-p) + e(t) Trong đó : y(t) : quan sát dừng hiện tại y(t-1), y(t-2), ... : quan sát dừng quá khứ (thường sử dụng không quá 2 biến này) a0, a1, a2, … : các tham số phân tích hồi quy. et: sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình được mong đợi bằng 0. Y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1). y(t-2), … Nói cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng có độ trễ, chúng ta sẽ được mô hình AR (yếu tố xu thế đã được tách khỏi yếu tố thời gian, chúng ta sẽ mô hình hóa những yếu tố còn lại – đó là sai số). Số quan sát dừng quá khứ sử dụng trong mô hình hàm tự tương quan là bậc p của mô hình AR. Nếu ta sử dụng hai quan sát dừng quá khứ, ta có mô hình tương quan bậc hai AR(2). Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1 : a1 + a2 + … + ap < 1 17 Mô hình AR(1): y(t) = a0 + a1y(t-1) + e(t) Mô hình AR(2): y(t) = a0 + a1y(t-1) + a2y(t-2) +e(t) III. Mô hình MA(q) Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số dự báo quá khứ và hiện tại. Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất. y(t) = b0 + e(t) +b1e(t-1) + b2e(t-2) + ... +bqe(t-q) Trong đó: y(t): quan sát dừng hiện tại e(t): sai số dự báo ngẫu nhiên, giá trị của nó không được biết và giá trị trungbình của nó là 0. e(t-1), e(t-2), ...: sai số dự báo quá khứ (thông thường mô hình sẽ sử dụng không quá 2 biến này) b0, b1, b2, ...: giá trị trung bình của y(t) và các hệ số bình quân di động. q: sai số quá khứ được dùng trong mô hình bình quân di động, nếu ta sử dụng hai sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là MA(2). Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1 : b1 + b2 + ... + bq < 1 Mô hình MA(1): y(t) = b0 + e(t) + b1e(t-1) Mô hình MA(2): y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2) IV. Sai phân I(d) Chuỗi dừng: Chuỗi thời gian được coi là dừng nếu như trung bình và phương sai của nó không đổi theo thời gian và giá trị của đồng phương sai giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách và độ trễ về thời gian giữa hai thời đoạn này chứ không phụ thuộc vào thời điểm thực tế mà đồng phương sai được tính. Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trước đó. Phân tích sai phân nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp cho việc chuyển đổi chuỗi thành một chuỗi dưng. Sai phân lần 1 I(1): z(t) = y(t) Sai phân lần 2 I(2): h(t) = z(t) – z(t-1) 18 V. Mô hình ARIMA Mô hình ARMA(p,q): là mô hình hỗn hợp của AR và MA. Hàm tuyến tính sẽ bao gồm những quan sát dừng quá khứ và những sai số dự báo quá khứ và hiện tại : y(t)=a0+ a1y(t-1)+ a2y(t-2)+...+apy(t-p)+e(t)+b1e(t-1)+b2e(t-2)+...+ bqe(t-q) Trong đó : y(t) : quan sát dừng hiện tại y(t-p), và e(t-q) : quan sát dừng và sai số dự báo quá khứ. a0, a1, a2, ..., b1, b2, ... : các hệ số phân tích hồi quy Ví dụ : ARMA(1,2) là mô hình hỗn hợp của AR(1) và MA(2) Đối với mô hình hỗn hợp thì dạng (p,q) = (1,1) là phổ biến. Tuy nhiên, giá trị p và q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng. Cả hai điều kiện bình quân di động và điều kiện dừng phải được thỏa mãn trong mô hình hỗn hợp ARMA. Mô hình ARIMA(p,d,q): Do mô hình Box-Jenkins chỉ mô tả chuỗi dừng hoặc những chuỗi đã sai phân hóa, nên mô hình ARIMA(p,d,q) thể hiện những chuỗi dữ liệu không dừng, đã được sai phân (ở đây, d chỉ mức độ sai phân). Khi chuỗi thời gian dừng được lựa chọn (hàm tự tương quan ACF giảm đột ngột hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mô hình dự định bằng cách nghiên cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan từng phần PACF. Theo lý thuyết, nếu hàm tự tương quan ACF giảm đột biến và hàm tự tương quan từng phần PACF giảm mạnh thì chúng ta có mô hình tự tượng quan. Nếu hàm tự tương quan ACF và hàm tự tương quan từng phần PACF đều giảm đột ngột thì chúng ta có mô hình hỗn hợp. Về mặt lý thuyết, không có trường hợp hàm tự tương quan ACF và hàm tự tương quan từng phần cùng giảm đột ngột. Trong thực tế, hàm tự tương quan ACF và hàm tự tương quan từng phần PACF giảm đột biến khá nhanh. Trong trường hợp này, chúng ta nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm còn lại được xem là giảm đều. Do đôi lúc sẽ có trường hợp giảm đột biến đồng thời khi quan sát biểu đồ hàm tự tương quan ACF và hàm tự tương quan từng phần PACF, biện pháp khắc phục là tìm vài dạng hàm dự định khác nhau cho chuỗi thời gian dừng. Sau đó, kiểm tra độ chính xác mô hình tốt nhất. Mô hình ARIMA (1, 1, 1): y(t) – y(t-1) = a0 + a1(y(t-1) – y(t-2) + e(t) + b1e(t-1)) Hoặc: 19 z(t) = a0 + a1z(t-1) + e(t) + b1e(t-1) Với z(t) = y(t) – y(t-1) ở sai phân đầu tiên: d = 1. Tương tự ARIMA(1,2,1): h(t) = a0 + a1z(t-1) + e(t) + b1e(t-1), Với h(t) = z(t) – z(t-1) ở sai phân thứ hai: d = 2. Trong thực hành d lớn hơn 2 rất ít được sử dụng. VI. Các bước phát triển mô hình ARIMA Phương pháp Box – Jenkins bao gồm các bước chung:  Xác định mô hình  Ước lượng tham số  Kiểm định độ chính xác  Dự báo. VI.1. Xác định mô hình: Mô hình ARIMA chỉ được áp dụng đối với chuỗi dừng Mô hình có thể trình bày theo dạng AR, MA hay ARMA. Phương pháp xác định mô hình thường được thực hiện qua nghiên cứu chiều hướng biến đổi của hàm tự tương quan ACF hay hàm tự tương quan từng phần PACF. Chuỗi ARIMA không dừng : cần phải được chuyển đồi thành chuỗi dừng trước khi tính ước lượng tham số bình phương tối thiểu. Việc chuyển đổi này được thực hiện bằng cách tính sai phân giữa các giá trị quan sát dựa vào giả định các phần khác nhau của các chuỗi thời gian đều được xem xét tương tự, ngoại trừ các khác biệt ở giá trị trung bình. Nếu việc chuyển đổi này không thành công, sẽ áp dụng tiếp các kiểu chuyển đổi khác (chuyển đồi logarithm chẳng hạn). VI.2. Ước lượng tham số: Tính những ước lượng khởi đầu cho các tham số a0, a1,…, ap, b1, …, bq của mô hình dự định. Sau đó xây dựng những ước lượng sau cùng bằng một quá trình lặp. VI.3. Kiểm định độ chính xác: Sau khi các tham số của mô hình tổng quát đã xây dựng, ta kiểm tra mức độ chính xác và phù hợp của mô hình với dữ liệu. Chúng ta kiểm định phần dư (Yt –Y^t) và có ý 20
- Xem thêm -