Một mô hình sử dụng Twitter và một số phương tiện xã hội khác dự báo xu hướng chỉ số chứng khoán của Apple

  • Số trang: 58 |
  • Loại file: PDF |
  • Lượt xem: 20 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27372 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM HUYỀN TRANG MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ PHƢƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƢỚNG GIÁ CỔ PHIẾU CỦA APPLE LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM HUYỀN TRANG MỘT MÔ HÌNH SỬ DỤNG TWITTER VÀ MỘT SỐ PHƢƠNG TIỆN XÃ HỘI KHÁC DỰ BÁO XU HƢỚNG GIÁ CỔ PHIẾU CỦA APPLE Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. HÀ QUANG THỤY HÀ NỘI - 2014 Lời cam đoan Tôi xin cam đoan luận văn “Một mô hình sử dụng Twitter và một số phương tiện xã hội khác dự báo xu hướng giá cổ phiếu của Apple" là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan. Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là công việc của riêng tôi. Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Hà Nội, ngày 09 tháng 06 năm 2014 Học viên Phạm Huyền Trang 4 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Đại học Công Nghệ. Tôi xin gửi lời cảm ơn tới các bạn trong lớp cao học K18 đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin chân thành cảm ơn! Hà Nội, ngày 09 tháng 06 năm 2014 Học viên Phạm Huyền Trang 5 Tóm tắt nội dung Dự đoán thị trường chứng khoán đang gây được sự chú ý không chỉ bởi giới học thuật mà còn trong cả giới kinh doanh. Đối với các nhà đầu tư, việc dự đoán giá cổ phiếu đặc biệt quan trọng trong việc giảm thiểu rủi ro đầu tư, đồng thời tối đa hóa lợi nhuận. Các nghiên cứu gần đây cũng đã chứng minh được rằng xu hướng giá cổ phiếu có thể đoán được ở một mức độ nào đó dựa trên việc kết hợp giá cổ phiếu trong quá khứ và các chỉ số tâm trạng, cảm xúc của cộng đồng được lấy ra từ các trang mạng xã hội trực tuyến như blogs, Twitter feeds,... Luận văn tập trung nghiên cứu một mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple sử dụng nguồn dữ liệu Twitter và một số phương tiện xã hội khác, cụ thể là nguồn tin tức trên các trang tin có uy tín và nguồn blog của các chuyên gia phân tích tài chính trên thế giới. Thực nghiệm ban đầu trên ba miền dữ liệu: các tweet trên mạng xã hội Twitter, các tin bài trên trang tin tức, các bài viết trên trang blog cho thấy mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple với độ đo Accuracy cao nhất là 0.75 trên miền dữ liệu tin tức. Kết quả trên đã cho thấy phương pháp dự đoán xu hướng giá cổ phiếu dựa trên một số phương tiện xã hội được luận văn đề xuất và triển khai là khả quan. 6 Mở đầu Việc dự đoán các chỉ số và xu hướng của thị trường chứng khoán nhận đang nhận được sự quan tâm lớn của các nhà nghiên cứu, đầu tư, chuyên gia tài chính và giới môi giới chứng khoán [2, 7, 14, 16, 23, 25]. Lợi ích của việc đánh giá tốt các diễn biến của thị trường chứng khoán mang lại là khá rõ ràng, nó giúp giảm thiểu rủi ro cho các nhà đầu tư, và tối đa hóa lợi nhuận. Không chỉ vậy, bài toán dự đoán thị trường chứng khoán còn mang lại những thách thức lớn trong việc chứng minh liệu thị trường tài chính có thể dự đoán hay không? Trong những năm gần đây, các mô hình toán học và tính toán từ trí tuệ nhân tạo đã được sử dụng cho mục đích này. Bài toán dự báo thị trường chứng khoán trên cơ sở theo dõi tình cảm, tâm trạng của cộng đồng trên Twitter đã thu hút được nhiều sự chú ý gần đây. Bài toán thực hiện xác định tâm trạng chung của cộng đồng, kết hợp với giá cổ phiếu của các ngày trong quá khứ, từ đó đưa ra dự đoán về xu hướng của thị trường trong tương lai. Việc mở rộng dữ liệu, không chỉ trên Twitter mà còn trên một số phương tiện xã hội khác cũng đang được các nhà nghiên cứu trên thế giới quan tâm. Trong những năm gần đây, trên thế giới, có khá nhiều nghiên cứu và ý tưởng đưa ra các giải pháp nhằm giải quyết bài toán dự báo thị trường chứng khoán [2, 14, 16, 25, 30]. Trong luận văn này, chúng tôi áp dụng kỹ thuật học bán giám sát để giải quyết bài toán dự báo thị trường chứng khoán, cụ thể là luận văn tập trung vào giá cổ phiếu của Tập đoàn Công nghệ máy tính Apple kết hợp trên ba miền dữ liệu chính là: Twitter, các trang tin tức và các blog. Chúng tôi sử dụng kỹ thuật phân lớp bán giám sát SVM-kNN dựa trên việc kết hợp giữa đánh giá tâm trạng, thái độ của cộng đồng và giá cổ phiếu các ngày trong quá khứ để giải quyết bài toán. Đây là một phương pháp phân lớp bán giám sát cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh, do Kunlun Li, Xuerong Luo and Ming Jin đề xuất năm 2010 [18]. Luận văn đã thực nghiệm mô hình đối với giá cổ phiếu của Tập đoàn Apple với kết quả đạt mức khá khả quan so với kết quả của thế giới. Nội dung của luận văn được chia thành các chương như sau: Chƣơng 1: Luận văn giới thiệu khái quát về dự đoán thị trường chứng khoán cũng như một số phương pháp trong việc dự báo xu hướng của thị trường chứng khoán. Chƣơng 2: Luận văn đưa ra một số giới thiệu chung về bài toán dự đoán thị trường chứng khoán dựa trên Twitter, cũng như đã nêu lên chứng minh của Johan Bollen về việc có thể dự báo được thị trường chứng khoán dựa trên tâm trạng chung của cộng đồng. Ngoài ra, một số nghiên cứu liên quan cũng được trình bày tại chương này. 7 Chƣơng 3: Luận văn giới thiệu về thuật toán phân lớp SVM, kNN. Từ đó, trình bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN được sử dụng để giải quyết bài toán dự báo chứng khoán. Chƣơng 4: Luận văn đề xuất một mô hình giải quyết vấn đề dự báo xu hướng của giá cổ phiếu của Apple dựa trên phân lớp bán giám sát SVM-kNN trên ba miền dữ liệu: mạng xã hội Twitter, các trang tin tức và weblog. Tư tưởng chính của mô hình sẽ được thể hiện trong chương này. Đồng thời, luận văn cũng trình bày chi tiết các pha cũng những các bước trong mô hình. Chƣơng 5: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm theo mô hình đã đề xuất trong chương 4. Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển tương lai. 8 Mục Lục Danh mục hình vẽ ............................................................................................................... 10 Danh mục bảng biểu ........................................................................................................... 11 Danh mục tóm tắt ............................................................................................................... 12 1. Chương 1. Bài toán dự đoán thị trường chứng khoán ................................................ 13 1.1. Khái quát về bài toán dự đoán thị trường chứng khoán........................................ 13 1.1.1. Một số khái niệm trong thị trường chứng khoán ........................................ 13 1.1.2. Có thực sự dự đoán được thị trường chứng khoán? ................................... 14 1.2. Các phương pháp dự báo thị trường chứng khoán................................................ 15 2. Chương 2. Dự đoán thị trường chứng khoán dựa trên Twitter................................... 17 2.1. Giới thiệu chung .................................................................................................... 17 2.2. Dự đoán thị trường chứng khoán dựa trên tâm trạng cộng đồng và chứng minh của J.Bollen cùng cộng sự .............................................................................................. 18 2.3. Một số nghiên cứu liên quan trên thế giới ............................................................ 22 3. Chương 3. Phân lớp bán giám sát SVM-kNN ............................................................ 24 3.1. Một số nội dung cơ bản về phân lớp bán giám sát .................................................. 24 3.1.1.Khái niệm .......................................................................................................... 24 3.1.2. Các phương pháp phân lớp bán giám sát điển hình ......................................... 25 3.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát ....................................... 26 3.2.1. Thuật toán học máy vector hỗ trợ (SVM) ........................................................ 26 3.2.2. Thuật toán K người láng giềng gần nhất (kNN)............................................... 28 3.2.3. Phương pháp phân lớp bán giám sát SVM-kNN .............................................. 30 3.2.4. Phương pháp phân lớp bán giám sát SVM-kNN do nhóm nghiên cứu đề xuất .................................................................................................................................... 32 4. Chương 4. Đề xuất một mô hình dự báo xu hướng giá cổ phiếu của Tập đoàn Apple sử dụng Twitter và một số phương tiện xã hội khác .......................................................... 36 4.1. Tư tưởng chính của giải pháp đề xuất ..................................................................... 36 4.2. Mô hình đề xuất ....................................................................................................... 38 4.2.1. Pha 1: Tiền xử lý .............................................................................................. 39 9 4.2.2. Pha 2: Xác định quan điểm............................................................................... 40 4.2.3. Pha 3: Dự đoán xu hướng của chỉ số APPL ..................................................... 42 Tóm tắt chương 4: .......................................................................................................... 43 5. Chương 5. Thực nghiệm và đánh giá ......................................................................... 44 5.1. Môi trường và các công cụ sử dụng thực nghiệm ................................................... 44 5.2. Xây dựng tập dữ liệu ............................................................................................... 45 5.3. Thực nghiệm ............................................................................................................ 47 5.3.1. Tiền xử lý.......................................................................................................... 48 5.3.2. Xác định quan điểm của cộng đồng, các chuyên gia........................................ 48 5.3.3. Dự đoán xu hướng của chỉ số APPL ................................................................ 51 Tóm tắt chương 5............................................................................................................ 54 Kết luận............................................................................................................................... 55 Tài liệu tham khảo .............................................................................................................. 56 10 Danh mục hình vẽ Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16] .......................... 20 Hình 2.2: Bảng thể hiện tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với 6 chiều tâm trạng của GPOMS theo nghiên cứu của J.Bollen và cộng sự [16] ................. 21 Hình 2.3: Bảng thể hiện Kết quả phân tích nhân quả Granger theo nghiên cứu của J.Bollen và cộng sự [16] ..................................................................................................... 22 Hình 3.1: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm ...................................... 27 Hình 3.2: Ví dụ về thuật toán kNN..................................................................................... 29 Hình 3.3: Minh họa vector hỗ trợ và vector biên ............................................................... 31 Hình 3.4: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo và Ming Jin[18] ................................................................................................................................. 32 Hình 4.1: Mô hình dự báo xu hướng chỉ số APPL đề xuất ................................................ 39 Hình 5.1: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến 01/05/2014 .......................................................................................................................... 47 Hình 5.2: Kết quả xác định quan điểm trên miền dữ liệu Twitter trong khoảng thời gian 01/01/2014 đến 01/05/2014 ................................................................................................ 49 Hình 5.3: Kết quả xác định quan điểm trên miền dữ liệu tin tức trong khoảng thời gian 01/01/2014 đến 01/05/2014 ................................................................................................ 49 Hình 5.4: Kết quả xác định quan điểm trên miền dữ liệu blog trong khoảng thời gian 01/01/2014 đến 01/05/2014 ................................................................................................ 50 Hình 5.5: Kết quả xác định quan điểm trên 3 miền dữ liệu trong khoảng thời gian 01/01/2014 đến 01/05/2014 ................................................................................................ 50 11 Danh mục bảng biểu Bảng 5.1: Cấu hình hệ thống thử nghiệm ........................................................................... 44 Bảng 5.2: Công cụ phần mềm sử dụng............................................................................... 44 Bảng 5.3: Dữ liệu Tweet crawl được trong khoảng thời gian 4 tháng đầu năm ................ 45 Bảng 5.4: Dữ liệu tin tức crawl được trong khoảng thời gian 4 tháng đầu năm ................ 46 Bảng 5.5: Dữ liệu blog crawl được trong khoảng thời gian 4 tháng đầu năm ................... 46 Bảng 5.6: Chỉ số đóng cửa đã điều chỉnh trong khoảng thời gian 01/01/2014 đến 01/05/2014 .......................................................................................................................... 47 Bảng 5.7: Dữ liệu được crawl sau khi lọc những mẫu dữ liệu liên quan ........................... 48 Bảng 5.8: Số lượng mẫu dữ liệu dùng cho phân lớp SVM-KNN ...................................... 51 Bảng 5.9: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc là 2 ngày.............................................................................................................................. 53 Bảng 5.10: Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5 với độ trễ cảm xúc là 3 ngày.............................................................................................................................. 53 12 Danh mục tóm tắt STT 1 2 3 4 5 6 Thuật ngữ Bước Đi Ngẫu Nhiên - Walk Random Giả thuyết Thị trường hiệu quả Efficient Market Hypothesis Lý thuyết kinh tế xã hội Socionomic Theory of Finance Công cụ OpinionFinder Công cụ Google-Profile of Mood States Chỉ số trung bình công nghiệp Dow Jones Từ viết tắt WR EMH STF OF GPOMS DJIA 13 1. Chƣơng 1. Bài toán dự đoán thị trƣờng chứng khoán 1.1. Khái quát về bài toán dự đoán thị trƣờng chứng khoán Bài toán dự đoán biến động của thị trường chứng khoán được đặt ra với động cơ là dự đoán được giá cổ phiếu trong tương lai nhằm giúp các nhà đầu tư đưa ra các quyết định mua và bán tức thời, mang lại lợi nhuận cao cho các nhà đầu tư. Đây là bài toán đặt ra nhiều thách thức, bởi lẽ giá cả thị trường chứng khoán là không tuyến tính [23, 24]. Vậy, một số câu hỏi được đặt ra là Có thực sự dự đoán được thị trường chứng khoán không? Nếu có thì dựa trên những thông tin nào để có thể dự đoán được? Chương 1 của luận văn sẽ trả lời những câu hỏi trên một cách khái quát nhất. Trước khi đưa ra các câu trả lời, tôi xin trình bày về một số khái niệm liên quan đến bài toán sẽ được sử dụng trong luận văn này 1.1.1. Một số khái niệm trong thị trƣờng chứng khoán Thị trường chứng khoán trong điều kiện của nền kinh tế hiện đại, được quan niệm là nơi diễn ra các hoạt động giao dịch mua bán các loại chứng khoán trung và dài hạn. Việc mua bán này được tiến hành ở thị trường sơ cấp khi người mua mua được chứng khoán lần đầu từ những người phát hành, và ở thị trường thứ cấp khi có sự mua đi bán lại các chứng khoán đã được phát hành ở thị trường sơ cấp. Như vậy, xét về mặt hình thức, thị trường chứng khoán chỉ là nơi diễn ra các hoạt động trao đổi, mua bán, chuyển nhượng các loại chứng khoán, qua đó thay đổi các chủ thể nắm giữ chứng khoán. Thị trường chứng khoán thực chất là quá trình vận động của tư bản tiền tệ. Các chứng khoán mua bán trên thị trường chứng khoán có thể đem lại thu nhập cho người nắm giữ nó sau một thời gian nhất định và được lưu thông trên thị trường chứng khoán theo giá cả thị trường, do đó bề ngoài nó được coi như là một tư bản hàng hoá. Các chủ thể tham gia vào thị trường chứng khoán được chia thành 3 nhóm sau: nhà phát hành, nhà đầu tư và các tổ chức có liên quan đến chứng khoán: - - Nhà phát hành là các tổ chức thực hiện huy động vốn thông qua thị trường chứng khoán. Nhà phát hành là người cung cấp các chứng khoán - hàng hoá của thị trường chứng khoán. Công ty là nhà phát hành các cổ phiếu và trái phiếu công ty. Ví du: Tập đoàn Apple, Google là các nhà phát hành cổ phiếu. Nhà đầu tư là những người thực sự mua và bán chứng khoán trên thị trường chứng khoán. Nhà đầu tư có thể được chia thành 2 loại: nhà đầu tư cá nhân và nhà đầu tư có tổ chức 14 Căn cứ vào hàng hóa trên thị trường, thị trường chứng khoán cũng có thể được phân thành các thị trường: thị trường cổ phiếu, thị trường trái phiếu, thị trường các công cụ chứng khoán phát sinh; trong đó Thị trường cổ phiếu là thị trường giao dịch mua và bán các loại cổ phiếu. Cổ phiếu là một loại chứng khoán được phát hành dưới dạng chứng chỉ hoặc bút toán ghi sổ, xác nhận quyền sở hữu và lợi ích hợp pháp của người sở hữu cổ phiếu đối với tài sản hoặc vốn của một công ty cổ phần. Niêm yết chứng khoán là thủ tục cho phép một chứng khoán nhất định được phép giao dịch trên Sở giao dịch chứng khoán. Cụ thể, đây là quá trình mà Sở giao dịch chứng khoán chấp thuận cho công ty phát hành có chứng khoán được phép niêm yết và giao dịch trên Sở giao dịch chứng khoán nếu công ty đó đáp ứng đầy đủ các tiêu chuẩn về định lượng cũng như định tính mà Sở giao dịch chứng khoán đề ra. Thời gian giao dịch: tại hầu hết các Sở giao dịch chứng khoán trên thế giới, giao dịch chứng khoán thường diễn ra trong các ngày làm việc trong tuần. - Giá mở cửa: là giá thực hiện tại lần khớp lệnh đầu tiên của chứng khoán trong ngày giao dịch. Giá đóng cửa: bao gồm giá đóng cửa chưa điều chỉnh và giá đóng cửa điều chỉnh o Giá đóng cửa chưa điều chỉnh: là giá được đăng trên bảng niêm yết giá tại sàn chứng khoán, hoặc được cung cấp bởi các công ty chứng khoán. o Giá đóng cửa điều chỉnh: là giá đóng cửa chưa điều chỉnh và lợi nhuận mà nhà đầu tư thu được từ cổ tức và việc tách/thưởng cổ phiếu, vốn. 1.1.2. Có thực sự dự đoán đƣợc thị trƣờng chứng khoán? Bài toán dự đoán thị trường chứng khoán gần đây được chú ý nhiều bởi cả giới học thuật cũng như kinh doanh. Nhưng có một câu hỏi đã được đặt ra là liệu giá trị cổ phiếu có thực sự dự đoán được không? Những nghiên cứu trước đây về việc dự đoán thị trường chứng khoán dựa trên lý thuyết Bước Đi Ngẫu Nhiên (Walk Random - WR) và Giả thuyết Thị trường hiệu quả (Efficient Market Hypothesis - EMH). Lý thuyết "Bước Đi Ngẫu Nhiên" nói rằng sự vận động của giá cả trên thị trường chứng khoán sẽ không đi theo bất kì một khuôn mẫu hay một xu hướng nào đã từng có trước đây. Và do đó những biến động giá trong quá khứ sẽ không thể sử dụng được trong việc dự đoán những bước đi tiếp theo của nó trong tương lai. Theo như EMH, sẽ có một số lượng lớn các thành viên tham gia thị trường cạnh tranh, mỗi thành viên phân tích và định giá độc lập nhằm tối ưu hóa lợi nhuận của mình. Các nhà đầu tư điều chỉnh giá cổ phiếu ngay tức khắc với tất cả các thông tin liên quan sẵn có nhằm phản hồi được ảnh hưởng của thông tin. Giá cả thị trường chứng khoán bị điều phối 15 chính bởi các thông tin mới, ví dụ như tin tức, hơn là phụ thuộc vào giá cả hiện tại và quá khứ của cổ phiếu. Do tin tức là không thể dự đoán được, do đó giá chứng khoán sẽ đi theo một mẫu bước nhảy ngẫu nhiên và không thể đoán định được chính xác trên 50%. Tuy nhiên, theo một quan điểm hoàn toàn ngược lại, lý thuyết Down đã chỉ ra rằng những biến động thị trường với mọi xu hướng đều có thể được dự đoán trước trên cơ sở biến động giá trên các biểu đồ. Charles. H. Dow đưa ra khái niệm về “chỉ số giá bình quân” nhằm phản ánh xu thế chung của một số cổ phiếu đại diện cho thị trường. Theo Lý thuyết Dow, chỉ số bình quân thị trường phản ánh tất cả. Bởi vì nó phản ánh những hoạt động có liên kết với nhau của hàng nghìn nhà đầu tư, gồm cả những người có kinh nghiệm dự đoán thị trường giỏi nhất, có những thông tin tốt nhất về xu hướng và các sự kiện, những gì có thể nhận thấy trước và tất cả những gì có thể ảnh hưởng đến cung và cầu của các loại chứng khoán. Thậm chí cả những thiên tai hay thảm họa không dự tính được thì ngay khi xảy ra chúng đã được thị trường phản ánh ngay vào giá của các loại chứng khoán. Cũng trong lý thuyết Down bao gồm ba xu thế là - xu thế gốc hay xu thế cơ bản (primary trend), xu thế thứ 2 (second trend), và những xu thế nhỏ (minor trends). Xu thế cơ bản (primary trend) là lực lượng chính đằng sau xu thế và giống như một dòng chảy của sông theo một hướng cơ bản. Xu thế thứ 2 giống như một nhánh của xu thế chính. Nhánh này có thể rẽ ra một lúc nhưng cuối cùng cũng quay lại đi theo dòng của dòng sông chính. Xu thế nhỏ thì giống như một dòng suối nhỏ, có lúc chạy theo hướng này và hướng kia nhưng vẫn được dẫn dắt theo một hướng chung của dòng sông. Xu thế cơ bản có thể mất nhiều năm để kết thúc và phát triển theo thời gian. Xu thế thứ 2 có thể xảy ra bất cứ ở đâu từ một vài tuần tới một vài tháng nếu tính theo thời gian và xu thế nhỏ có thể đi theo hướng ngược lại của xu thế cơ bản. Những xu thế nhỏ như là xu thế hàng ngày kéo dài một vài ngày hoặc tương tự và thường không có gì quá nổi bật. Xu thế thứ 2 cũng có thể nghiêng về việc bị lôi kéo bởi các mánh khóe hay tin đồn, nhưng xu thế cơ bản thì hoàn toàn lãnh đạm với các yếu tố đó. Theo lý thuyết này thì thị trường bị ảnh hưởng bởi cảm xúc và nghiêng về phản ứng thái quá cả theo hướng lên hoặc xuống. Do đó, việc có thể dự báo được xu hướng của thị trường chứng khoán là hoàn toàn có thể. 1.2. Các phƣơng pháp dự báo thị trƣờng chứng khoán Căn cứ vào nội dung phương pháp và mục đích của dự báo, người ta chia dự báo thành hai loại [17]: Phương pháp định tính và phương pháp định lượng: Phương pháp định tính thường phụ thuộc rất nhiều vào kinh nghiệm của một hay nhiều chuyên gia trong lĩnh vực liên quan. Phương pháp này thường được áp dụng, kết quả dự báo sẽ được các chuyên gia trong lĩnh vực liên quan nhận xét, đánh giá và đưa ra kết luận cuối. 16 Phương pháp định lượng dựa trên mô hình toán với giả thiết rằng mối liên hệ giữa các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương lai. Nói cách khác, phương pháp định lượng dựa trên dữ liệu quá khứ để phát hiện xu thế thị trường trong tương lai theo một quy luật nào đó. Để dự báo xu thế thị trường chứng khoán, người ta có thể sử dụng mô hình chuỗi thời gian, hoặc sử dụng biến nhân quả. Ưu điểm của phương pháp này là tín hiệu đưa ra khá khách quan, dựa và tiêu chí của những chỉ tiêu thống kê từ mô hình. Những tín hiệu mua bán được đưa ra dựa trên những phân tích khách quan nên giảm thiểu sự sai sót do yếu tố con người. Tuy nhiên, phương pháp này có nhược điểm là không dự báo được trong những trường hợp thị trường có một diễn biến đột ngột khiến cho mô hình dự báo có một sự đảo chiều đột ngột. Ngoài ra, nếu nguồn dữ liệu đầu vào không được thu thập một cách khoa học, chính xác cũng có thể làm cho tính dự báo thiếu chính xác. Như đã biết, trong thị trường chứng khoán, có rất nhiều yếu tố có thể ảnh hưởng đến giá cổ phiếu. Những yếu tố này có thể được bắt nguồn từ việc phát hành tin tức về các công ty hoặc những tin tức về nền kinh tế của các quốc gia lớn. Lý do chính của việc kết hợp các thông tin sự kiện nào đó diễn ra trong dự báo thị trường chứng khoán dựa trên một giả định rằng giá trong tương lai của một cổ phiếu một phần phụ thuộc vào các sự kiện chính trị và quốc tế diễn ra. Vì vậy, nhiều nghiên cứu đã sử dụng thông tin, tin tức sự kiện (yếu tố định tính) như là các dữ liệu định lượng trong việc dự đoán thị trường chứng khoán. Tóm tắt chƣơng một: Chương một đã trình bày một cách tổng quan về bài toán dự báo thị trường chứng khoán. Có một số cách cơ bản các nhà đầu tư sử dụng để phân tích, từ đó đưa ra những dự đoán cho xu hướng của thị trường chứng khoán, trong đó không thể không nói đến phương pháp kỹ thuật được áp dụng cho bài toán dự đoán thị trường chứng khoán. Chương hai của luận văn sẽ trình bày chi tiết về một trong những cách được sử dụng để dự đoán xu hướng giá cổ phiếu – đó là phương pháp dự đoán dựa trên mạng xã hội Twitter. 17 2. Chƣơng 2. Dự đoán thị trƣờng chứng khoán dựa trên Twitter 2.1. Giới thiệu chung Các nhà đầu tư thường sử dụng hai phương pháp cơ bản để phân tích giá cả cổ phiếu và đưa ra các quyết định đầu tư, là: phân tích theo nguyên tắc cơ bản và phương pháp kỹ thuật. Phân tích cơ bản là phương pháp truyền thống, liên quan đến việc nghiên cứu các thông tin cơ bản về một công ty cụ thể muốn theo dõi giá cổ phiếu như doanh thu, chi phí, vị trí thị trường, tốc độ tăng trưởng hàng năm [22]. Mặt khác, phương pháp phân tích kỹ thuật, là hoàn toàn dựa trên các nghiên cứu về lịch sử biến động giá cả, từ đó đưa ra mô hình giá để dự báo biến động giá trong tương lai [29]. Lý do căn bản của phân tích kỹ thuật dựa trên ba giả thuyết cơ bản: (1) Giá phản ánh tất cả hành động thị trường; (2) Giá dịch chuyển theo xu hướng; (3) Quá khứ tự nó sẽ lặp lại. Thứ nhất, phân tích kỹ thuật được tiến hành dựa trên giả định nền tảng là giá phản ánh tất cả hành động thị trường, chỉ cần bất cứ một thông tin gì mới được đưa ra là nó được phản ánh ngay vào trong giá. Không chỉ phản ánh mọi thông tin, giá còn phản ánh tất cả các kiến thức của tất cả những người tham gia vào thị trường, bao gồm các nhà giao dịch, các nhà đầu tư, các nhà quản trị danh mục đầu tư, các nhà phân tích của phía người bán và người mua, các nhà lập chiến lược thị trường, các nhà phân tích cơ bản, phân tích kỹ thuật và nhiều nhà giao dịch khác. Phân tích kỹ thuật là sử dụng tất cả các thông tin có trong giá để lý giải về các biểu hiện của thị trường nhằm hình thành nên dự đoán cho tương lai. Thứ hai, biến động giá không ngẫu nhiên hoàn toàn mà theo xu hướng. Thứ ba, quá khứ tự nó sẽ lặp lại. Mục đích của phân tích là dự đoán xu hướng giá trong tương lai. Bằng cách chú trọng vào giá và chỉ duy nhất giá, các nhà phân tích kỹ thuật đã sử dụng phương pháp trực tiếp. Cả hai phương pháp dự báo thị trường đều nhắm vào việc giải quyết cùng một vấn đề đó là xác định chiều hướng giá cả thị trường có khả năng dịch chuyển thế nào. Hai phương pháp này tiếp cận vấn đề từ hai hướng khác nhau. Phân tích cơ bản nghiên cứu nguyên nhân của sự dịch chuyển thị trường trong khi phân tích kỹ thuật thì nghiên cứu tác động của các sự dịch chuyển này. Một trong những tác động ảnh hưởng rất lớn đến sự dịch chuyển của thị trường, đó chính là tâm trạng, thái độ của cộng đồng trước một tin tức, một sự kiện nào đó diễn ra. Một bộ phận nghiên cứu chuyên sâu vào EMH, cụ thể là từ khía cạnh lý thuyết kinh tế xã hội Socionomic Theory of Finance (STF), kinh tế học hành vi và tài chính hành vi đã có một loạt các nghiên cứu chỉ ra rằng giá cổ phiếu có thể dự đoán được ở một mức độ nào đó dựa trên cảm xúc, trạng thái tâm trạng, suy nghĩ của cộng đồng. Một vài nghiên cứu gần đây cũng gợi ý rằng tin tức là không đoán định được nhưng có những chỉ số được lấy 18 ra từ các trang mạng xã hội trực tuyến (blogs,Twitter feeds,...) được dùng để dự đoán sự thay đổi trong những chỉ số kinh tế và thương mại. Bài toán dự đoán thị trường chứng khoán dựa trên Twitter là bài toán sử dụng dữ liệu là các tweet trên trang mạng xã hội trực tuyến Twitter để dự báo xu hướng của thị trường chứng khoán. Theo kinh tế học hành vi, những hành vi (hành động có nhận thức) của các chủ thể kinh tế (người tiêu dùng, người phân phối, bán hay hay người sản xuất) có thể ảnh hưởng đến việc ra các quyết định kinh tế cũng như giá cả thị trường ra sao, hay nói cách khác, kinh tế học hành vi đã chỉ ra rằng cảm xúc có thể gây ảnh hưởng sâu sắc đến những hành vi và các quyết định của mỗi cá nhân, đặc biệt là các quyết định liên quan đến tài chính, kinh tế. Từ đó, một câu hỏi đã được đặt ra là Liệu các trạng thái tâm trạng, cảm xúc của cả cộng đồng có tương quan hay thậm chí là yếu tố dự đoán được các chỉ số kinh tế không? Giả thuyết “Tâm trạng cộng đồng có thể dự đoán được thị trường chứng khoán” đã được nêu ra và chứng minh bởi J.Bollen cùng các cộng sự. Tôi xin trình bày một cách khái quát về chứng minh của J.Bollen và cộng sự cho giả thuyết “Tâm trạng cộng đồng có thể dự đoán được thị trường chứng khoán” trong phần tiếp theo của luận văn. 2.2. Dự đoán thị trƣờng chứng khoán dựa trên tâm trạng cộng đồng và chứng minh của J.Bollen cùng cộng sự Các tác giả đã nêu lên giả thuyết “Tâm trạng của cộng đồng có thể dự đoán được giá cả của thị trường chứng khoán”. Để chứng minh giả thuyết đó, các tác giả thực hiện 3 pha chính sau: Đầu tiên, đánh giá tâm trạng dựa trên các công cụ đánh giá tâm trạng OF và GPOMS. Các tác giả đưa các tweet lấy được sau khi đã được lọc và xử lý các dấu chấm câu trong giai đoạn từ 28/2/2008 đến 19/12/2008 vào 2 công cụ đánh giá tâm trạng: (1) OpinionFinder (OF) đo tâm trạng tích cực và tiêu cực, (2) Google-Profile of Mood States (GPOMS) đánh giá theo 6 chiều tâm trạng. Đồng thời trích ra các giá trị đóng DJIA theo thời gian từ trang Yahoo Finance. Đối với công cụ OF, chọn ra các từ tích cực và tiêu cực mà được đánh dấu là “strong” hoặc “weak” trong bộ từ điển cảm xúc của OF. Với mỗi tweet, xác định chúng chứa bao nhiêu từ tích cực và tiêu cực. Đối với mỗi lần xuất hiện, thì tăng điểm số tích cực (tiêu cực) tương ứng lên 1. Sau đó, trong mỗi ngày, tính tỉ số tích cực/tiêu cực trên các tweet đã thu được trong ngày. Để có thể lấy được ra những chiều cảm nghĩ khác, các tác giả đã tạo ra công cụ phân tích tâm trạng khác, tên là GPOMS, có thể đo được các tâm trạng của con người theo 6 chiều khác nhau, đó là Calm, Alert, Sure, Vital , Kind và Happy. Điểm số của mỗi chiều tâm trạng POMS được xác định là tổng của các trọng số co-occurrence của mỗi từ trong tweet mà trùng với một từ trong bộ từ điển POMS. 19 Để có thể so sánh được OF và GPOMS, J.Bollen và cộng sự đã chuẩn hóa chúng về z-score dựa trên một tâm cục bộ và một độ lệch chuẩn trong một cửa sổ k ngày trước và sau một ngày cụ thể nào đó. Việc chuẩn hóa này sẽ làm cho các chuỗi thời gian dao động xung quanh mốc trung bình là 0 và có thể được diễn tả theo độ lệch chuẩn là 1. Tác giả kiểm tra khả năng của OF và GPOMS trong việc nắm bắt được các khía cạnh khác nhau của tâm trạng cộng đồng bằng cách áp dụng chúng cho các tweet được đăng tải lên trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008. Giai đoạn này được chọn vì diễn ra một vài sự kiện văn hóa xã hội lớn mà có thể có những ảnh hưởng quan trọng và phức tạp tới tâm trạng của cộng đồng, đó là cuộc bầu cử tổng thống Mỹ (04/11/2008) và Ngày lễ Phục Sinh (27/11/2008). Kết quả tâm trạng theo chuỗi thời gian như trong hình dưới và được mô phỏng theo chuẩn hóa z-score: 20 Hình 2.1: Kết quả tâm trạng theo chuỗi thời gian trong khoảng thời gian 2 tháng từ 5/10/2008 tới 05/12/2008 theo nghiên cứu của J.Bollen và cộng sự [16] Hình trên cho thấy OF thành công trong việc xác định cảm xúc của cộng đồng đối với việc bầu cử Tổng thống vào 04/11/2008 và lễ phục sinh 27/11/2008. Kết quả của GPOMS cho thấy sự khác biệt của tâm trạng cộng đồng đối với các ngày lễ trên trong khoảng thời gian 3 ngày xung quanh ngày bầu cử (4/11/2008). Ngày 03/11/2008 đặc trưng bởi 1 sự đi xuống mạnh của Calm cho thấy sự lo lắng của cộng đồng tăng lên. Trong khi đó ngày bầu cử thì được đặc trưng bởi sự đảo ngược chiều điểm số của Calm cho thấy sự lo lắng giảm đi một cách đảng kể trong cộng đồng, cùng với đó là sự tăng lên đáng kể về điểm số của Vital, Happy cùng Kind. Điều này cho thấy một cộng đồng tràn đầy năng lượng, hạnh phúc và thân thiện trong ngày bầu cử. Vào ngày 05/11/2008, những chiều trạng thái POMS tiếp tục cho thấy tâm trạng tích cực của cộng đồng, cụ thể là mức điểm của Calm, Sure, Vital và Happy vẫn cao. Sau ngày 05/11, tất cả các chiều tâm trạng tiến dần trở về đường cơ sở. Tâm trạng của cộng đồng đối với ngày Lễ Phục sinh 27/11/08 cũng có sự khác biệt tương ứng giống như trong ngày bầu cử. Vào ngày lễ phục sinh, điểm nhọn đối với giá trị Happy cho thấy mức độ cao đối với sự hạnh phúc của cộng đồng. Mặc dù vậy, những chiều trạng thái khác đều không có sự tăng lên trong ngày 27/11. Hơn nữa, giá trị đỉnh của Happy cũng chỉ kéo dài trong 1 ngày, và không thấy có sự phản ứng đặc biệt nào ngày trước đó. Để xác định mối quan hệ giữa các chiều trạng thái GPOMS với xu hướng tâm trạng của OF, tác giả tiếp tục kiểm tra sự tương quan giữa xu hướng thu được từ bộ từ điển của OF đối với 6 chiều tâm trạng của GPOMS sử dụng hồi quy đa biến. Kết quả thu được như sau:
- Xem thêm -