Cơ sở dữ liệu ngoại suy và ứng dụng

  • Số trang: 76 |
  • Loại file: PDF |
  • Lượt xem: 42 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

1 LỜI CẢM ƠN Luận văn đƣợc hoàn thành dƣới sự hƣớng dẫn của tiến sĩ Đỗ Năng Toàn -Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam. Tác giả xin bày tỏ lòng biết ơn sâu sắc đến các thầy, về sự hƣớng dẫn tận tình và đầy lòng nhân hậu trong quá trình học tập, nghiên cứu. Tác giả xin bày tỏ lòng biết ơn đến Ban lãnh đạo Trung tâm Thông tin- Tƣ liệu Dầu khí đã tận tình động viên, tạo điều kiện giúp đỡ tác giả trong thời gian học tập. Tác giả xin bày tỏ lòng biết ơn sâu sắc đến Trƣờng Đại học Công nghệ- Đại học Quốc gia Hà nội, Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong thời gian học tập và nghiên cứu. Tác giả xin gửi lời cám ơn chân thành đến những ngƣời thân trong gia đình bạn bè và đồng nghiệp về những sự quan tâm, động viên và giúp đỡ trong thời gian qua. Hà nội tháng 10-2006 2 MỤC LỤC MỞ ĐẦU ............................................................................................................................ 3 1. Tính thời sự, ý nghĩa thực tiễn của đề tài........................................................................ 3 2. Mục đích, cấu trúc của luận văn ......................................................................................4 Chƣơng 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU “NGOẠI SUY” ....................................6 1. Khái niệm cơ sở dữ liệu “ngoại suy” ...............................................................................6 2. Tính chất của cơ sở dữ liệu “ngoại suy” ..........................................................................8 3. Các bƣớc cần thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” .....................................9 4. Chức năng vai trò của cơ sở dữ liệu “ngoại suy” ..........................................................11 4.1. Chức năng của cơ sở dữ liệu “ngoại suy” .............................................................11 4.2. Vai trò của cơ sở dữ liệu “ngoại suy” ...................................................................12 Chƣơng 2: MỘT SỐ PHƢƠNG NGOẠI SUY DỮ LIỆU ...............................................15 1. Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính .................................................15 1.1. Mô hình hồi quy tuyến tính cổ điển ......................................................................15 1.2. Ƣớc lƣợng bình phƣơng cực tiểu ..........................................................................16 1.2.1. Tính chất ƣớc lƣợng bằng phƣơng pháp bình phƣơng cực tiểu ...................17 1.2.2. Định lý Gauss về ƣớc lƣợng bình phƣơng cực tiểu .....................................18 1.2.3. Hệ số xác định R ..........................................................................................18 1.2.4. Khoảng tin cậy các hệ số hồi quy  i ...........................................................18 1.2.5. Kiểm định các giả thiết về hệ số hồi quy .....................................................19 1.2.6. Ƣớc lƣợng hàm hồi quy tuyến tính ..............................................................21 1.3. Kiểm tra sự phù hợp của mô hình .........................................................................21 1.3.1. Tiêu chuẩn F ................................................................................................21 1.3.2. Khảo sát các phần dƣ ...................................................................................21 1.4. Tóm tắt các bƣớc tiến hành phân tích hồi quy ......................................................22 1.5. Hệ thống các mô hình hồi quy tuyến tính bội .......................................................22 1.5.1. Mô hình hồi quy với nhiều biến phụ thuộc ..................................................22 1.5.2. Ƣớc lƣợng tham số chƣa biết của mô hình ..................................................24 1.6. Hồi quy và tƣơng quan tuyến tính bội ..................................................................25 1.6.1. Ngoại suy với một biến phụ thuộc ...............................................................25 1.6.2. Ngoại suy với nhiều biến phụ thuộc ............................................................27 1.7. Mô hình hồi quy phi tuyến ....................................................................................29 2. Ngoại suy bằng phƣơng pháp làm trơn ..........................................................................31 2.1. Các kỹ thuật làm trơn thƣờng dùng ......................................................................31 2.2. Trung bình trƣợt đơn.............................................................................................31 2.3. Trung bình trƣợt kép .............................................................................................33 2.4. Làm trơn đơn mũ ..................................................................................................34 2.5. Làm trơn mũ kép ..................................................................................................36 3. Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian ....................................................38 3.1. Đại cƣơng về chuỗi thời gian ................................................................................38 3.1.1. Khái niệm về chuỗi thời gian .......................................................................38 3.1.2. Mục tiêu của việc phân tích chuỗi thời gian ................................................39 3.2. Quá trình dừng và phân tích hệ số tƣơng quan .....................................................41 3.2.1. Khái niệm về quá trình dừng .......................................................................41 3 3.2.2. Các quá trình tuyến tính ...............................................................................43 3.2.3. Hệ số tƣơng quan và tự tƣơng quan mẫu .....................................................43 3.2.4. Hệ số tự tƣơng.quan riêng...........................................................................46 3.3. Ngoại suy dữ liệu dựa trên chuỗi thời gian ARMA ..............................................47 3.3.1. Khái niệm về chuỗi thời gian dừng..............................................................47 3.3.2. Chuỗi thời gian ARMA ...............................................................................51 3.3.3. Ngoại suy dữ liệu trên quá trình ARMA ....................................................54 3.3.4. Kiểm tra tính phù hợp của mô hình .............................................................64 Chƣơng 3: ỨNG DỤNG ....................................................................................................66 1. Cơ sở dữ liệu trạng thái..................................................................................................66 1.1. Cơ sở dữ liệu thời gian..........................................................................................66 1.2. Cơ sở dữ liệu ngoại suy qua trạng thái ................................................................69 2. Ứng dụng .......................................................................................................................69 2.1. Bài toán .................................................................................................................69 2.2. Ngoại suy dựa vào chuỗi thời gian .......................................................................70 2.3. Chƣơng trình quản trị cơ sở dữ liệu International Revenue .................................73 KẾT LUẬN........................................................................................................................75 TÀI LIỆU THAM KHẢO .................................................................................................76 4 MỞ ĐẦU 1. Tính thời sự, ý nghĩa thực tiễn của đề tài Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội. Tuy nhiên, trong buổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các môn khoa học tự nhiên phát triển thì dự báo mới thực sự đƣợc coi trọng và những hoạt động dự báo đƣợc diễn ra trên một cơ sở khoa học vững chắc. Ngày nay, việc đoán trƣớc các xu thế tƣơng lai đóng vai trò cực kỳ quan trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập đoàn, các công ty nhỏ , vừa, lớn và thậm chí cả những quốc gia hùng mạnh . Việc đánh giá các diễn biến tƣơng lai của đối tƣợng phải dựa trên các số liệu thực tế trong các chu kỳ thời gian trƣớc đó và hiện tại . Nhƣng trong nhiều trƣờng hợp các số liệu chƣa thể cập nhậ t đến thời điểm hiện thời , song nhu cầu bắt buộc lại cần kết quả để đánh giá quá trì nh hoạt động . Ví dụ: Việc tính toán thanh toán khấu trừ khi thực hiện gọi điện thoại giữa các vùng chẳng hạn. Cuộc điện thoại đƣợc gọi từ Việt Nam sang Mỹ thì Việt Nam thu tiền cƣớc trong khi Mỹ vẫn phải chịu phí tổn đƣờng truyền và ngƣợc lại nếu cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại là ngƣời thu tiền. Vấn đề đặt ra là cần phải tính toán khấu trừ giữa việc gọi đi và gọi đến. Tuy nhiên, các số liệu thực tế thƣờng có đƣợc chậm, có khi là cả quý. Số liệu thật có chậm một quý và việc thanh toán thì lại chậm thêm mất một quý nữa. Trong khi chúng ta lại luôn cần biết thông tin về kinh doanh tại thời điểm hiện tại để có kế hoạch, định hƣớng kinh doanh chẳng hạn nhƣ thuê thêm hay bớt đi đƣờng truyền . Từ đó dẫn đến một tất yếu nảy sinh là phải tính toán dựa trên các số liệu ngoại suy (extrapolate data) để phục vụ nhu cầu đánh giá và quyết định. Việc dự báo cho các mục tiêu đơn và cụ thể đã đƣợc thực hiện nhiều song việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy, dựa trên các dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở dữ liệu gọi là cơ sở dữ liệu “ngoại suy” thì ít và có thể nói là chƣa có tài liệu nào đề cập đến, cho dù đã có rất nhiều dạng cấu trúc dữ liệu đã đƣợc tạo dựng. 2. Mục đích, cấu trúc của luận văn Sử dụng các kỹ thuật ngoại suy dữ liệu nhằm ứng dụng vào các mục đích dự báo đã đƣợc sử dụng nhiều trong các đơn vị hành chính cũng nhƣ các doanh nghiệp thông qua các mô hình, các phƣơng pháp toán học. Việc tổ chức có tính chất hệ thống cho các dữ liệu ngoại suy nhằm xây dựng các cơ sở dữ liệu mà thực tiễn đặt 5 ra đang là nhu cầu cấp thiết nhƣng những tài liệu có tính chất hệ thống về vấn đề đặt ra vẫn đang là một phần thiếu vắng. Xuất phát từ thực tế đó, mục tiêu của luận văn là nghiên cứu các phƣơng pháp ngoại suy dữ liệu, trên cơ sở đó đề xuất một giải pháp cho việc xây dựng cơ sở dữ liệu cho các giá trị ngoại suy dựa trên các mô hình toán học và giải quyết một vấn đề thực tế nhờ ứng dụng mô hình đề xuất này. Với mục tiêu cụ thể nhƣ sau: Nghiên cứu tổng quan về ngoại suy dữ liệu và cơ sở dữ liệu nhằm thừa kế các kết quả và cải tiến cho phù hợp với các dữ liệu chính xác và dữ liệu dự báo. Tìm hiểu các mô hình toán học và các phƣơng pháp ngoại suy dữ liệu dựa trên mô hình. Đề xuất một bài toán ứng dụng thực tế có sử dụng một phƣơng pháp ngoại suy cụ thể và cài đặt. Cấu trúc của luận văn gồm 76 trang chia thành 3 chƣơng, phần mở đầu, phần kết luận và tài liệu tham khảo đƣợc cấu trúc nhƣ sau: Chƣơng 1: Tổng quan về cơ sở dữ liệu “ngoại suy” (8 trang) Trình bày tổng quan về các mô hình cơ sở dữ liệu, về dữ liệu ngoại suy. Sau đó nêu lên vai trò của việc tổ chức dữ liệu ngoại suy trong việc tổ chức và quản lý dữ liệu. Chƣơng 2: Một số phƣơng pháp ngoại suy dữ liệu (51 trang) Chƣơng này trình bày các khái niệm và các kỹ thuật ứng với ba phƣơng pháp chính thƣờng đƣợc sử dụng trong việc ngoại suy dữ liệu, đó là: Mô hình hồi quy và phƣơng pháp ngoại suy dựa vào mô hình hồi quy. Quá trình làm trơn và ngoại suy dựa trên làm trơn. Chuỗi thời gian và ngoại suy dữ liệu dựa trên chuỗi thời gian. Chƣơng 3: Ứng dụng (9 trang) Trình bày việc tổ chức dữ liệu ngoại suy thành cơ sở dữ liệu dựa trên việc gán trạng thái thời gian cho các bản ghi. Trên cơ sở đó cài đặt ứng dụng cụ thể liên quan đến việc thao tác với các dữ liệu ngoại suy. 6 Chƣơng 1 TỔNG QUAN VỀ CƠ SƠ DỮ LIỆU “NGOẠI SUY” 1. Khái niệm cơ sở dữ liệu “ngoại suy” Bản thân thuật ngữ cơ sở dữ liệu “ngoại suy” đã nói lên thuộc tính không thể thiếu đƣợc của bộ não con ngƣời: đó là sự phản ánh vƣợt trƣớc, sự cố gắng hƣớng tới một tƣơng lai ngày một tốt đẹp hơn. Những cố gắng ban đầu đƣợc thể hiện dƣới hình thức là ƣớc đoán, những hy vọng thiếu căn cứ, những ƣớc muốn viển vông không tƣởng, những tính toán ƣớc lƣợng thiếu cơ sở khoa học và mang nặng tính kinh nghiệm.[1] Từ cổ xƣa việc dự báo đã đƣợc áp dụng trong cuộc sống hàng ngày, nhƣng mang nặng màu sắc thần bí tôn giáo, thể hiện ở các câu tiên tri, lời bói toán. Ngay từ thời cổ Hy Lạp ngƣời ta đã phân chia các lĩnh vực dự báo thành: Các hiện tƣợng tự nhiên nhƣ: thời tiết, nhật thực, nguyệt thực… Các hiện tƣợng xã hội: Sự xuất hiện và kết thúc các cuộc chiến tranh, sự hƣng thịnh hay suy vong của một thể chế chính trị… Các hiện tƣợng về đời sống xã hội nhƣ khả năng giàu có, bệnh tật, sinh tử, về sự phát đạt của một dòng họ… Suốt nhiều thế kỷ trƣớc dự báo không đƣợc vận dụng một cách khoa học và không có tính tích cực, bởi vì đây là thời kỳ lý thuyết tôn giáo không tƣởng và triết học duy tâm chiếm vai trò thống trị trong tƣ duy nhận thức thế giới, giai cấp thống trị đã lợi dụng nó làm công cụ thống trị và mê hoặc ngƣời dân nghèo khổ. Đến thế kỷ XVI, XVII khi mà các môn khoa học tự nhiên nhƣ toán học, hóa học , vật lý học và thiên văn học đã phát triển, các dự báo có tính chất khoa học mới dần dần xuất hiện. Tuy nhiên, lúc đầu các dự báo với độ chính xác cao thƣờng đƣợc áp dụng vào trong vật lý cổ điển, hóa học và đặt trong phạm vi không gian và thời gian rất khắt khe. Sau đó, sự xuất hiện nhiều dự báo mà hiện tƣợng dự báo rất phức tạp, chịu sự tác động của nhiều nhân tố: tiến bộ khoa học–kỹ thuật, sự phát triển kinh tế-xã hội, chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức xã hội, đòi hỏi dự báo phải vận dụng các phƣơng pháp thống kê xác suất (dự báo với mức độ tin cậy nào đó chứ không hoàn toàn chính xác). [1] 7 Học thuyết của C.Mác đã mở ra một khả năng mới vế sự tiên đoán có tính khoa học về các hình thái kinh tế - xã hội. Mác và Ăng nghen là ngƣời đầu tiên đề ra và giải thích một cách sâu sắc rằng mâu thuẫn chính là động lực phát triển của mọi hình thái kinh tế - xã hội và sự tất yếu khách quan của việc chuyển từ hình thái kinh tế - xã hội này sang hình thái kinh tế xã - hội khác tiến bộ hơn. Hai ông cho rằng các hiện tƣợng kinh tế - xã hội vận động và phát triển theo thời gian: hiện tại bao giờ cũng mang dấu vết trong quá khứ còn tƣơng lai do quá khứ và hiện tại phát triển tạo thành. Khi liên hệ một cách thận trọng với kinh nghiệm của quá khứ để rút ra bài học sâu sắc từ thực tế sinh động, không thể phủ nhận đƣợc những tiên đoán thiên tài của Lênin, một di sản có tính chất kinh điển. Ông đã tổng quát hóa các khuynh hƣớng phát triển của các hiện tƣợng phức tạp nhất trong các lĩnh vực chính trị, kinh tế, xã hội và khoa học để tập chung đầu tƣ cho kế hoạch điện khí hóa Nhà nƣớc Xô Viết đầu tiên. [2] Nhƣ vậy, dự báo đã từ thần bí kinh nghiệm phát triển thành một môn khoa học độc lập. Ngày nay vai trò của dự báo ngày càng đƣợc khẳng định và tăng lên đáng kể trong mọi lĩnh vực và cấp độ của đời sống xã hội. Đó là do quy mô của nền kinh tế ngày càng lớn, cấu trúc của nền kinh tế xã hội ngày càng phức tạp. Việc tổng hợp các nhân tố ảnh hƣởng đến quá trình phát triển nền kinh tế quốc dân, việc vạch ra các luận chứng để xây dựng chiến lƣợc, quy hoạch và kế hoạch phát triển, việc lựa chọn các phƣơng án để phát triển khả năng thực hiện các mục tiêu kinh tế xã hội ngày càng tăng lên. Nhƣ vậy có thể hiểu cơ sở dữ liệu “ngoại suy” là một cơ sở dữ liệu gắn với chuỗi thời gian thực, đƣợc cài đặt các thuật toán ngoại suy nhằm sản sinh ra bộ dữ liệu mới (dữ liệu ngoại suy) có căn cứ khoa học mang tính chất xác suất về mức độ, nội dung, các mối quan hệ, trạng thái, xu hƣớng phát triển của đối tƣợng nghiên cứu hoặc về cách thức và thời hạn đạt đƣợc các mục tiêu nhất định đã đề ra trong tƣơng lai. Tiên đoán là hình thức phản ánh vƣợt trƣớc về thời gian hiện thực khách quan, đó là kết quả nhận thức chủ quan của con ngƣời dựa trên cơ sở nhận thức quy luật khách quan trong sự vận động và phát triển của sự vật và hiện tƣợng. có thể phân biệt 3 loại tiên đoán: Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học, thƣờng dựa trên các mối quan hệ có tính tƣởng tƣợng, không hiện thực, đƣợc cấu trúc một cách giả tạo, hoặc những phát hiện có tính chất bất chợt. Các hình thức nhƣ 8 bói toán, tiên tri, các luận điệu tuyên truyền của các thế lực thù địch,… thuộc loại tiên đoán này. Tiên đoán kinh nghiệm: các tiên đoán hình thành qua kinh nghiệm thực tế dựa vào các mối quan hệ qua lại thƣờng xuyên trong thực tế hoặc tƣởng tƣợng mà không dựa trên cơ sở phân tích cấu trúc lý thuyết, nghiên cứu quy luật hay đánh giá kinh nghiệm. Loại tiên đoán này ít nhiều có cơ sở song lại không giải thích đƣợc sự vận động của đối tƣợng và đa số mới chỉ dừng lại ở mức độ định tính. Tiên đoán khoa học: đây là tiên đoán dựa trên việc phân tích mối quan hệ qua lại giữa các đối tƣợng trong khuôn khổ của một hệ thống lý luận khoa học nhất định. Nó dựa trên việc phân tích tính quy luật phát triển của đối tƣợng dự báo và các điều kiện ban đầu với tƣ cách nhƣ là các giả thiết. Tiên đoán khoa học là kết quả của sự kết hợp giữa những phân tích định tính và những phân tích định lƣợng các quá trình cần dự báo. Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao và là cơ sở vững chắc cho việc thông qua các quyết định quản lý khoa học. [2] Ngoại suy dữ liệu bao giờ cũng có thời gian xác định hay tầm xa của ngoại suy. Tầm xa ngoại suy dữ liệu là khoảng cách thời gian tối đa từ hiện tại đến thời điểm sản sinh dữ liệu ngoại suy. Khoảng cách này phụ thuộc vào nhiều nhân tố: sự thay đổi của dữ liệu ngoại suy, mức độ ổn định của các nhân tố ảnh hƣởng, độ dài thời kỳ tiền sử v.v… 2. Tính chất của cơ sở dữ liệu “ngoại suy” Ngoại suy dữ liệu mang tính xác suất. Mỗi đối tƣợng dữ liệu ngoại suy đều vận động theo một quy luật nào đó, một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển nó luôn luôn chịu sự tác động của môi trƣờng, hay các yếu tố bên ngoài. Bản thân môi trƣờng hay các yếu tố tác động cũng không phải là đứng im mà luôn luôn trong trạng thái vận động và phát triển không ngừng, về phía chủ thể dữ liệu ngoại suy, những thông tin hiểu biết về đối tƣợng ở tƣơng lai bao giờ cũng nghèo nàn hơn hiện tại. Vì vậy dù các thuật toán ngoại suy có hoàn thiện, có tin cậy đến đâu cũng không thể chắc chắn rằng các dữ liệu ngoai suy là hoàn toàn chính xác. Hay nói một cách khác ngoại suy dữ liệu bao giờ cũng mang tính xác suất. [1] Ngoại suy dữ liệu là đáng tin cậy. Ngoại suy mang tính xác suất nhƣng đáng tin cậy vì nó dựa trên những cơ sở lý luận và phƣơng pháp luận khoa học. Đó là phép biện chứng duy vật và lịch sử, hệ thống các lý luận về khoa học, về kinh tế và xã hội. Phƣơng pháp và công cụ xử lý thông tin ngày càng hiện đại. Xét về mặt 9 bản chất, ngoại suy dữ liệu là sự phản ảnh vƣợt trƣớc, là những giả thiết về sự phát triển của dữ liệu ngoại suy trong tƣơng lai đƣợc đƣa ra trên cơ sở nhận thức các quy luật phát triển và những điều kiện ban đầu với tƣ cách là những giả thiết. Theo đà phát triển của khoa học kỹ thuật, trình độ nhận thức quy luật và các điều kiện ban đầu ngày càng đƣợc hoàn thiện thì độ tin cậy của dữ liệu ngoại suy cũng không ngừng đƣợc nâng cao độ tin cậy.[1] Ngoại suy dữ liệu mang tính đa kết quả. Mỗi phƣơng pháp ngoại suy đƣợc thực hiện trên những giả thiết nhất định – ngoại suy có điều kiện. Tập hợp các giả thiết nhƣ vậy gọi là phông dữ liệu ngoại suy. Ngoại suy có thể đƣợc tiến hành trên các phông dữ liệu ngoại suy khác nhau, do những nguyên nhân chủ quan và khách quan khác nhau và vì vậy có thể có nhiều kết quả ngoại suy khác nhau. Tính đa kết quả một mặt là thuộc tính khách quan của dữ liệu ngoại suy, nhƣng mặt khác lại là phù hợp với yêu cầu của công tác quản lý, nó làm cho việc ra quyết định cũng nhƣ chỉ đạo thực hiện quyết định quản lý trở nên linh hoạt hơn, dễ thích nghi với sự biến đổi vô cùng phức tạp của tình hình thực tế. [1] 3. Các bƣớc thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” Thông thƣờng các thủ tục để xây dựng cơ sở dữ liệu “ngoại suy” bao gồm các bƣớc sau đây: [2] Bƣớc 1: Xác định mục tiêu bài toán. Bƣớc đầu tiên của công tác xây dựng cơ sở dữ liệu “ngoại suy” là làm rõ mục tiêu của nó. Ba mục tiêu chính cần xác định là: Xác định đối tƣợng: Nhu cầu về thuê bao điện thoại, nhu cầu về nhà ở, nhu cầu nghề nghiệp, lƣợng nƣớc về trong hồ chứa, thời tiết, tỷ giá cổ phiếu v.v… Khu vực dự báo: Theo địa dƣ (một tỉnh, khu vực, toàn quốc v.v…) hay khu vực xã hội (ngành công nghiệp, khu vực dịch vụ, v.v…) Khu vực dự báo có thể là thu hẹp trong một vùng nông thôn hay một lĩnh vực cụ thể nào đó nhƣ tỷ giá đồng đô la Mỹ và đồng Việt nam. Khoảng thời gian dự báo: 1 năm, 5 năm, 10 năm…. Bƣớc 2: Phân tích các yếu tố ảnh hƣởng Đại lƣợng biến đổi theo thời gian có thể thực hiện trên tiền đề là quan hệ giữa đại lƣợng này và các yếu tố quyết định các giá trị của đại lƣợng này trong quá khứ, về cơ bản không thay đổi cho đến thời điểm cần xác định trong tƣơng lai. Do 10 đó, các điều kiện bên trong (hệ thống giá, cơ cấu giá, cơ chế vận hành điều tiết lũ v.v…) cùng các điều kiện bên ngoài (kế hoạch phát triển vùng, bảo đảm tính bền vững của môi trƣờng v.v…) phải đƣợc xét đến. Bƣớc 3: Thu thập phân loại dữ liệu Trong nghiên cứu các yếu tố ảnh hƣởng trực tiếp đến đối tƣợng, cần phải thu thập những số liệu về yếu tố đó, sau đó sắp xếp phân loại chúng để xử lý. Chẳng hạn, dữ liệu cần cho việc xác định nhu cầu điện thoại có thể bao gồm: Dân số, hộ gia đình Số văn phòng các công ty, cơ quan đoàn thể Tốc độ tăng thu nhập Các kế hoạch phát triển đô thị Nhu cầu điện thoại các năm qua Các dữ liệu trên cần đƣợc sắp xếp theo thời gian, vùng địa dƣ hay ngành nghề. Bƣớc 4: Phân tích xu hƣớng tiến triển của đại lƣợng Xu hƣớng tiến triển đƣợc phân tích trên bình diện sau: Các số liệu của thời gian trƣớc đó. Cơ cấu phát triển của hệ Nguồn tác động đến quá trình phát triển Xem xét đặc trƣng của khu vực So sánh các vùng khác Bƣớc 5: Xác định mô hình kỹ thuật ngoại suy sẽ sử dụng trong quá trình tính toán, lựa chọn cơ sở dữ liệu cài đặt Ngoại suy chuỗi thời gian Quá trình làm trơn Phân tích hồi quy Các phƣơng pháp khác (so sánh, chuyên gia v.v…) Phƣơng pháp và mô hình đƣợc chọn tƣơng ứng với đặc điểm của đối tƣợng và yếu tố liên quan, ứng với các dữ liệu có thể thu thập đƣợc. Để đạt đƣợc giá trị có 11 độ tin cậy cao, điều quan trọng là phải lựa chọn đƣợc phƣơng pháp thích hợp, khả thi nhất và chọn ra phƣơng pháp tính toán tin cậy và tối ƣu. Bƣớc 6: Kiểm tra tính phù hợp của mô hình Bƣớc 7: Xác định các giá trị dữ liệu ngoại suy và cập nhật dữ liệu thích hợp vào cơ sở dữ liệu: Kết hợp kết quả thu đƣợc ở bƣớc 5 và phân tích thực hiện ở bƣớc 2 và 4 xác định dữ liệu kết quả thích hợp nhất để cập nhật vào cơ sở dữ liệu. 4. Chức năng vai trò của cơ sở dữ liệu “ngoại suy” 4.1. Chức năng của cơ sở dữ liệu “ngoại suy” Ngoại suy dữ liệu dựa trên sự phản ánh một hình thức nhận thức thế giới, nhận thức xã hội. Nó có hai chức năng cơ bản: Chức năng tham mƣu: trên cơ sở đánh giá thực trạng, phân tích xu hƣớng vận động và phát triển trong quá khứ, hiện tại và tƣơng lai, ngoại suy dữ liệu sẽ cung cấp thông tin dữ liệu cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây dựng chiến lƣợc, kế hoạch hóa các chƣơng trình, dự án,…ngƣời quản lý và hoạch định chiến lƣợc, ngƣời lập kế hoạch có nhiệm vụ lựa chọn trong số các phƣơng án có thể có, tìm ra các phƣơng án có tính khả thi cao nhất, có hiệu quả nhất. Để thực hiện tổ chức năng này, dữ liệu ngoại suy phải thật sự đảm bảo đƣợc tính khách quan, khoa học và tính độc lập tƣơng đối với các cơ quan quản lý và hoạch định chính sách. [2] Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dữ liệu ngoại suy cung cấp thông tin, để tiên đoán các hậu quả có thể nảy sinh trong quá trình thực hiện các chính sách kinh tế - xã hội, nhằm giúp các cơ quan chức năng kịp thời điều chỉnh mục tiêu cũng nhƣ các cơ chế tác động quản lý để đạt đƣợc hiệu quả kinh tế - xã hội cao nhất. Với hai chức năng đó, nếu xét trong quan hệ kế hoạch thì dữ liệu ngoại suy bao gồm hai loại: dữ liệu ngoại suy cung cấp thông tin dự báo trƣớc kế hoạch và dữ liệu ngoại suy cung cấp thông tin dự báo sau kế hoạch. Dự báo trƣớc kế hoạch là tiền đề khoa học đảm bảo tính khả thi của kế hoạch, còn dự báo sau kế hoạch giúp cho quá trình chỉ đạo thực hiện kế hoạch đạt hiệu quả cao nhất. [2] 12 4.2. Vai trò của cơ sở dữ liệu “ngoại suy” Cơ sở dữ liệu ngoại suy có vai trò quan trọng trong quá trình ra quyết định quản lý. Theo nghĩa chung nhất, quản lý là sự tác động liên tục có tổ chức, có chủ đích vào đối tƣợng quản lý bằng các hệ thống biện pháp kinh tế, xã hội, các biện pháp hành chính …, nhằm tạo điều kiện thuận lợi thúc đẩy sự phát triển sản xuất, tiến bộ xã hội.Kết quả của hoạt động quản lý là các quyết định quản lý. Cơ chế ra quyết định bao gồm ba bƣớc: [2]  Thu thập thông tin về đối tƣợng quản lý  Xây dựng mô hình thống kê thực nghiệm và thông tin tiền nghiệm  So sánh cân nhắc đƣa ra quyết định Trong các bƣớc của quá trình ra quyết định quản lý thì vấn đề xây dựng mô hình là khâu cơ bản nhất, sở dĩ nhƣ vậy là vì qúa trình đi đến một quyết định quản lý đòi hỏi phải mô hình hóa các mối quan hệ trong quá trình vận động và phát triển của đối tƣợng quản lý, cho phép liên kết các môi quan hệ không những theo chiều dọc mà còn theo chiều ngang, cho phép liên hệ từ quá khứ đến hiện tạivà sang tƣơng lai. Xét về mặt thời gian các mô hình nhƣ vậy đều mang ý nghĩa dự báo. Hƣớng sử dụng cơ sở dữ liệu ngoại suy để xây dựng mô hình dự báo trong hoạt động quản lý là rất quan trọng, nó tạo điều kiện không những cung cấp thông tin tƣơng lai mà còn có khả năng làm chủ công tác quản lý. Nhờ có cơ sở dữ liệu ngoại suy mà việc xây dựng mô hình dự báo có thể tăng cƣờng khả năng quản lý một cách khoa học: Giúp nhận thức sâu sắc hơn các quy luật khách quan, tránh đƣợc chủ quan duy ý chí Mô hình hóa đề cập một cách toàn diện các mối quan hệ kinh tế- xã hội. Cho phép định lƣợng đƣợc các mối quan hệ bằng cách áp dụng các phƣơng pháp khoa học nhƣ toán, thống kê, … Trong nền kinh tế thị trƣờng, việc xây dựng cơ sở dữ liệu ngoại suy nhằm cung cấp các dữ liệu ngoại suy từ các dữ liệu trong quá khứ là vô cùng quan trọng,bởi lẽ nó cung cấp các thông tin cần thiết nhằm phát hiện và bố trí sử dụng các nguồn lực trong tƣơng lai một cách có căn cứ thực tế. Với cơ sở dữ liệu ngoại suy, những dữ liệu ngoại suy đƣa ra cho phép các nhà hoạch định chính sách có những quyết định về đầu tƣ, các quyết định về sản xuất, về tiết kiệm và tiêu dùng, 13 các chính sách tài chính, chính sách kinh tế vĩ mô. Việc xây dựng cơ sở dữ liệu ngoại suy và cung cấp dữ liệu ngoại suy không chỉ tạo cơ sở khoa học cho việc hoạch định chính sách, xây dựng chiến lƣợc phát triển, cho các quy hoạch tổng thể mà còn cho phép xem xét khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch. Mối quan hệ giữa cơ sở dữ liệu ngoại suy và kế hoạch hóa đƣợc biểu thị qua sơ đồ dƣới đây: Mục tiêu của quản lý Những thuận lợi về nguồn lực Cơ sở dữ liệu ngoại suy Các hạn chế Lập kế hoạch Mục tiêu, Mục đích, Quyết định Sự Phân Bổ Nguồn Lực và Cam Kết Sự thực hiện và chính sách điều chỉnh Hình 1.1: Mối quan hệ giữa cơ sở dữ liệu ngoại suy với công tác lập kế hoạch và ra quyết định quản lý Trong quản lý vĩ mô, việc sản sinh dữ liệu ngoại suy là hoạt động gắn liền với công tác hoạch định và chỉ đạo thực hiện chiến lƣợc kinh doanh của doanh nghiệp. Các doanh nghiệp không thể không tổ chức thực hiện tốt công tác dự báo nếu họ muốn đứng vững trong kinh doanh. Chức năng đầu tiên của quản lý trong doanh nghiệp là xác định mục tiêu của doanh nghiêp dài hạn và ngắn hạn. Doanh nghiệp phải lập kế hoạch để thực hiện những mục tiêu đó, tổ chức tốt các nguồn nhân lực và vật tƣ để thực hiện kế hoạch, 14 điều chỉnh kế hoạch cũng nhƣ kiểm soát các hoạt động để tin chắc rằng tất cả diễn ra theo đúng kế hoạch. Phân tích kinh tế và dự báo đƣợc tiến hành trong tất cả các bƣớc của quản lý doanh nghiệp, nhƣng trƣớc hết là trong việc xác định mục tiêu và hoạch định các kế hoạch dài hạn và ngắn hạn. Trong việc xác định mục tiêu, mỗi doanh nghiệp phải quyết định hàng hóa và dịch vụ nào sẽ đƣợc sản xuất và bán ra, mức giá sản phẩm và dịch vụ, vùng tiêu thụ, thị trƣờng tiềm năng về sản phẩm đó. Thị phần mà doanh nghiệp thực tế có thể hy vọng chiếm đƣợc, hiệu suất vốn doanh nghiệp có thể kỳ vọng…những mục tiêu nhƣ vậy chỉ có thể trở thành hiện thực nếu doanh nghiệp đã phân tích các xu thế của nền kinh tế, đã có đầy đủ các cơ sở để dự báo về nhu cầu sản phẩm của mình cả trong dài hạn và ngắn hạn, chi phí các nhân tố sản xuất…Nhƣ vậy các dự báo về thị trƣờng, giá cả, tiến bộ khoa học và công nghệ, nguồn nhân lực, sự thay đổi của các nguồn đầu tƣ vào, đối thủ cạnh tranh,… có tầm quan trọng sống còn đối với doanh nghiệp. Ngoài ra các dữ liệu ngoại suy cung cấp những thông tin cho phép phối hợp hành động giữa các bộ phận trong doanh nghiệp. [1] 15 Chƣơng 2 MỘT SỐ PHƢƠNG NGOẠI SUY DỮ LIỆU 1. Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính Phân tích hồi quy là một phƣơng pháp phân tích thống kê dự đoán các giá trị của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập các biến độc lập (các biến dùng để ngoại suy). Nó cũng đƣợc vận dụng đánh giá hiệu quả tác động của biến độc lập đối với biến phụ thuộc. [4] 1.1. Mô hình hồi quy tuyến tính cổ điển[4] Giả sử X 1 ,..., X k là các biến độc lập dùng để ngoại suy và Y là biến phụ thuộc cần ngoại suy. Sự phụ thuộc của biến Y theo X 1 ,..., X k nói chung là rất phức tạp. Tuy nhiên trong một số trƣờng hợp sự phụ thuộc là tƣơng đối đơn giản. Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính và các X i (nghĩa là Y là biểu thức bậc nhất của X 1 ,..., X k ) và sai số  . Nhƣ vậy: Y   0  1 X 1  ...   k X k   (2.1) trong đó  i , i  0  k là các hệ số chƣa biết Bây giờ ta tiến hành n quan sát độc lập đồng thời kể từ k+1 biến X 1 ,..., X k ,. Giả sử các số liệu quan sát tuân theo mô hình sau: y1   0  1 x11  ...   k x1k   1 y 2   0  1 x 21  ...   k x 2 k   2 (2.2) ………………………………. y n   0  1 xn1  ...   k xnk   n trong đó  i ,...,  n thỏa mãn 3 điều kiện sau: 1) E ( j )  0 (việc đo đạc không chịu sai lệch hệ thống) 2) D( j )   2 (phƣơng sai không đổi hay là độ chuẩn xác đo đạc nhƣ nhau) 16 3) cov( i ,  j )  0 với mọi i  j  1  n (các sai lệch từng bƣớc không ảnh hƣởng đến nhau) Mô hình (2.2) có thể viết dƣới dạng ma trận nhƣ sau:  y1  1 x11  y  1 x 21  2            y n  1 xn1  x1k    0   1   x2 k   1   2               xnk   k   n  x12 x22  xn 2 Hoặc đơn giản hơn Y  X   Với 1 x11 1 x 21 X     1 xn1 x12 x22  xn 2 (2.3)  x1k   x2 k  đƣợc gọi là ma trận thiết kế      xnk  T T T Y  y1 , y2 ,...,yn  ;    0 , 1 ,..., k  ;   1 ,  2 ,..., n  và 1) E ( )  0 (2.4) 2) cov( )  E ( T )  I n 1.2. Ƣớc lƣợng bình phƣơng cực tiểu [5] Một bài toán trƣớc tiên đặt ra là hãy dựa trên ma trận X và véc tơ của các giá trị quan sát hãy uớc lƣợng véc tơ tham số  và  2 . Nếu chúng ta sử dụng b là giá trị thử của  thì giữa các quan sát và b1 x j1  ...  bk x jk sẽ bị một độ lệch y j  b0  (b1 x j1  ...  bk x jk ) . Nói chung độ lệch này sẽ khác 0 Phƣơng pháp ƣớc luợng bình phƣơng tối thiểu là hãy chọn giá trị véc tơ b sao cho n S (b)   y j  b0  (b1 x j1  ...  bk x jk ) 2  (Y  Xb ) T (Y  Xb )  min (2.5) j 1 Đại lƣợng ˆ làm cực tiểu hóa phiếm hàm S(b) đƣợc gọi là ƣớc lƣợng bình phƣơng cực tiểu của  , còn ˆ j  y j  (ˆ0  ˆ1 x j1  ...  ˆk x jk ), j  1  n (2.6) 17 Gọi là phần dƣ của phép hồi quy. Trong trƣờng hợp này, vì biểu thức theo X 1 ,..., X k là tuyến tính, nên phƣơng trình Yˆ  ˆ0  ˆ1 X 1  ... ˆk X k (2.7) Đƣợc gọi là phƣơng trình hồi quy tuyến tính mẫu. Ta có kết quả sau: đặt yˆ j  ˆ0  ˆ1 x j1  ...  ˆk x jk (2.8) Yˆ  ( yˆ1 ,...,yˆ n )T Mệnh đề 2.1: Nếu ma trận thiết kế X không ngẫu nhiên có hạng k 1  n thì ước lượng bình phương cực tiểu có dạng: ˆ  ( X T X ) 1 X T Y (2.9) Khi đó Yˆ  Xˆ  X ( X T X ) 1 Y  HY (2.10) Trong đó H  X ( X T X ) 1 X T cấp n x n (2.11) ˆ  Y  Yˆ  (I n  H )Y (2.12) Thỏa mãn X T ˆ  0 và Yˆ T ˆ  0, ( ˆ T X T ˆ  0) Tổng phần dư n  ˆ j 1 2 j (2.13)  ˆ T ˆ  Y T Y  Y T Xˆ (2.14) Từ công thức (2.12), (2.13) và (2.14) ta nhận đƣợc n Y T Y   y 2j  Yˆ T Yˆ  ˆ T ˆ hoặc j 1 n n n j 1 j 1 j 1  y 2j   yˆ 2j   ˆ 2j (2.15) Đẳng thức này gọi là phân tích tổng bình phƣơng. Nó chính là “đẳng thức Pitago” trong không gian Hilbert của các biến ngẫu nhiên bình phƣơng khả tích. 1.2.1. Tính chất ƣớc lƣợng bằng phƣơng pháp bình phƣơng cực tiểu [5] Ƣớc lƣợng ˆ là ƣớc lƣợng không lệch với E ( ˆ )   ; cov( )   2 ( X T X ) 1 (2.16) Phần dƣ ˆ có tính chất ˆ =0 (điều này cũng tƣơng đƣơng với Yˆ  Yˆ T ) E (ˆ )  0; cov(ˆ )   2 ( I  H ) (2.17) 18 n ˆ 2  ˆ T ˆ /(n  k  1)   ˆ 2j /(n  k  1) là ƣớc lƣợng không lệch của ̂ 2 , tức 1 là E (ˆ 2 )  ˆ 2 . ˆ và ˆ là không tƣơng quan cov(ˆ , ˆ )  0; cov(ˆ , ˆ 2 )  0 (2.18) 1.2.2. Định lý Gauss về ƣớc lƣợng bình phƣơng cực tiểu [5] Trong mô hình tuyến tính cổ điển (2.3) và (2.4) các hạng đầy đủ k 1  n thì ƣớc lƣợng cT ˆ  c0 ˆ0  c1ˆ1  ...  ck ˆk (2.19) Của c T   c0  0  ...  c k  k là ƣớc lƣợng không chệch với phƣơng sai bé nhất so với bất kỳ ƣớc lƣợng tuyến tính không lệch dạng a T Y  a1 y1  ...  a n y n Nếu thêm giả thiết rằng  có phân bố chuẩn N n (0,  2 I n ) thì c T ˆ là một ƣớc lƣợng không chệch với phƣơng sai cực tiểu của c T  so với bất kỳ ƣớc lƣợng không chệch nào khác. 1.2.3. Hệ số xác định R [4] Đại lƣợng: Yˆ T Yˆ  n( y ) 2 R   YˆY  n( y ) 2 2  yˆ y n 1 n 1 2 j  n( y ) 2 2 j  n( y ) 2  s y2ˆ s y2 (2.20) Gọi là bình phƣơng của hệ số xác định, đó là tỷ lệ biến thiên của biến y j đƣợc giải thích bởi các biến x j1 ,..., x jk Do đó từ (2.15)  ˆ 2j   y 2j  n( y) 2 1  R 2   ns y2 (1  R 2 ) n  n  1  1  (2.21) Ta nhận đƣợc phƣơng trình để tính sai số bình phƣơng trung bình 1.2.4. Khoảng tin cậy các hệ số hồi quy  i [4] Trong phần này ta xét mô hình hồi quy cổ điển (2.7), (2.8) với giả thiết thêm rằng: các  j cũng phân bố chuẩn N (0,  2 ) và độc lập, tức là   ( 1 ,  2 ,...,  n ) T có phân bố chuẩn N n (0,  2 I n ) 19 Mệnh đề 2.2: 1) ˆ có phân bố chuẩn N k 1 (  ,  2 ( X T X ) 1 ) 2) (n  k  1)ˆ 2   ˆ  n 1  2 2 j 2 có phân bố  2 với n-k-1 bậc tự do 3) ˆ và  2 là độc lập Mệnh đề 2.3: Xét mô hình hồi quy tuyến tính cổ điển Y  X   với X có bậc là k 1  n và  có phân bố chuẩn N n (0,  2 I n ) . Khi đó miền tin cậy đồng thời mức 1   của  xác định bởi (  ˆ )T X T X (  ˆ )  (k  1)ˆ 2 Fk 1,nk 1 ( ) (2.22) Trong đó Fk 1,n  k 1 ( ) là phân vị trên mức  của phân bố F với k+1, n-k-1 bậc tự do. Nói cách khác, với độ tin cậy 1   giá trị  phải nằm trong Elíppsoid ( x  ˆ )T X T X ( x  ˆ )  (k  1)ˆ 2 Fk 1,nk 1 ( ) Hơn nữa khoảng tin cậy đồng thời mức 1   của các  i , i  0  k được xác định bởi các mút: ˆi  Dˆ ( ˆi )( k  1) Fk 1,n  k 1 ( ) (2.23) Trong đó Dˆ (ˆi ) ký hiệu phần tử thứ i trên đường chéo chính của ma trận ˆ 2 ( X T X ) 1 và là ước lượng không chệch của D(ˆi ) Mệnh đề 2.4: Giả sử t       là phân vị trên mức của phân 2 ( k  1 ) 2 ( k  1 )   n  k 1 bố Student với n-k-1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của  i với mức tin cậy 1   cho bởi các đầu mút:    ˆ ˆ  D(  i ) 2 ( k  1 )   ˆi  t nk 1  (2.24) 1.2.5 Kiểm định giả thiết về hệ số hồi quy [4] Xét mô hình hồi quy tuyến tính trong (2.1) Trong khi thiết lập mô hình, ta giả thiết tất cả các biến độc lập X 1 , X 2 ..., X k đều tham gia vào phƣơng trình hồi quy. Song trên thực tế có một số biến độc lập không tham gia vào phƣơng trình hồi quy, 20 tức là các hệ số của nó trong phƣơng trình bằng 0. Tuy nhiên, các giá trị ƣớc lƣợng của nó có thể khác 0. Vậy khi nào các hệ số ƣớc lƣợng đƣợc xem là bằng 0 thực sự? Điều này dẫn ta đến bài toán kiểm định giả thiết: H 0 :  p 1     k  0 (0 - Xem thêm -