Tài liệu Một số thuật toán trong lý thuyết trò chơi

  • Số trang: 46 |
  • Loại file: PDF |
  • Lượt xem: 60 |
  • Lượt tải: 0
tailieuonline

Đã đăng 39799 tài liệu

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KHOA HỌC PHẠM THỊ THU PHƢƠNG MỘT SỐ THUẬT TOÁN TRONG LÝ THUYẾT TRÒ CHƠI Chuyên ngành: TOÁN ỨNG DỤNG Mã số: 60.46.01.12 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC TS. VŨ MẠNH XUÂN THÁI NGUYÊN– 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC MỤC LỤC LỜI CẢM ƠN ................................................................................................... 1 MỞ ĐẦU ........................................................................................................... 2 Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI ...................................... 3 1.1 Xuất xứ .................................................................................................... 3 1.2 Một số bài toán ....................................................................................... 6 1.2.1 Bài toán 1 ......................................................................................... 6 1.2.2 Bài toán 2 ......................................................................................... 8 1.3 Một số khái niệm ................................................................................... 10 Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI ......................................... 14 2.1 Trò chơi ma trận .................................................................................... 14 2.2 Các chiến lƣợc trong trò chơi ma trận................................................... 16 2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận .......................... 16 2.2.2 Các chiến lƣợc hỗn hợp trong trò chơi ma trận ............................ 20 2.2.3 Lý thuyết trò chơi dƣới dạng qui hoạch tuyến tính ........................ 32 2.2.4 Chiến lƣợc từng bƣớc và phƣơng pháp Brown .............................. 37 KẾT LUẬN ..................................................................................................... 43 TÀI LIỆU THAM KHẢO ............................................................................... 44 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 LỜI CẢM ƠN Sau một thời gian nghiên cứu tìm hiểu, em đã hoàn thành Luận văn Thạc sỹ toán học chuyên ngành Toán ứng dụng với đề tài: “Một số thuật toán trong lý thuyết trò chơi”. Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo TS. Vũ Mạnh Xuân đã tận tình hƣớng dẫn em trong suốt quá trình nghiên cứu và thực hiện luận văn. Em cũng xin chân thành cảm ơn Quý thầy cô tham gia giảng dạy,các thầy cô phòng đào tạo và cô Nguyễn Thị Thu Thủy trƣởng khoa Toán Tin trƣờng Đại học Khoa học – Đại học Thái Nguyên đã hƣớng dẫn, truyền đạt kiến thức, tạo mọi điều kiện giúp đỡ cho em trong suốt thời gian theo học và thực hiện luận văn này. Qua việc nghiên cứu và hoàn thành luận văn, em đã có thêm nhiều kiến thức bổ ích trong chuyên môn cũng nhƣ phƣơng pháp luận nghiên cứu khoa học. Trong khuôn khổ của một luận văn, chắc chắn chƣa đáp ứng đƣợc đầy đủ những vấn đề đặt ra. Vì điều kiện nghiên cứu còn hạn chế, nên mặc dù đã cố gắng rất nhiều nhƣng luận văn không tránh khỏi những thiếu sót. Em rất mong nhận đƣợc sự đóng góp ý kiến, phê bình quý báu của các nhà khoa học, các thầy cô và các bạn đồng nghiệp. Một lần nữa em xin chân thành cảm ơn ! Thái Nguyên, tháng 09 năm 2014 Học viên Phạm Thị Thu Phƣơng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 MỞ ĐẦU Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Lý thuyết trò chơi nghiên cứu các quyết định đƣợc đƣa ra trong một môi trƣờng gồm có các đối thủ tƣơng tác với nhau và nghiên cứu cách lựa chọn hành vi tối ƣu khi chi phí và lợi ích của mỗi lựa chọn là không cố định mà phụ thuộc vào lựa chọn của các cá nhân khác. Mặc dù còn là lĩnh vực khá mới mẻ, song lý thuyết trò chơi đƣợc sử dụng trong nhiều ngành khoa học, từ Sinh học, Triết học, khoa học máy tính, kinh tế học... cho đến chính trị, quân sự và văn hóa. Trong các trƣờng đại học, lý thuyết trò chơi mới chủ yếu đƣợc giới thiệu sơ lƣợc với một số ngành thuộc lĩnh vực kinh tế. Mục đích của đề tài này nhằm nghiên cứu khái quát về lý thuyết trò chơi, một số chiến lƣợc trong trò chơi ma trận và minh họa bằng những ví dụ cụ thể. Kết cấu của luận văn ngoài phần mở đầu và kết luận đƣợc chia làm hai chƣơng nhƣ sau: Chƣơng 1: Trình bày sơ lƣợc về lý thuyết trò chơi từ sự ra đời và phát triển cũng nhƣ các lĩnh vực ứng dụng. Một số ví dụ và các khái niệm cơ bản. Chƣơng 2: Trình bày một số thuật toán trò chơi ma trận và minh họa trên những ví dụ cụ thể. Do những hạn chế về thời gian và điều kiện nghiên cứu cũng nhƣ những khó khăn của bản thân nên luận văn chắc chắn còn nhiều khiếm khuyết. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI Chƣơng này trình bày về lý thuyết trò chơi và xuất xứ của nó, các bài toán cũng nhƣ các khái niệm và ứng dụng của lý thuyết trò chơi trong thực tế. Các kiến thức trong chƣơng đƣợc tham khảo và sử dụng trong các tài liệu: Don Ross (2010), Games Theory. Jim Ratliff (1997), Strategic form Games. Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press. 1.1 Xuất xứ Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Việc phân tích các tình huống cạnh tranh có hai mục tiêu. Mục tiêu thứ nhất là tìm hiểu đƣợc tại sao các bên tham gia trò chơi trong các tình huống cạnh tranh đó lại ứng xử nhƣ họ làm. Mục tiêu thứ hai có tính thực dụng hơn là có khả năng gợi ra cho ngƣời chơi cách chơi cách chơi nào tốt nhất. Mục tiêu thứ nhất đặc biệt quan trọng khi trò chơi ở mức rộng, có nhiều ngƣời chơi và có các quy tắc chơi phức tạp. Theo đuổi mục tiêu thứ hai có thể cho phép mô tả cho từng ngƣời chơi một chiến lƣợc tốt nhất mà ngƣời ta có thể chơi. Những thảo luận đầu tiên đƣợc biết đến về lý thuyết trò chơi xuất hiện trong một lá thƣ viết bởi James Waldegrave vào năm 1713. Trong lá thƣ này, Waldegrave đƣa ra lời giải chiến thuật hỗn hợp minimax cho một trò đánh bài hai ngƣời chơi Le Her. Chỉ đến khi sự xuất bản “Nghiên cứu về những Định luật toán học của lý thuyết Tài sản” của Antoine Augustin Cournot vào năm 1838 thì những phân tích chung về lý thuyết trò chơi mới đƣợc theo đuổi. Mặc dù những phân tích của Cournot là tổng quát hơn là của Waldegrave, lý thuyết trò chơi chƣa thật sự tồn tại nhƣ là một ngành duy nhất cho đến khi John von Neumann xuất bản một loạt các bài báo vào năm 1928. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 Những kết quả này sau này đƣợc mở rộng thêm ra trong cuốn sách xuất bản năm 1944 “Lý thuyết trò chơi và các hành vi kinh tế” bởi von Neumann và Oskar Morgenstern. Tác phẩm uyên thâm này chứa đựng phƣơng pháp tìm những lời giải tối ƣu cho những trò chơi tổng bằng không với hai ngƣời chơi. Trong suốt khoảng thời gian này, những tác phẩm về lý thuyết trò chơi chủ yếu tập trung vào lý thuyết các trò chơi hợp tác, phân tích về những chiến thuật tối ƣu cho một nhóm các cá nhân, giả sử rằng họ có thể bảo đảm những thỏa thuận giữ họ với những chiến thuật thích hợp. Vào năm 1950, thảo luận đầu tiên của Prisoner's dilemma xuất hiện, và một thí nghiệm đƣợc làm về trò chơi này tại công ty RAND. Vào khoảng cùng thời gian đó, John Nash phát triển một định nghĩa về một chiến thuật "tối ƣu" cho các trò chơi với nhiều ngƣời chơi, và đƣợc biết đến nhƣ là cân bằng Nash. Cân bằng này là đủ tổng quát, cho phép sự phân tích về trò chơi không hợp tác thêm vào những trò chơi có hợp tác. Lý thuyết trò chơi trải qua một thời gian sôi động trong những năm 1950, trong những năm đó những khái niệm về cốt lõi, dạng trò chơi bao quát, trò chơi giả, trò chơi lặp, và giá trị Shapley đƣợc phát triển. Thêm vào đó, những ứng dụng đầu tiên của lý thuyết trò chơi vào triết học và khoa học chính trị diễn ra trong thời gian này. Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các cân bằng lý tƣởng của các trò chơi con, làm chính xác thêm cân bằng Nash. Vào năm 1967, John Harsanyi phát triển các khái niệm thông tin hoàn toàn và trò chơi Bayesian. Ông ta, cùng với John Nash và Reinhard Selten, đoạt giải thƣởng Nobel về kinh tế vào năm 1994. Trong những năm 1970, lý thuyết trò chơi đƣợc áp dụng rộng rãi vào sinh học, chủ yếu là do kết quả của các công trình của John Maynard Smith và chiến lƣợc tiến hóa bền vững của ông. Thêm vào đó, những khái niệm về Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 cân bằng liên quan, sự hoàn toàn rung tay, và kiến thức chung đƣợc giới thiệu và phân tích. Vào năm 2005, những lý thuyết gia trò chơi Thomas Schelling và Robert Aumann đoạt giải thƣởng Nobel về kinh tế. Schelling là về các mô hình động, các ví dụ ban đầu của lý thuyết tiến hóa trò chơi. Aumann đóng góp thêm vào trƣờng cân bằng (equilibrium school), phát triển một cân bằng làm thô đi những cân bằng liên quan nhau và phát triển các phân tích chi tiết về giả sử của kiến thức chung. Năm 2012, hai ngƣời Mỹ là Alvin Roth và Lloyd Shapley cùng đƣợc trao giải Nobel về kinh tế nhờ những công trình về lý thuyết phân phối ổn định và thực tiễn tạo lập thị trƣờng, trên cơ sở sử dụng lý thuyết trò chơi và thực nghiệm. Ngày nay, trong cuộc sống của chúng ta có rất nhiều ví dụ liên quan đến áp dụng lý thuyết trò chơi nhƣ: - Chơi cờ, chơi bài, đánh bạc hoặc chơi xổ số khi nghiên cứu tần số xuất hiện các con số. - Thi đấu thể thao - Chiến thuật, chiến lƣợc quân sự - Cạnh tranh kinh tế của các doanh nghiệp với nhau hoặc chiến lƣợc sản xuất khi nghiên cứu thị trƣờng tiêu thụ. - Cạnh tranh với thời tiết và nói chung với thiên nhiên trong sản xuất nông nghiệp nói riêng hay trong nền kinh tế nói chung. - Phƣơng án vận chuyển trên các tuyến đƣờng trong tình thế khẩn cấp với thời tiết thay đổi. vvv.... Từ đây ta có thể thấy rằng, lý thuyết trò chơi giờ đây đã đƣợc ứng dụng rộng khắp trong tất cả các lĩnh vực từ văn hóa, chính trị, quân sự, kinh tế cho đến nhiều ngành khác.. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 1.2 Một số bài toán 1.2.1 Bài toán 1 Bài toán trò chơi qua sông: Giả sử bạn muốn đi ngang qua một con sông và ở đó có ba chiếc cầu (Giả sử việc bơi, lội, đi thuyền đều không thể đƣợc). Chiếc cầu đầu tiên an toàn và không có trở ngại gì. Chiếc cầu thứ hai nằm dƣới chân một mỏm đá trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì có những con rắn hổ mang rất độc sống ở đó. Giả sử bạn là ngƣời trốn chạy và một ngƣời có một khẩu súng đang đợi bạn một bên bờ sông. Hắn ta sẽ đuổi kịp, và bắn bạn, chúng ta giả định nhƣ vậy, nếu chỉ khi hắn ta đợi ở chiếc cầu an toàn mà bạn cố vƣợt qua. Vấn đề đặt ra là bạn sẽ chọn cho mình chiếc cầu nào để vƣợt qua sông? Bài toán này bạn nhận ra rằng: bạn phải chọn lối đi nào an toàn nhất cho mình sao cho tránh đƣợc các chƣớng ngại vật cũng nhƣ tránh đƣợc ngƣời truy đuổi. Dƣờng nhƣ bạn đã bị rơi vào một cái bẫy tình huống không thể quyết định đƣợc. Toàn bộ những gì an ủi bạn chỉ là: ở bờ sông bên kia ngƣời săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định đƣợc nên đợi ở cây cầu nào,vì ngay khi hắn ta hình dung phải đợi ở cây cầu này thì hắn ta lại nhận ra rằng nếu hắn ta có thể tìm ra một lý do tốt hơn để chọn đƣợc một cây cầu, thì bạn có thể đoán trƣớc đƣợc đúng cái lý do đó và để rồi lại tránh hắn ta. Vì trong trò chơi này cả ngƣời chạy trốn lẫn kẻ truy đuổi đều chỉ có một vận động và mỗi ngƣời lựa chọn vận động của họ mà không hề biết ngƣời kia lựa chọn vận động nào. Ba chiến lƣợc của ngƣời chạy – qua chiếc cầu an toàn, những tảng đá có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma trận. Tƣơng tự nhƣ vậy ba chiến lƣợc của ngƣời săn đuổi - đợi ở chiếc cầu an toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 cột của ma trận. Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của chúng ta hoàn thiện – một kết quả đƣợc xác định trong khuôn khổ những khoản được trả của ngƣời chơi. Một khoản đƣợc trả của ngƣời chơi đơn giản là một con số đƣợc ấn định bởi hàm tiện ích thứ tự của ngƣời săn đuổi cho hiện trạng của các sự kiện phù hợp với kết quả. Đối với mỗi kết quả, khoản đƣợc trả của Hàng luôn luôn đƣợc kê trƣớc hết, sau đó đến khoản đƣợc trả của Cột. Vì vậy chẳng hạn nhƣ góc trái ở trên cùng cho thấy rằng khi ngƣời chạy trốn đi qua chiếc cầu an toàn còn ngƣời săn đuổi cũng đang chờ ở đó thì ngƣời chạy trốn nhận đƣợc một khoản đƣợc trả bằng 0, và ngƣời săn đuổi nhận đƣợc khoản đƣợc trả bằng 1. Chúng ta lý giải điều này bằng cách qui chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản. Nếu ngƣời chạy trốn qua sông đƣợc an toàn thì anh ta nhận đƣợc một khoản đƣợc trả là 1; nếu không an toàn thì anh ta đƣợc 0. Nếu ngƣời chạy trốn không thực hiện đƣợc vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì ngƣời săn đuổi nhận đƣợc khoản đƣợc trả là 1 và ngƣời chạy trốn là 0. Bất cứ khi nào ngƣời săn đuổi đợi ở chiếc cầu mà ngƣời chạy trốn lựa chọn thì ngƣời chạy trốn sẽ bị bắn. Tất cả những kết quả này tạo ra vector của khoản đƣợc trả là (0, 1). Bạn có thể tìm ra chúng bằng cách vạch chéo xuống qua ma trận từ góc phía trên bên trái xuống. Bất cứ khi nào mà ngƣời bỏ trốn chọn chiếc cầu an toàn nhƣng ngƣời săn đuổi lại đợi ở chỗ khác thì ngƣời chạy trốn qua sông đƣợc an toàn, bằng cách nhận đƣợc khoản đƣợc trả theo vector (1, 0). Hai kết quả này đƣợc chỉ rõ trong hai ô thứ hai của hàng đầu. Đến lúc này toàn bộ những ô còn lại đƣợc đánh dấu bằng dấu hỏi. Tại sao? Vấn đề ở đây là nếu ngƣời bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây cầu có rắn hổ mang thì anh ta đã đƣa các yếu tố tham số vào trò chơi. Trong những trƣờng hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra vector khoản đƣợc trả là (0,1), có nghĩa là độc lập với bất cứ cái gì ngƣời săn Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 đuổi làm. Vậy thì ta có thể minh họa những phân tích ở trên bởi ma trận của trò chơi nhƣ sau: Ngƣời săn Cầu an toàn Cầu có đá rơi Cầu có rắn hổ mang Kẻ chạy trốn Cầu an toàn 0,1 1,0 1,0 Cầu có đá rơi ? 0,1 ? Cầu có rắn hổ mang ? ? 0,1 1.2.2 Bài toán 2 Bài toán tình thế lƣỡng nan của ngƣời tù: Có hai ngƣời tù A và B bị bắt vì tội cƣớp của. Cảnh sát cách ly A và B để chúng không thể liên lạc, thông đồng với nhau. Cảnh sát yêu cầu chúng thành thật khai báo nhận tội, và đƣa ra điều kiện: Nếu anh ta nhận tội và khai báo ngƣời kia thì sẽ chỉ bị 2 năm tù trong trƣờng hợp ngƣời kia không nhận tội, và 5 năm tù nếu ngƣời kia cũng nhận tội. Mặt khác, nếu anh ta không nhận tội mà ngƣời kia nhận tội thì anh ta sẽ bị 10 năm tù. Cuối cùng nếu cả hai không nhận tội thì cả hai sẽ chỉ bị 2 năm tù. Bài toán này có thể tóm tắt ở bảng sau: Tù nhân A không nhận tội Tù nhân A nhận tội Tù nhân B không nhận tội Tù nhân B nhận tội Cả hai bị 2 năm tù B - 10 năm tù A - 1 năm tù B - 1 năm tù, A - 10 năm tù Cả hai bị 5 năm tù Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 Bài toán này có hai ngƣời tham gia là A và B. Hai ngƣời bị cách ly nên ngƣời này không biết ngƣời kia chọn điều gì (nhận tội hay không). Vì vậy tình huống là rất khó xử, nhƣ tên gọi của bài toán. Ta có thể thấy rằng, ở địa vị A (hoặc B) đều có thể suy nghĩ nếu nhận tội thì có thể chỉ bị 1 năm tù khi mà B (hoặc A) không nhận tội, còn B (hoặc A) sẽ chịu 10 năm tù; còn nếu B (hoặc A) cũng thú tội thì bị 5 năm tù. Ý nghĩ này xuất phát từ mong muốn ích kỷ sao cho mình có thể bị tù ít nhất nên nhận tội và đào ngũ với bạn. Trƣờng hợp đào ngũ khiến tổng thời gian tù của cả hai sẽ là 11 năm (trong có kẻ ích kỷ chỉ chịu 1 năm), hoặc là 10 năm (nếu cả hai cùng suy nghĩ ích kỷ nhƣ nhau) nhiều hơn là khi không nhận tội (hợp tác với nhau) sẽ cùng bị 2 năm tù, tổng cộng chung cả hai là 4 năm. Nhƣ vậy cả A và B đều chỉ có hai chiến lƣợc là hợp tác và đào ngũ. Ta có thể lập ma trận thƣởng - phạt (payoff) nhƣ sau: Hợp tác Đào ngũ Hợp tác 2, 2 10, 1 Đào ngũ 1, 10 5, 5 Qua ma trận trên, chúng ta nhận thấy là nếu cả hai chọn chiến lƣợc hợp tác thì tổng số thiệt hại là nhỏ nhất (2+2=4 năm tù) - ô 1.1 của ma trận trên. Còn nếu cả hai cùng chọn chiến lƣợc đào ngũ (không hợp tác) thì tổng số thiệt hại lên tới 10 năm tù (ô 2.2, 5+5=10). Một khi chỉ có một bên chọn chiến lƣợc hợp tác, thì tổng số thiệt hại chung lên tới 11 năm tù (ô 1.2 và 2.1) trong đó anh bạn phản bội hƣởng lợi chỉ bị 1 năm tù, còn ngƣời kia chịu tới 10 năm tù. Trên đây chúng ta chỉ xét bài toán kết thúc sau một bƣớc đi. Ngƣời ta đã mở rộng bài toán này bằng cách cho ngƣời chơi thực hiện nhiều bƣớc đi và gọi là bài toán tình thế lƣỡng nan của tù nhân lặp lại. Ngƣời chơi cũng chỉ có Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 2 chiến lƣợc là hợp tác và mỗi bƣớc đi của mình. Bài toán mở rộng này đƣợc Robert Axelrod khảo sát bài toán này và trình bày trong tác phẩm “Sự tiến hóa của sự hợp tác” (1984) ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo những . Nhiều chƣơng trình máy tính với các chiến thuật rất khác nhau với độ phức tạp khác nhau của thuật toán, mức độ thù địch ban đầu, và khả năng tha thứ… đƣợc gửi tới ông. Sau một thời gian dài với nhiều ngƣời tham gia cuộc đấu này, kết quả là những chiến thuật tham lam (đào ngũ) có kết quả thấp hơn các chiến thuật vị tha (hợp tác). Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol Rapoport xây dựng. Chiến thuật này là: bƣớc đi đầu tiên là hợp tác, sau đó chỉ làm theo đối thủ trong các bƣớc sau, nghĩa là nếu đối thủ đào ngũ thì mình cũng đào ngũ, còn hợp tác thì mình cũng hợp tác. Axelrod kết luận rằng “ăn miếng trả miếng” là một chiến thuật đẹp, nó bắt đầu bằng sự hợp tác, và chỉ đào ngũ nếu đối thủ không hợp tác (đào ngũ). Vì có nhiều tiếp theo nên ngƣời chơi có thể phản ứng lại ngay và trừng phạt đối thủ. 1.3 Một số khái niệm Lý thuyết trò chơi là lý thuyết toán học mô tả và giải quyết các tình thế đối kháng. Với mỗi “ cuộc chơi ” có thể là: - Cuộc chơi giữa hai đối thủ ( trò chơi đôi ) - Cuộc chơi giữa n đối thủ ( trò chơi tập thể ) - Cuộc chơi có vô số đối thủ Hơn nữa, mỗi cuộc chơi đều có thể là: - Cuộc chơi đối kháng khi quyền lợi giữa các bên tham gia hoàn toàn trái ngƣợc nhau, thắng lợi của mỗi ngƣời dẫn tới tổn thất của ít nhất một ngƣời khác. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 11 - Cuộc chơi không hoàng toàn đối kháng, nếu một nhóm trong số những ngƣời chơi có lợi ích chung ngoài lợi ích riêng. Đƣơng nhiên là trong mỗi bƣớc đi và trong suốt quá trình chơi mỗi bên tham gia đều có thể nhận đƣợc những tổn thất và thắng lợi nào đó. Vì vậy trong quá trình chơi mỗi bên tham gia đều tìm cách sao cho: - Thắng lợi về phía mình lớn nhất. - Tổn thất về phía đối phƣơng lớn nhất ( trong trò chơi hoàn toàn đối kháng ), hoặc tổn thất về phía mình nhỏ nhất (cả trong đối kháng và không đối kháng). Nền kinh tế thị trƣờng có điều tiết của Nhà nƣớc là một ví dụ về mô hình của lý thuyết trò chơi không hoàn toàn đối kháng giữa nhiều bên tham gia, trong đó mỗi bên ngoài việc cực đại hóa lợi ích của mình còn có trách nhiệm ( tự nhiên hoặc cƣỡng chế bằng hệ thống chính sách, luật pháp, thuế khóa, trợ giá...) nâng cao lợi ích cộng đồng. Trong lý thuyết trò chơi ngƣời ta sử dụng một số thuật ngữ sau: Trò chơi liên hiệp: Là trò chơi mà trong đó hành động của những ngƣời chơi hƣớng tới cực đại hóa lợi ích (thắng lợi) của tập thể (liên hiệp), không tính đến việc phân tích thắng lợi giữa những ngƣời tham gia. Trò chơi không liên hiệp: Là trò chơi mà mục đích của mỗi thành viên là thu về cho bản thân thắng lợi càng lớn càng tốt. Với tƣ cách là ví dụ về trò chơi không liên hiệp có thể xét nền kinh tế thị trƣờng hoàn toàn tự phát, tự điều tiết theo quan điểm kinh tế tân – cổ điển. Chiến lƣợc của ngƣời chơi: Là một tập hợp các quy tắc, các chọn lựa đƣợc xác định duy nhất trong hành vì của ngƣời chơi ở mỗi bƣớc chơi, phụ thuộc vào mỗi trạng thái xảy ra trong quá trình chơi. Cũng có thể nói rằng nó phụ thuộc vào kết quả ở mỗi bƣớc do hành vi của đối phƣơng gây ra. Tùy thuộc vào số lƣợng các chiến lƣợc có thể mà trò chơi phân thành: - Trò chơi hữu hạn bƣớc ( nếu chỉ có một số hữu hạn chiến lƣợc ) - Trò chơi vô hạn bƣớc. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 12 Giả sử có I ngƣời tham gia trò chơi. Gọi Ti ; i = 1, I ; là tập hợp mọi chiến lƣợc có thể có của ngƣời chơi thứ i. Khi đó quá trình chơi đƣợc thể hiện ở chỗ ngƣời chơi thứ i chọn cho mình một chiến lƣợc t i Ti trong cả quá trình chơi. Kết quả là đạt đƣợc một trạng thái s, do đó ngƣời chơi i thu đƣợc thành quả ( lợi ích ) H i (s) . Trò chơi cũng có thể đƣợc tiến hành theo nhiều bƣớc, mà ở bƣớc j ngƣời chơi i áp dụng chiến lƣợc t ij Ti . Do xảy ra trạng thái s j ở bƣớc đó mà ngƣời chơi i thu đƣợc thành quả Hi (s j ) , và lại áp dụng chiến lƣợc t i. j+1 Ti ở bƣớc (j+1). Khi đó tổng hợp thành quả của ngƣời chơi i tại mọi bƣớc cho đến khi kết thúc quá trình chơi hoặc cho đến một bƣớc nào đó sẽ là thành quả của ngƣời đó trong suốt quá trình chơi. Với các ký hiệu đã cho thì trò chơi không liên hiệp là tập: L I ; T1 , T2 ,..., TI ; H1 , H 2 ,..., H I Trong đó I và Ti (i = 1, 2,..., I) là những tập hữu hạn hoặc vô hạn, còn Hi (i = 1, I) là hàm trên tập T I t i nhận những giá trị thực. Nói cách khác, H i i 1 là thành quả thu đƣợc của ngƣời i ( i I ) do kết quả áp dụng “đồng thời” chiến lƣợc của mọi ngƣời chơi ở mỗi bƣớc trong cả cuộc chơi. Trạng thái chấp nhận đƣợc: Trạng thái s trong trò chơi gọi là chấp nhận đƣợc đối với ngƣời chơi i, nếu trong trạng thái đó ngƣời chơi i có đổi chiến lƣợc t i của mình bằng bất cứ chiến lƣợc t i' nào khác (tất nhiên t i , t i' Ti ) cũng không làm tăng thêm thắng lợi bản thân. Trạng thái cân bằng: Trạng thái s đƣợc gọi là trạng thái cân bằng, nếu nó là trạng thái chấp nhận đƣợc đối với mọi ngƣời chơi. Khái niệm trạng thái cân bằng trong lý thuyết trò chơi có ý nghĩa gần tƣơng tự với điểm Pareto trong kinh tế thị trƣờng (hiệu quả Pareto xảy ra trong một phân bố xác định tài nguyên hoặc lợi ích giữa các thành viên, mà Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 13 bất cứ một thành viên nào trong đó muốn tăng thêm lợi ích cho mình – tức là thay đổi phân bố đã có, đều làm giảm lợi ích của ít nhất một thành viên khác). Ở đây trạng thái cân bằng là trạng thái mà nếu thay đổi nó đi một chút cũng đều làm giảm thẳng lợi bản thân chấp nhận đƣợc của ít nhất một ngƣời chơi. Trong trò chơi không liên hiệp thì quá trình giải trò chơi chính là quá trình tìm trạng thái cân bằng. Trò chơi với tổng là hằng số: Trò chơi không liên hiệp gọi là trò chơi với tổng là hằng số, nếu tồn tại một hằng số C sao cho: I Hi (s) = C (1.1) i=1 với mọi trạng thái s S ( S là tập mọi trạng thái có thể xảy ra). Chẳng hạn, gọi I là tập hợp doanh nghiệp và C là mức thuế ấn định của Nhà nƣớc trong một kỳ ngân sách thì ta có một trò chơi với tổng hằng, dù trò chơi là liên hiệp hay không liên hiệp. Trò chơi với tổng không: Là trò chơi với tổng hằng mà C=0 (ở đây ta xét trò chơi đôi tức 2 đối thủ ) Trò chơi đôi với tổng 0 là trò chơi mà nếu ngƣời này thắng bao nhiêu thì ngƣời kia thua bấy nhiêu trong mỗi ván chơi. Chiến lƣợc thuần túy: Là chiến lƣợc xác định riêng biệt và ngƣời chơi có thể chọn với xác suất bằng 1. Nếu Ti là tập hợp mọi chiến lƣợc có thể của ngƣời chơi i thì mỗi chiến lƣợc riêng biệt trong đó là một chiến lƣợc thuần túy. Chiến lƣợc hỗn hợp: Là chiến lƣợc trong đó kết hợp một số chiến lƣợc thuần túy mà mỗi chiến lƣợc thuần túy này xuất hiện đƣợc sử dụng với một tần suất ( xác suất ) nào đó. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 14 Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI Chƣơng này trình bày về trò chơi ma trận và các thuật toán trong trò chơi ma trận. Các kiến thức trong chƣơng đƣợc tham khảo và trích dẫn trong cuốn: Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh tế, NXB Khoa học và kỹ thuật. Bierman, H. S. and L. Fernandez (1998), Game Theory with economic applications, Addison-Wesley. 2.1 Trò chơi ma trận Trò chơi đôi với tổng 0 gọi là trò chơi ma trận nếu mỗi ngƣời chơi đều có một số hữu hạn chiến lƣợc thuần túy. Xét bài toán có hai ngƣời chơi, giả sử ngƣời chơi thứ nhất có m chiến lƣợc thuần túy, còn ngƣời chơi thứ hai có n chiến lƣợc thuần túy. Từ đó hình thức trò chơi đôi với tổng 0, trong đó có m chiến lƣợc thuần túy của ngƣời chơi thứ nhất và n chiến lƣợc thuần túy của ngƣời chơi thứ hai đƣợc cho bởi ma trận: a11a12 ........ a1n A a21a22 ........ a2 n ....................... am1am 2 ....... amn Trong đó aij là biểu thị thắng lợi của ngƣời chơi thứ nhất ( tƣơng ứng đó là tổn thất của ngƣời chơi thứ hai ), nếu ngƣời chơi thứ nhất chọn chiến lƣợc thuần túy i, còn ngƣời chơi thứ hai chọn chiến lƣợc thuần túy j. Ma trận A gọi là ma trận trò chơi hay ma trận thanh toán nghĩa là với kết quả thực hiện chiến lƣợc i của ngƣời chơi thứ nhất và chiến lƣợc j của ngƣời chơi thứ hai thì ngƣời thứ hai phải “trả” cho ngƣời thứ nhất aij . Cũng có thể gọi A là ma trận thắng của ngƣời thứ nhất, do đó là ma trận thua của ngƣời thứ hai. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 15 Đƣơng nhiên các thuật ngữ “thắng lợi”, “tổn thất” và “trả” ở đây chuyển sang nghĩa thông thƣờng nhƣ sau: - Nếu aij > 0 thì “thắng lợi” đó là thắng lợi thật của ngƣời 1, tức là đƣợc thêm aij . - Nếu aij < 0 thì “thắng lợi” của ngƣời 1 đồng nghĩa với ngƣời 1 phải trả cho ngƣời 2 một lƣợng aij Mục đích của mỗi ngƣời chơi là cực đại hóa thắng lợi của mình. Muốn vậy, mỗi ngƣời chơi đều cần tìm xem thắng lợi đảm bảo của mỗi chiến lƣợc (trong tập hợp mọi chiến lƣợc có thể có của mình) bằng bao nhiêu, do đó áp dụng chiến lƣợc nào thì thắng lợi đảm bảo lớn nhất. Vì vậy nội dung đặt ra của bài toán trò chơi là tìm trạng thái cân bằng. Nếu một đối thủ áp dụng chiến lƣợc nhằm đạt trạng thái cân bằng, mà đối thủ kia áp dụng chiến lƣợc không nhằm đạt trạng thái đó thì tổn thất của ngƣời sau sẽ tăng lên. Trong một số trƣờng hợp trò chơi đôi với tổng hằng số C 0 vẫn có thể là trò chơi ma trận. Chẳng hạn trò chơi với quy ƣớc: - Ngƣời chơi thứ nhất phải nộp C nếu aij > 0 khi ngƣời thứ nhất dụng chiến lƣợc i còn ngƣời thứ hai sử dụng chiến lƣợc j (thông thƣờng phải có aij > C). - Ngƣời thứ hai phải nộp C nếu aij < 0 Nhƣ vậy nếu aij > 0 thì ngƣời thứ hai phải thanh toán aij nhƣng ngƣời thứ nhất chỉ đƣợc hƣởng aij - C, còn nếu aij < 0 thì ngƣời thứ nhất tổn thất a ij và ngƣời thứ hai đƣợc lợi Số hóa bởi Trung tâm Học liệu aij C . http://www.lrc-tnu.edu.vn/ 16 2.2 Các chiến lƣợc trong trò chơi ma trận 2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận - Chiến lược maximin của người chơi thứ nhất Thắng lợi đảm bảo (thắng lợi thấp nhất ) của ngƣời chơi thứ nhất khi chọn chiến lƣợc i là: min aij i 1 j n Ngƣời chơi thứ nhất, nếu không “mạo hiểm”, cần tìm trong các chiến lƣợc có thể có của mình chiến lƣợc nào mà thắng lợi đảm bảo lớn nhất. Đại lƣợng: v max max i 1 i m 1 i m min aij gọi là giá dƣới của trò chơi 1 j n Chiến lƣợc thuần túy i0 mà với nó: i0 v max i 1 i m gọi là chiến lƣợc maximin của ngƣời chơi thứ nhất. - Chiến lược minimax của người chơi thứ hai Đối lại với chiến lƣợc của ngƣời chơi thứ nhất (tìm chiến lƣợc cực đại hóa thắng lợi thấp nhất ) ngƣời chơi thứ hai trƣớc hết tìm xem nếu sử dụng chiến lƣợc j; j = 1, n ; thì tổn thất lớn nhất bằng bao nhiêu, nếu ngƣời thứ nhất có thể dùng bất cứ chiến lƣợc nào trong m chiến lƣợc có thể có, tức là tìm: j max aij 1 i m Hợp lý nhất là ngƣời thứ hai áp dụng chiến lƣợc nhằm cực tiểu hóa tổn thất lớn nhất của mình (tƣơng ứng với thắng lợi nhất của đối phƣơng), tức là trong mọi chiến lƣợc j 1, n , tìm chiến lƣợc j0 mà: v j0 min 1 j n j min 1 j n max aij 1 i m Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 17 Đại lƣợng v j0 gọi là giá trên của trò chơi Chiến lƣợc thuần túy j0 mà nhờ nó đạt đƣợc v gọi là chiến lƣợc minimax của ngƣời chơi thứ hai. Nếu v v v thì trò chơi có điểm yên ngựa trong các chiến lƣợc thuần túy, và số v đƣợc gọi là giá hay giá trị của trò chơi. Nhƣ vậy, trò chơi ma trận có điểm yên ngựa trong các chiến lƣợc thuần túy khi và chỉ khi tồn tại phần tử ai j vừa là số nhỏ nhất trong dòng i0 vừa là 0 0 số lớn nhất trong cột j0 , tức là: aij0 ai0 j0 ai0 j (*) Mọi cặp (i 0 , j0 ) tức là mọi ô (i 0 , j0 ) trong ma trận có tính chất (*) đƣợc gọi là các điểm yên ngựa. Ví dụ: Ta xét bài toán thực tiễn trong nông nghiệp nhƣ sau: Ở một vùng nào đó có thể trồng ba giống cây A1 , A 2 , A 3 ; mà năng suất bình quân của mỗi giống đều phụ thuộc vào thời tiết (chẳng hạn khô hạn, bình thƣờng và mƣa nhiều). Cần xác định xem phƣơng thức gieo trồng nào cho giá trị tổng sản lƣợng đảm bảo lớn nhất, biết rằng đơn giá 1 tấn sản phẩm A i là p i ; i 1,3 Ta có thể đƣa ra mô hình toán học của bài toán nhƣ sau: Với ngƣời nông dân ( ngƣời chơi thứ nhất ) có ba chiến lƣợc thuần túy là A1 , A 2 và A 3 . Đối thủ của ngƣời nông dân là thời tiết ( ngƣời chơi thứ hai ) cũng có ba chiến lƣợc thuần túy: khô hạn, bình thƣờng, mƣa nhiều. Gọi t ij là năng suất cây trồng i với điều kiện thời tiết j; i, j = 1,2,3, với tƣ cách là thắng lợi của ngƣời chơi thứ nhất ta lấy giá trị sản lƣợng trên 1 đơn vị Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 18 diện tích của ngƣời nông dân khi thu hoạch, thì ma trận trò chơi (ma trận hàm thu nhập của ngƣời nông dân) là: p1t11 p1t12 A = p 2 t 21 p 2 t 22 p1t13 p 2 t 23 p3 t 31 p3 t 33 p3 t 32 Bài toán thực tiễn trong thƣơng nghiệp: Một nhu yếu phẩm có n kiểu mẫu mã. Bài toán đặt ra với một cửa hàng thƣơng nghiệp là nhập kiểu nào thì hợp lý nhất theo nghĩa sau: nếu hàng hóa kiểu j; j = 1, n ; đƣợc tiêu thụ thì cửa hàng bán nó đƣợc lại p j ; nếu không bán đƣợc thì cửa hàng tổn thất q j do chi phí bảo quản và tiền mua buôn (ở đây để đơn giản ta chỉ xét trên một đơn vị nhu yếu phẩm) Mô hình toán học của bài toán: Trong điều kiện nhu cầu và thị hiếu của ngƣời tiêu dùng không đƣợc xác định thì cuộc đụng độ giữa các kiểu hàng nhập vào cửa hàng tạo thành một trò chơi mà ngƣời chơi thứ nhất là cửa hàng và ngƣời chơi thứ hai là thị hiếu khách hàng. Mỗi ngƣời chơi đều có n chiến lƣợc thuần túy; - Chiến lƣợc i của ngƣời chơi thứ nhất là nhập hàng kiểu i; i = 1, n . - Chiến lƣợc j của ngƣời chơi thứ hai (thị trƣờng) là tiêu thụ hàng hóa kiểu j; j = 1, n . Ma trận thắng lợi của cửa hàng là: p1 A q2 q1 .......... q1 p2 .......... q2 ..................................... qn qn .......... pn Từ bài toán tổng quát trên ta xét ma trận sau: Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Xem thêm -