Đăng ký Đăng nhập
Trang chủ Luận văn thạc sĩgiải pháp hiệu quả độ tin cậy hệ thống tình nguyện...

Tài liệu Luận văn thạc sĩgiải pháp hiệu quả độ tin cậy hệ thống tình nguyện

.PDF
76
233
88

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- LUẬN VĂN THẠC SĨ KHOA HỌC GIẢI PHÁP NÂNG CAO HIỆU QUẢ CỦA GIẢN ĐỒ LẬP LỊCH DỰA TRÊN ĐỘ TIN CẬY TRONG CÁC HỆ THỐNG TÍNH TOÁN TÌNH NGUYỆN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: ……………………………… Nguyễn Quang Hòa Người hướng dẫn khoa học: TS. NGÔ HỒNG SƠN Hà Nội – 2008 1 LỜI CAM ĐOAN Tôi xin cam đoan bản Luận văn này là công trình nghiên cứu của riêng tôi. Các dữ liệu và kết quả nêu trong Luận văn là hoàn toàn trung thực và có nguồn gốc rõ ràng. TÁC GIẢ (Ký tên) Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 2 Chương 1. LỜI CẢM ƠN Trước hết, tôi xin được chân thành cảm ơn TS. Ngô Hồng Sơn đã tận tình hướng dẫn, cung cấp tài liệu và kiến thức cần thiết giúp tôi hoàn thành Luận văn tốt nghiệp này. Tôi xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô giáo trong Khoa Công nghệ thông tin cũng như các thầy, cô giáo trong trường Đại học Bách Khoa Hà Nội đã truyền đạt cho tôi những kiến thức quan trọng trong suốt thời gian tôi học tập và nghiên cứu tại trường. Cuối cùng, tôi xin được nói lời cảm ơn đến gia đình và bạn bè, những người luôn ở bên tôi, cổ vũ và động viên tôi trong suốt thời gian học tập và làm luận văn tốt nghiệp. Trong quá trình hoàn thành luận văn, do còn thiếu kinh nghiệm, sự ràng buộc về thời gian và sự hạn chế về kiến thức nên chắc chắn không tránh khỏi những thiếu sót. Vì vậy tôi rất mong nhận được sự đóng góp ý kiến và giúp đỡ của các thầy, các cô và các bạn. Hà Nội, ngày 20 tháng 11 năm 2008 Người thực hiện luận văn Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 3 MỤC LỤC LỜI CAM ĐOAN .......................................................................................................1 LỜI CẢM ƠN .............................................................................................................2 MỤC LỤC...................................................................................................................3 DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ...............................................................5 MỞ ĐẦU.....................................................................................................................6 Chương 1. TỔNG QUAN .....................................................................................8 1.1 Tính toán lưới ................................................................................................8 1.2 Tính toán ngang hàng ..................................................................................12 1.3 Tính toán tình nguyện..................................................................................14 1.3.1 Khái niệm..............................................................................................14 1.3.2 BOINC ..................................................................................................15 1.3.2.1 Khái niệm.......................................................................................15 1.3.2.2 Các đặc trưng cơ bản của BOINC [23]..........................................16 1.3.2.3 Kiến trúc BOINC ...........................................................................18 1.3.3 Lập lịch trong tính toán tình nguyện.....................................................19 1.3.3.1 Lập lịch phía máy trạm ..................................................................20 1.3.3.2 Lập lịch phía máy chủ....................................................................20 1.3.3.3 Lập lịch chịu lỗi dựa trên độ tin cậy ..............................................21 1.3.4 So sánh với tính toán lưới và tính toán ngang hàng .............................23 1.3.4.1 Tính toán lưới.................................................................................23 1.3.4.2 Tính toán ngang hàng.....................................................................23 Chương 2. LÝ THUYẾT CƠ BẢN VỀ LẬP LỊCH DỰA TRÊN ĐỘ TIN CẬY 25 2.1 Mô hình cơ bản và các giả định...................................................................25 Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 4 2.2 Các kĩ thuật chịu lỗi truyền thống. ..............................................................28 2.2.1 Biểu quyết theo số đông........................................................................29 2.2.2 Kiểm tra điểm .......................................................................................30 2.3 2.2.2.1 Kiểm tra điểm dùng danh sách đen................................................31 2.2.2.2 Kiểm tra điểm không dùng danh sách đen.....................................32 Chịu lỗi dựa trên độ tin cậy .........................................................................33 2.3.1 Tổng quan .............................................................................................33 2.3.2 Tính toán độ tin cậy ..............................................................................35 2.3.3 Ứng dụng sự tin cậy..............................................................................36 2.4 2.3.3.1 Kết hợp biểu quyết và kiểm tra điểm.............................................36 2.3.3.2 Kiểm tra điểm bằng biểu quyết......................................................37 Khảo sát một số giản đồ lập lịch. ................................................................38 2.4.1 Lập lịch Round Robin...........................................................................39 2.4.2 Lập lịch Round Robin dựa trên sự ưu tiên về khả năng tính toán ........41 Chương 3. GIẢN ĐỒ LẬP LỊCH ROUND ROBIN DỰA TRÊN ĐỘ TIN CẬY 44 3.1 Giản đồ lập lịch Round Robin dựa trên sự ưu tiên về độ tin cậy ................44 3.2 Giản đồ lập lịch Round Robin dựa trên kiểm thử độ tin cậy.......................55 Chương 4. KẾT QUẢ THỰC NGHIỆM ............................................................65 4.1 Chương trình mô phỏng...............................................................................65 4.2 Kịch bản mô phỏng......................................................................................65 4.3 Kết quả.........................................................................................................66 Chương 5. KẾT LUẬN .......................................................................................72 5.1 Những kết quả đạt được...............................................................................72 5.2 Những công việc chưa làm được.................................................................72 Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 5 5.3 Hướng phát triển trong tương lai.................................................................73 TÀI LIỆU THAM KHẢO.........................................................................................74 DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1-1. Minh họa về tính toán lưới..........................................................................9 Hình 1-2. Tổ chức ảo.................................................................................................11 Hình 1-3. Mô hình mạng ngang hàng .......................................................................12 Hình 1-4. Mô hình tính toán tình nguyện..................................................................15 Hình 1-5. Mô hình cơ bản của BOINC .....................................................................16 Hình 1-6. Kiến trúc BOINC ......................................................................................18 Hình 1-7. Sự tương tác giữa máy trạm và máy chủ ..................................................19 Hình 2-1. Mô hình chủ khách ...................................................................................26 Hình 2-2. Hàng đợi công việc lập lịch tham lam với biểu quyết m đầu tiên ............28 Hình 2-3. Tỉ lệ lỗi của biểu quyết số đông với nhiều các giá trị m và f [8] ..............30 Hình 2-4. Hàng đợi công việc lập lịch tham lam nâng cao độ tin cậy [8] ................33 Hình 3-1. Mô tả hệ thống tính toán tình nguyện.......................................................45 Hình 3-2. Sơ đồ hình vẽ các bước của giản đồ lập lịch Round Robin dựa trên sự ưu tiên về độ tin cậy .......................................................................................................46 Hình 3-3. Sơ đồ hình vẽ các bước của giản đồ lập lịch kiểm thử dựa trên độ tin cậy ...................................................................................................................................57 Hình 4-1. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.25,N >P67 Hình 4-2. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.5,N >P..68 Hình 4-3 Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.75,N >P.68 Hình 4-4. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 1,N >P.....69 Hình 4-5. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.25,N< P69 Hình 4-6. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.5,N< P..70 Hình 4-7. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 0.75,N< P70 Hình 4-8. Biểu đồ so sánh sự chậm chễ của các giản đồ lập lịch với s= 1,N< P.....71 Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 6 MỞ ĐẦU Tính toán tình nguyện là một mô hình tính toán song song hấp dẫn để xây dựng lên các hệ thống tính toán có phạm vi rộng lớn từ số lượng lớn các máy tính tình nguyện trên mạng. Trong những năm gần đây, đã có sự quan tâm tăng lên và nhanh chóng trong các hệ thống tính toán tình nguyện. Hệ thống tính toán tình nguyện cho phép người sử dụng từ bất cứ nơi nào trên mạng, đóng góp thời gian tính toán nhàn rỗi của máy tính để hướng vào giải quyết các bài toán có thời gian tính toán lớn. Tính toán tình nguyện giúp cho có thể xây dựng các mạng tính toán toàn cầu lớn rất nhanh, điều này được chứng mình bởi sự thành công của dự án SETI@home[2], dự án này đang triển khai hàng trăm nghìn máy tính tình nguyện để tìm kiếm số lượng lớn dữ liệu đàm thoại radio cho tín hiệu của sự sống bên ngoài trái đất, Einstein@Home [6] tìm kiếm các sao neutron xoay rất nhanh dùng dữ liệu từ các nhà dò tìm sóng hấp dẫn LIGO và GEO hay Climateprediction.net@Home [7] dùng để dự đoán khí hậu trên trái đất … Trong hệ thống tính toán tình nguyện, khả năng chịu đựng lỗi là một vấn đề quan trọng bởi vì có thể có nhiều những người dùng ác ý trên mạng phá hoại hệ thống bằng việc cố ý đệ trình các kết quả sai. Để giải quyết yêu cầu đưa ra kết quả tốt trong hệ thống tính toán tình nguyện mà có người dùng ác ý tham gia thì hệ thống lập lịch tại máy chủ phải thực thi các chính sách lập lịch chịu lỗi. Do đó trong luận văn này, tôi quan tâm đến vấn đề lập lịch nhiệm vụ phía máy chủ của hệ thống tính toán tình nguyện thực thi các kĩ thuật chịu đựng lỗi. Mặc dù một số kĩ thuật chịu lỗi đang tồn tại như là biểu quyết theo số đông, kiểm tra điểm, kết hợp biểu quyêt và kiểm tra điểm, kiêm tra điểm bằng biểu quyết [8], hay giản đồ lập lịch Round Robin dựa trên sự ưu tiên về khả năng tính toán [10] có thể đảm bảo các yêu cầu về độ tin cậy cho các kết quả tính toán, tuy nhiên, các kĩ thuật này luôn luôn là nguyên nhân làm cho hiệu năng giảm đi trong giới hạn của toàn bộ thời gian tính toán. Trong luận văn này tôi đề xuất hai kĩ thuật lập lịch hiệu quả cho máy chủ được gọi là lập lịch Round Robin dựa trên sự ưu tiên về độ tin cậy và lập lịch Round Robin dựa trên kiểm thử độ tin cậy nhằm nâng cao hiệu quả của giản đồ lập lịch dựa trên độ tin Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 7 cậy trong các hệ thống tính toán tình nguyện. Các kĩ thuật này đều đưa ra các tiêu chí để chọn một máy trạm phù hợp nhất để thực thi một nhiệm vụ. Kĩ thuật đầu tiên quan tâm đến chọn một máy trạm đang có khả năng có độ tin cậy cao nhất và khả năng thực hiện tốt nhất. Kĩ thuật thứ hai thì chọn máy trạm sao cho khi nhiệm vụ được thực hiện bởi nó thì độ tin cậy của nhiệm vụ sẽ tăng lên, Bằng việc sử dụng bộ mô phỏng VCSIM để thực hiện mô phỏng các thuật toán lập lịch, tôi đã chỉ ra rằng kĩ thuật được đưa ra có thể giúp giảm bớt thời gian thực thi của toàn bộ hệ thống so với kĩ thuật lập lịch Round Robin tương ứng. Phần còn lại của luận văn này được tổ chức như sau: • Chương 1. Giới thiệu tổng quan: Trình bày về các hệ thống tính toán phân tán, tính toán lưới, tính toán ngang hàng, tính toán tình nguyện, BOINC, và khảo sát qua các thuật toán lập lịch trong tính toán tình nguyện. • Chương 2. Lý thuyết cơ bản lập lịch dựa trên độ tin: Trình bày về các mô hình cơ bản của hệ thống và các giả định, các kĩ thuật chịu lỗi chuyền thống, chịu lỗi dựa trên độ tin cậy và khảo sát một số giản đồ lập lịch chịu lỗi dựa trên độ tin cậy. • Chương 3. Giản đồ lập lịch dựa trên độ tin cậy: Mô tả các đề xuất của chúng tôi về giản đồ lập lịch dựa trên độ tin cậy. • Chương 4. Kết quả thực nghiệm: Giới thiệu kịch bản mô phỏng và thảo luận về các kết quả mô phỏng. • Chương 5. Kết luận: Tóm tắt lại những công việc đã đạt được, những công việc chưa làm được và hướng phát triển trong tương lai. Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 8 Chương 1. TỔNG QUAN Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật và công nghệ, đã xuất hiện những bài toán trong nhiều lĩnh vực đòi hỏi sức mạnh tính toán mà một máy tính riêng lẻ không thể đảm trách. Xuất phát từ những nhu cầu đó, các kỹ thuật tính toán song song, tính toán phân tán đã được đề xuất và đã phần nào đáp ứng được các yêu cầu này. Tuy nhiên, tham vọng của con người không dừng lại ở đó. Họ muốn một sức mạnh tính toán lớn hơn, với khả năng chia sẻ tài nguyên giữa mọi người trên phạm vi toàn cầu, khả năng tận dụng các phần mềm cũng như tài nguyên vật lý phân tán cả về mặt địa lý. Các tổ chức giải quyết vấn đề này bằng hai cách: • Đầu tư thêm trang thiết bị, cơ sở hạ tầng tính toán (mua thêm máy chủ, máy trạm, siêu máy tính, cluster...). Tuy nhiên cách làm này hết sức tốn kém. • Có một cách làm khác hiệu quả hơn đó là phân bố lại hợp lý các nguồn tài nguyên trong tổ chức hoặc thuê thêm các nguồn tài nguyên từ bên ngoài (tất nhiên là với chi phí rẻ hơn nhiều so với việc đầu tư cho cơ sở hạ tầng tính toán). Thực tế cho thấy có một phần lớn các nguồn tài nguyên của chúng ta đang được sử dụng lãng phí: các máy để bàn công sở thường chỉ hoạt động khoảng 5% công suất, ngay cả các máy chủ cũng có thể chỉ phải hoạt động với 20% công suất. Việc tận dụng hiệu quả các nguồn tài nguyên này có thể mang lại một sức mạnh tính toán khổng lồ. Cách giải quyết thứ hai này chính là mục tiêu của tính toán lưới và tính toán tình nguyện. 1.1 Tính toán lưới Tính toán lưới hướng đến việc chia sẻ và sử dụng hiệu quả các nguồn tài nguyên thuộc về nhiều tổ chức trên một quy mô rộng lớn (thậm chí là quy mô toàn cầu). Chính các công nghệ mạng và truyền thông phát triển mạnh mẽ trong những năm qua đã biến những khả năng này dần trở thành hiện thực. Các nghiên cứu về tính toán lưới đã và đang được tiến hành là nhằm tạo ra một cơ sở hạ tầng lưới cho phép dễ dàng chia sẻ và quản lý các tài nguyên đa dạng và phân tán trong môi trường Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 9 lưới. Như vậy, tính toán lưới, hiểu một cách đơn giản là một dạng của tính toán phân tán. Mục đích là tạo ra một máy tính ảo lớn mạnh từ một tập lớn các hệ thống không đồng nhất nhằm nâng cao khả năng tính toán, chia sẻ các tài nguyên khác nhau. Một ví dụ về dự án tính toán lưới là dự án Avian Flu Grid[24], dự án này nhằm sử dụng lưới PRAGMA[25] và các cơ sở hạ tầng tính toán hiệu năng cao để phát triển một mô hình cho hợp tác toàn cầu đấu tranh chống lại sự đe dọa dịch lớn của cúm avian và các bệnh dịch lây nhiễm nghiêm trọng khác. Hệ thống lưới PRAGMA, mà trung tâm HPCC-HUT (Trung tâm tính toán hiệu năng cao của trường Đại Học Bách Khoa Hà Nội) là một thành viên, được tạo ra nhằm duy trì các hoạt động cộng tác và thúc đẩy sử dụng các kĩ thuật lưới trong các ứng dụng khoa học tiên tiến giữa các viện hàng đầu trong các nước có đường biên giới nằm trên biển thái bình dương. Hình 1-1. Minh họa về tính toán lưới Hình 1-1 là một ví dụ về lưới, như một mạng liên kết các tài nguyên phân tán về mặt địa lý, các tài nguyên rất phong phú, đa dạng, bao gồm tập các siêu máy tính, các thiết bị truyền thông vệ tinh, các kho lưu trữ, các cluster tính toán hiệu năng cao Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 10 , các tổ chức ảo liên kết trong lưới. Người dùng trong lưới cũng hết sức đa dạng, từ các người dùng thông thường, cho tới các người dùng chuyên dụng, có kiến thức sâu về chuyên môn như các nhà nghiên cứu, các nhà khoa học... Và lưới chính là sự tập hợp, chia sẻ, chọn lựa các nguồn tài nguyên này thông qua một chính sách thống nhất, phân phối các siêu máy tính và các hệ cluster để đạt hiệu năng tốt hơn. Các thách thức mà công nghệ tính toán lưới đang phải giải quyết bao gồm: • Các tài nguyên hết sức đa dạng, không đồng nhất. Tài nguyên ở đây được hiểu theo nghĩa hết sức tổng quát. Đó có thể là các tài nguyên phần cứng: tài nguyên tính toán, tài nguyên lưu trữ, các thiết bị đặc biệt khác...; các tài nguyên phần mềm: các CSDL, các phần mềm đặc biệt và đắt giá...; các đường truyền mạng... Các tài nguyên này có thể rất khác nhau về mặt kiến trúc, giao diện, khả năng xử lý... Việc tạo ra một giao diện thống nhất cho phép khai thác và sử dụng hiệu quả các nguồn tài nguyên này là hoàn toàn không dễ dàng. Ban đầu tính toán lưới được đặt ra chủ yếu là để tận dụng các nguồn tài nguyên tính toán nhưng hiện nay mục tiêu của nó đã được mở rộng sang rất nhiều nguồn tài nguyên khác như đã kể trên. • Các tài nguyên không chỉ thuộc về một tổ chức mà thuộc về rất nhiều tổ chức tham gia lưới. Các tổ chức phải tuân thủ một số quy định chung khi tham gia vào lưới còn nhìn chung là hoạt động độc lập tức là các tài nguyên này đều có quyền tự trị. Các tổ chức khác nhau thường có chính sách sử dụng hay cho thuê tài nguyên của họ khác nhau và do vậy cũng gây khó khăn cho việc quản lý. • Các tài nguyên phân tán rộng khắp về mặt địa lý do vậy phải có các cơ chế quản lý phân tán. • Đảm bảo an toàn thông tin cho một môi trường phức tạp như môi trường lưới là rất khó khăn trong khi đây là một trong những điểm ưu tiên hàng đầu. Theo Ian Foster, một hệ thống lưới là hệ thống có 3 đặc điểm chính sau: • Phối hợp các tài nguyên phân tán từ nhiều miền quản trị khác nhau. • Sử dụng các giao diện và giao thức chuẩn mở. • Mang lại cho người dùng chất lượng dịch vụ không tầm thường. Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 11 Riêng điểm thứ 2 là một điểm rất đáng lưu ý. Vì lưới là một môi trường thu hút nhiều tổ chức tham gia nên không thể coi nhẹ vai trò của các chuẩn mở và các giao thức mở, cũng giống như việc sử dụng các chuẩn này đã giúp cho mạng Internet bùng nổ mạnh mẽ trong những năm 90 của thế kỉ trước. Khái niệm tổ chức ảo cũng là một khái niệm rất quan trọng trong tính toán lưới. Tổ chức ảo là một tổ chức được lập ra động để giải quyết một vấn đề nào đó. Thành phần của tổ chức ảo bao gồm rất nhiều tài nguyên thuộc về nhiều tổ chức (thực) khác nhau trong môi trường lưới và cùng hoạt động vì một mục tiêu chung. Tùy theo mức độ của vấn đề cần giải quyết mà các tổ chức ảo có thể rất khác nhau về quy mô, phạm vi hoạt động, thời gian sống. Hình 1.2 dưới đây là một minh họa về tổ chức ảo. Có một người dùng cần giải một bài toán lớn về dự báo thời tiết, anh ta thành lập l tổ chức ảo bằng cách thuê một số nguồn tài nguyên khác nhau từ một vài tổ chức khác nhau. Tương tự như vậy, một người dùng cần giải một bài toán về dự báo tài chính, anh ta cũng thành lập một tổ chức ảo để giải quyết bài toán này. Hình 1-2. Tổ chức ảo Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 12 1.2 Tính toán ngang hàng Mạng ngang hàng là một mô hình truyền thông ở đó mọi nút trong mạng thực hiện giống nhau. Đối nghịch với mô hình chủ khác, ở đây một nút cung cấp các dịch vụ và các nút khác sử dụng các dịch vụ. Hình 1-3. Mô hình mạng ngang hàng Tính toán ngang hàng là một dạng của tính toán phân tán, nó bao gồm một số lớn các nút tịnh toán tự trị (các máy ngang hàng) hoạt động chia sẻ tài nguyên và các dịch vụ [2]. Tính toán ngang hàng là chia sẻ các tài nguyên và các dịch vụ bằng điều hướng chuyển đổi giữa các hệ thống. Những tài nguyên và dịch vụ này bao gồm chuyển đổi thông tin, các chu kì xử lý, lưu trữ đệm, và lưu trữ trên đĩa cho các file. Tính toán ngang hàng sử dụng tốt sức mạnh tính toán của các máy tính để bàn đang tồn tại và kết nối mạng. Các máy ngang hàng có trách nhiệm như nhau đồng thời có các chức năng vừa là máy chủ vừa là máy khách cho dịch vụ và chia xẻ tài nguyên. Lợi ích của việc sử dụng tính toán ngang hàng là: Giảm cân bằng tải trên các máy chủ, cho phép các máy chủ thực thi các dịch vụ đặc biệt hiệu quả hơn, có thể giảm các yêu cầu cho các tổ chức IT để tăng các phần cơ sở hạ tằng của họ để hỗ trợ các dịch vụ như là lưu trữ sao lưu, tạo ra sức mạng tính toán không tốn nhiều chi phí, băng thông, lưu trữ … Một số thuận lợi của tính toán ngang hàng đó là không có điểm trung tâm lỗi, khả năng mở rộng lớn vì mọi máy ngang hàng là giống nhau do đó có thể thêm nhiều máy ngang hàng đến hệ thống. Điểm không thận lợi của tính toán ngang hàng chính là sự điều phối không tập trung, tất cả các nút được tạo ra là không giống nhau về sức mạng tính toán, băng thông … Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 13 Trong tính toán ngang hàng, các ứng dụng được phân tách vào ba loại chính đó là: • Tính toán phân tán • Chia sẻ file • Các ứng dụng cộng tác Ba loại này phục vụ các mục đích khác nhau và vì vậy chúng có các yêu cầu phát triển riêng. Các ứng dụng tính toán phân tán thường yêu cầu phân tích vấn đề lớn vào các vấn đề song song nhỏ, các ứng dụng chia sẻ file yêu cầu tìm kiếm hiệu quả theo các mạng diện rộng và các ứng dụng cộng tác yêu cầu cập nhập các kĩ thuật để cung cấp tính nhất quán trong môi trường đa người dung. Các ứng dụng phổ biến nhất trong tính toán ngang hàng [22] là chia sẻ nội dung và file điển hình như là Napster, Gnutella, Mojo Nation, eDonkey and Freenet. Napster là hệ thống lớn đầu tiên có thể trao đổi hướng và chia sẻ nội dung. Trong khi sự trao đổi nội dung thực tế trong Napster là giữa các máy tính ngang hàng thì việc khám phá các máy tính ngang hàng vẫn tập trung (như lưu trữ trong thư mục trung tâm). Gnutella cung cấp một giải pháp chia sẻ file phân tán rõ ràng không sử dụng nút trung tâm. Hạn chế của Gentella không phải là một ứng dụng mà là một giao thức dùng để tìm kiếm và chia sẻ file. Để tìm nội dung và một máy ngang hàng khác một người dùng phải biết địa chỉ IP của ít nhất một nút Gnutella khác. Một nút sẽ đưa ra một câu truy vấn cho một file bằng việc gửi nó đến tất cả các nút khác nó biết. Nếu một nút không phục vụ được yêu cầu nó có thể truyền đến các nút khác. Câu truy vấn sẽ đi hết các nút trong mạng Gnutella cho đến khi file được tìm thấy hoặc thời gian sống của nó đã hết. Kĩ thuật khám phá này sẽ làm lụt mạng và đây chính là nguyên nhân cho các vấn đề về quy mô mạng. Một vấn đề khác trong Gnutella là những người điều khiển tự do, ví dụ là những người không phân bố nội dung nhưng lại lấy nội dung từ người dùng khác. Mojo Nation là ứng dụng trao đổi nội dung ngang hàng, nó giới thiệu một sự lưu hành ảo để đếm những người điều khiển tự do. Sư lưu hành ảo này dùng để khuyến phân bố các tài nguyên (như là không gian lưu trữ và nội dung). Các máy trạm trong mạn Mojo Nation có thể có các vai trò khác nhau. Nội dung được phân tách vào thành các khối và được phân bố trên toàn bộ Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 14 mạng Mojo. Do đó, máy chủ lưu giữ chỉ một phần nội dung các host chứ không phải toàn bộ file. Một hệ thống chia sẻ file phổ biến khác là eDonkey. Đặc điểm đặc biệt của eDonkey là nó xác minh các file sử dụng thuật toán MD4 dựa trên giá trị mảng băm và kích cỡ file. Phương thức này cho phép xác định các file với nội dung giống nhau nhưng tên file khác nhau. Nó cũng có thể tải nội dung từ các file nguồn khác và vì vậy tăng tỉ lệ tải mạng. Freenet cũng là một hệ thống chia sẻ nội dung/ file. Mục đích chính của Freenet là làm cho nó có thể sử dụng với người vô danh. Các yêu cầu của người dùng không phải của Freenet hoặc các file đang được đặc trong những nơi khác trong Freenet có thể được xác định. Xa hơn, một người điều khiển của một nút Freenet không thể xác minh dữ liệu gì được lưu trữ trên đĩa cục bộ của nó. Freenet đã phân tán hoàn chỉnh và biểu diễn mạng ngang hàng theo mẫu của riêng nó. 1.3 Tính toán tình nguyện 1.3.1 Khái niệm Tính toán tình nguyện là một mô hình tính toán song song mới cho phép người dùng tình nguyện trên toàn mạng phân bổ các tài nguyên tính toán nhàn rỗi của họ để hỗ trợ cho tính toán song song có phạm vi rộng lớn [1], [2], [3], [20]. Không giống như các hệ thống tính toán lưới phổ biến [4], [5], các hệ thống tính toán tình nguyện chứa đựng nhiều các máy tính từ các cá nhân (được gọi là những người tình nguyện) người mà muốn chia sẻ các tài nguyên của họ cho các dự án nghiên cứu mang tính cộng đống như là SETI@home [2] tìm kiếm sự sống bên ngoài trái đất, Einstein@Home[6] tìm kiếm các sao neutron xoay rất nhanh dùng dữ liệu từ các nhà dò tìm sóng hấp dẫn LIGO và GEO, Climateprediction.net@Home [7] dùng để dự đoán khí hậu trên trái đất ... Khi tham gia vào dự án, những người tình nguyện được giữ bí mật về tên tuổi cùng các thông tin cá nhân khác. Mặc dù khi đăng ký tham gia dự án họ phải cung cấp email cũng như một số thông tin, tuy nhiên dự án không thể làm ảnh hưởng đến đời sống thực của họ. Và vì thế, họ không phải chịu bất kỳ trách nhiệm nào về dự án. Tính toán tình nguyện giúp cho có thể xây dựng các mạng tính toán toàn cầu lớn rất nhanh, điều này được chứng mình bởi sự thành Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 15 công của dự án SETI@home với tổng số host 2,138,226 tổng số lượng người dùng 904,956 với tổng 252 quốc gia tham gia, các phép toán con trỏ động trung bình cho mỗi giây 51,103.68 GigaFLOPS (51.104 TeraFLOPS). Một hệ thống tình nguyện điển hình bao gồm hàng trăm đến hàng nghìn máy tính tình nguyện và một trung tâm tính toán (trung tâm này có thể bao gồm nhiều các máy chủ trung tâm cho cân bằng tải). Các máy chủ của trung tâm tính toán quản lý các công việc tính toán song song được yêu cầu, phân chia chúng vào các nhiệm vụ nhỏ hơn và đặt chúng đến các máy tính tình nguyện để thực thi. Mỗi máy tính tình nguyện thực thi các nhiệm vụ được chỉ định và rồi gửi các kết quả quay trở lại đến các máy chủ trung tâm. Các máy chủ trung tâm sẽ tập hợp những kết quả đó và làm một vài các công việc thêm như là kiểm tra kết quả và trả về kết quả cuối cùng đến người dùng cuối của hệ thống. Hình 1-4. Mô hình tính toán tình nguyện 1.3.2 BOINC 1.3.2.1Khái niệm BOINC (Berkeley Open Infrastructure for Network Computing) là một hệ thống phần mềm trung gian cho tính toán tình nguyện. BOINC đang được sử dụng bởi một số các dự án bao gồm: SETI@home [2], Einstein@Home [6], Climateprediction.net@Home [7]... Những người tình nguyện tham gia hệ thống bằng cách chạy phần mềm khách BOINC trên máy tính của họ (hoặc các máy trạm). Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 16 Họ có thể tham gia mỗi máy trạm đến một tập các dự án, và có thể điều khiển chỉ định các tài nguyên giữa các dự án. Một dự án dựa trên BOINC cung cấp trên các máy chủ của nó. Các máy trạm tải các chương trình thực thi ứng dụng và các file dữ liệu từ máy chủ, thực hiện các nhiệm vụ (bằng cách chạy các ứng dụng theo các file dữ liệu đặc tả), và tải lên các file đầu ra đến máy chủ. Phần mềm BOINC bao gồm các thành phần phía máy chủ, như là các chương trình lập lịch và tiến trình để quản lý phấn bố và tập hợp các nhiệm vụ [12], và giao diện dựa trên web cho những người tình nguyện và các nhà quản trị dự án. Hình 1-5. Mô hình cơ bản của BOINC 1.3.2.2Các đặc trưng cơ bản của BOINC [23] • Tính độc lập của dự án: Có nhiều dự án khác nhau đều sử dụng BOINC, tuy nhiên các dự án độc lập hoàn toàn với nhau. Mỗi dự án có máy chủ và cơ sở dữ liệu riêng, không có thư mục trung tâm cho tất cả các dự án. Điểm chung của chúng là đều lấy BOINC làm nền phần mềm • Tính linh hoạt trong sử dụng: Những người tình nguyện có thể tham gia vào nhiều dự án; họ kiểm soát những dự án ấy, quản lý và phân chia tài nguyên cho các dự án. Khi một dự án kết thúc hay không làm việc, tài nguyên dành cho nó sẽ được thu hồi và phân chia cho các dự án khác. Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 17 • Linh hoạt trong phát triển: Các ứng dụng viết bằng C, C++ hay Fortran có thể chạy các ứng dụng BOINC mà không cần cải biên hay cải biên rất ít. Một ứng dụng có thể bao gồm nhiều file (đa chương trình). Những phiên bản mới của ứng dụng có thể được tự động triển khai, cập nhật. • Tính bảo mật: BOINC bảo vệ để chống lại các kiểu tấn công có thể xảy ra. Ví dụ chữ ký số dựa trên mã hoá khoá công khai chống lại sự phân phối của virus… • Tính thực thi và khả chuyển: Phần mềm máy chủ BOINC vô cùng hiệu quả. Vì thế, 1 máy chủ trung tâm có thể gửi đi và điều khiển hàng triệu công việc trong 1 ngày. Kiến trúc máy chủ còn có khả năng biến đổi cao, làm cho nó dễ dàng tăng khả năng máy chủ hoặc sẵn sàng tăng thêm nhiều máy. • Mã nguồn mở: Bản thân BOINC được cung cấp dưới dạng mã nguồn mở, cả BOINC máy chủ và BOINC khách. Tuy vậy các ứng dụng của BOINC không nhất thiết phải là nguồn mở. • Khả năng tính toán với lượng dữ liệu lớn: BOINC hỗ trợ các ứng dụng tạo ra hay sử dụng một số lượng lớn dữ liệu, hoặc cần dùng nhiều bộ nhớ. Sự phân phối và tập hợp dữ liệu có thể được chia ra trên nhiều máy chủ. Những người tham gia trao đổi lượng dữ liệu lớn một cách kín đáo. Những người sử dụng có thể chỉ rõ giới hạn về bộ nhớ hay băng thông. Công việc chỉ gửi đến những máy có khả năng hoàn thành. • Platform đa dạng: phiên bản BOINC dành cho máy trạm có sẵn cho hầu hết các platform thông dụng (Mac OS X, Windows, Linux và các hệ thống Unix khác như Ubuntu, Fedora, Redhat…). Máy trạm có thể sử dụng nhiều CPU. • Kiến trúc phần mềm dễ mở rộng: Những thành phần quan trọng của BOINC đều được tài liệu hoá và công bố rộng rãi; nhờ đó các nhà phát triển ở hãng thứ 3 có thể dễ dàng tạo phần mềm và website mở rộng BOINC. • Tính cộng đồng người tình nguyện: BOINC cung cấp các công cụ trên web như bảng tin nhắn, thông tin cá nhân những người tình nguyện và tin nhắn riêng; Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 18 điều đó giúp những người tình nguyện dễ dàng hình thành những cộng đồng trực tuyến để trao đổi, giúp đỡ lẫn nhau. 1.3.2.3Kiến trúc BOINC BOINC bao gồm các thành phần chủ và khách (Xem trong hình 1.5). BOINC khách chạy các ứng dụng dự án. Các ứng dụng được liên kết với hệ thống thời gian chạy, các chức năng của hệ thống này bao gồm điều khiển xử lý, điều khiển điểm kiểm tra, và các đồ thị [13]. Máy khách thực thi lập lịch CPU(được thực thi trên đỉnh của bộ lập lịch của hệ điều hành cục bộ, tại mức hệ điều hành, BOINC chạy các ứng dụng tại mức độ ưu tiên 0). Nó có thể chiếm giữ các ứng dụng hoặc bằng cách trì hoãn chúng(và rời chúng vào trong bộ nhớ) hoặc bằng cách chỉ dẫn chúng để thoát. BOINC chủ thực hiện việc cung cấp các ứng dụng và các đơn vị công việc, xử lý các kết quả tính toán, quản lý sự phân phối và tập hợp dữ liệu. Hình 1-6. Kiến trúc BOINC Tất cả các kết nối mạng trong BOINC được khởi tạo bởi các máy khách. Một máy khách giao tiếp với một máy chủ gán nhiệm vụ của dự án [12] theo HTTP. Yêu cầu là một file dữ liệu XML trong đó bao gồm các miêu tả về phần cứng và khả năng thực hiện, một danh sách công việc đã hoàn thành, và một yêu cầu cho một số lượng chắc chắn (diễn tả giới hạn thời gian CPU) công việc thêm. Thông điệp phản hồi Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008 19 bao gồm một danh sách các công việc mới(mỗi công việc được miêu tả bởi một thành phân XML mà liệt kê ứng dụng, các file đầu vào đầu ra, bao gồm vị trí các máy chủ dữ liệu từ mỗi file có thể được tải về). Đôi khi các máy khách có các kết nối vật lý bị trục trặc. Như là cách máy tính có thể kết nối một ít hàng ngày. Trong khoảng thời gian kết nối mạng, BOINC cố gắng tải đủ công việc để giữ cho máy tính bận cho đến lần kết nối kế tiếp. Hình vẽ bên dưới chỉ định trình tự thực hiện giữa máy trạm và máy chủ. Hình 1-7. Sự tương tác giữa máy trạm và máy chủ 1.3.3 Lập lịch trong tính toán tình nguyện Theo như khái niệm về hệ thống tính toán tình nguyện ở trên thì một hệ thống tính toán tình nguyện bao gồm nhiều máy trạm kết nối đến máy chủ, trong đó máy trạm kết nối đến máy chủ để lấy công việc và thực hiện rồi trả về kết quả cho máy chủ, còn máy chủ thì thực thi lựa chọn các máy trạn để gán nhiệm vụ. Vì vậy quá trình xử lý lấy và thực thi các công việc này bao gồm bốn chính sách liên quan [14], [15]: • Lập lịch CPU : Của các việc có thể chạy hiện nay, công việc nào có thể chạy. • Lấy công việc : Khi nào để nghị một dự án cho nhiều công việc, dự án nào được đề nghị và đề nghị bao nhiêu công việc. • Gửi công việc : Khi một dự án nhận được một yêu cầu công việc, nó lên gửi công việc nào.nó lên gửi công việc nào. • Ước lượng thời gian hoàn thành : Ước lượng thời gian CPU duy trì công việc như thế nào. Nguyễn Quang Hòa - Lớp CH CNTT 2006 – 2008
- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất