Đăng ký Đăng nhập
Trang chủ Xây dựng hệ thống tổng hợp thông tin kinh tế xã hội...

Tài liệu Xây dựng hệ thống tổng hợp thông tin kinh tế xã hội

.DOCX
43
217
132

Mô tả:

LỜI MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Xã hội ngày càng tiến bộ, nhu cầu tiếp cận thông tin của mọi người ngày càng lớn, nhưng thông tin có chọn lọc lại càng là nhu cầu lớn hơn, cũng xuất phát từ nhu cầu đó và cũng nhằm mục đích tạo một website tin tức tổng hợp, phục vụ cho tất cả mọi người, để họ có thể thuận tiện hơn trong việc tiếp cận thông tin tin tức mới nhất của khoa, trang web sẽ phục vụ cho mọi người có thể nắm bắt được các thông tin về kinh tế xã hội. Với việc bùng nổ các thông tin, tin tức trên web hiện nay nhiều vô kể và bạn không thể nào có đủ thời gian để đọc hết. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, dantri, vietnamenet,… Nếu phải vào từng trang để đọc thì rất mất thời gian, do đó nếu dùng trình tổng hợp tin tức để chỉ định các trang, mục nào của các báo cần được gom lại trong một giao diện duy nhất để đọc thì sẽ tiện lợi hơn rất nhiều. Việc ra đời một hệ thống đọc tin tự động từ các nguồn báo khác nhau trên điện thoại là cần thiết Tên đề tài:“ Xây dựng hệ thống tổng hợp thông tin kinh tế xã hội”. Phạm vi nghiên cứu: Website Tin tức của tổng hợp. Công cụ lấy thông tin tin tức bằng RSS Sử dụng vntokenizer Phương pháp nghiên cứu: Phương pháp khảo sát áp dụng:  Phỏng vấn.  Tài liệu. Phương pháp phân tích, tổng hợp: Mục đích để chứng minh từng luận điểm của đề tài có tính thuyết phục hơn. Phương pháp mô hình hóa hệ thống theo hướng đối tượng:  Hình dung hệ thống thực tế hay theo mong muốn của chúng ta.  Chỉ rõ cấu trúc hoặc ứng xử của hệ thống.  Tạo khuôn mẫu hướng dẫn nhà phát triển trong suốt quá trình xây dựng hệ thống.  Ghi lại các quyết định của nhà phát triển để sử dụng sau này.  Làm công cụ cho phép mọi thành viên phát triển dự án có thể hiểu và làm việc với nhau.   LỜI CẢM ƠN Trên thực tế không có sự thành công nào mà không gắn liền với những sự hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực tiếp hay gián tiếp của người khác. Trong suốt thời gian từ khi bắt đầu học tập ở giảng đường Đại học đến nay, chúng em đã nhận được rất nhiều sự quan tâm, giúp đỡ của Thầy Cô, gia đình và bạn bè. Với lòng biết ơn sâu sắc nhất, chúng em xin gửi đến Thầy Cô ở Tổng hợp – đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường. Và đặc biệt, trong kỳ này, Khoa đã tổ chức cho chúng em được tiếp cận với môn học rất hữu ích đối với sinh viên ngành Công Nghệ Thông Tin. Đó là môn: “”. Tuy nhiên, dù rất cố gắng nhưng do thời gian có hạn nên chắc rằng đồ án khó tránh khỏi thiếu sót. Chúng em rất mong nhận được sự thông cảm và đóng góp ý kiến của quý Thầy cô và các bạn để đồ án của chúng em được hoàn chỉnh hơn.Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp chúng em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án. Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên đồ án “” chắc chắn sẽ không thể tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các thầy cô và các bạn để đồ án này ngày càng hoàn thiện hơn. Hà Nội, ngày 01 tháng 1 năm 2017 Sinh viên thực hiện: (ký và ghi họ tên) NHẬN XÉT (của cơ quan thực tập) ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ......................................................................................................................................................................................................................................................................................   NHẬN XÉT (của giảng viên phản biện) ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ...................................................................................................................................................................................................................................................................................... ......................................................................................................................................................................................................................................................................................   MỤC LỤC CHƯƠNG 1: TỔNG QUAN HỆ THỐNG 19 1.1. Khảo sát hệ thống 19 1.1.1. Hạ tầng và phần mềm của hệ thống 19 1.2. Phân tích yêu cầu của hệ thống 19 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động 19 1.2.2. Yêu cầu cần đạt được của hệ thống 22 1.2.3. Phân tích quy trình nghiệp vụ của hệ thống 23 1.3. Bài toán tách từ và công cụ vnTokenizer 24 CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG 27 2.1. Biểu đồ Usecase 27 2.1.1. Các tác nhân của hệ thống 27 2.1.2. Biểu đồ Usecase mức tổng quát 28 2.1.3. Usecase Đăng nhập 29 2.1.4. Usecase tạo tài khoản và thay đổi mật khẩu 30 2.1.5. Usecase quản lý chuyên mục 31 2.1.6. Usecase Tạo và phân quyền chuyên mục 32 2.1.7. Usecase tìm kiếm thông tin sản phẩm 32 2.1.8. Usecase đọc tin và gửi phản hồi 33 2.2. Biểu đồ lớp 34 2.2.1. Biểu đồ lớp tổng quát của hệ thống 34 2.3. Biểu đồ tuần tự 34 2.3.1. Chức năng Đăng nhập 34 2.3.2. Chức năng Tạo tài khoản 35 2.3.3. Chức năng Quản trị người dùng 36 2.3.4. Chức năng Quản lý chuyên mục 37 • 2.3.5. Chức năng Phân quyền viết bài 38 2.3.5. Chức năng Quản lý chuyên mục 40 2.3.6. Chức năng Quản lý bài viết 41 2.3.7. Chức năng Viết bài 41 2.3.8. Chức năng Phản hồi 42 2.3.9. Chức năng tìm kiếm 44 2.4. Thiết kế cấu trúc cơ sở dữ liệu 45 2.5. Mô hình dữ liệu quan hệ 49 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH 51 3.1. Cài đặt chương trình 51 3.2. Thiết kế giao diện website 51 3.2.1. Thiết kế giao diện người dùng 51 3.2.2. Thiết kế giao diện quản trị 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH Hình 2.1 Biểu đồ Usecase tổng quát của hệ thống 14 Hình 2.2 Biểu đồ Usecase Đăng nhập vào hệ thống 14 Hình 2.3 Biểu đồ Usecase tạo tài khoản, thay đổi mật khẩu 15 Hình 2.4 Biểu đồ Usecase quản lý chuyên mục 16 Hình 2.5 Biểu đồ Usecase Tạo và phân quyền chuyên mục 17 Hình 2.6 Biểu đồ Usecase tìm kiếm thông tin liên quan đến bài viết 18 Hình 2.7 Biểu đồ usecase đọc tin và gửi phản hồi 18 Hình 2.8 Biểu đồ lớp mức tổng quát của hệ thống 19 Hình 2.9 Biểu đồ tuần tự cho chức năng Đăng nhập 20 Hình 2.10 Biểu đồ tuần tự cho chức năng tạo tài khoản 21 Hình 2.11 Biểu đồ tuần tự cho chức năng Quản trị người dùng 22 Hình 2.12 Biểu đồ tuần tự cho chức năng quản lý chuyên mục 23 Hình 2.13 Biểu đồ tuần tự cho chức năng phân quyền viết bài 24 Hình 2.14 Biểu đồ tuần tự cho chức năng quản lý chuyên mục 25 Hình 2.15 Biểu đồ tuần tự cho chức năng Quản lý bài viết 26 Hình 2.16 Biểu đồ tuần tự cho chức năng Viết bài 27 Hình 2.17 Biểu đồ tuần tự cho chức năng phản hồi 28 Hình 2.18 Biểu đồ tuần tự cho chức năng tìm kiếm 29 Hình 2.19 Mô hình dữ liệu quan hệ 35 Hình 3.1 Giao diện trang dành cho người dùng 36 Hình 3.2 Giao diện trang chủ quản trị 36   DANH MỤC TỪ VIẾT TẮT CBCNVC Cán bộ công nhân viên chức CMND Chứng minh nhân dân CSDL Cơ sở dữ liệu   CHƯƠNG 1: TỔNG QUAN HỆ THỐNG 1.1. Khảo sát hệ thống 1.1.1. Hạ tầng và phần mềm của hệ thống  Các web tin tức tổng hợp hiện nay đã phần nào đáp ứng được về yêu cầu cập nhật thông tin công nghệ mới cho người đọc. Nhưng chưa có nhiều trang web tự động lấy tin tức từ các nguồn tin tức khác nhau để phục vụ cho người đọc có thể nắm được thông tin chất lượng không phải tìm đọc từ nhiều trang khác nhau.  Các trang web tin tức về “Tổng hợp” hiện nay vẫn còn khá lá cải và chưa phục vụ được hết nhu cầu đọc tin cần.  Trên cơ sở tự tổng hợp thông tin từcác website trên internet theo tiêu chí chọn trước. Hiện nay, có nhiều phương pháp tự động tìm kiếm thông tin khác nhau, nhưng nhìn chung là các cách tiếp cận ñều dựa vào các trọng sốtrang Web (Chỉ sốquan trọng của trang trong tập kết quả), như: Page Bank, HITS và ứng dụng kỹthuật khai phá dữ liệu. Trong đó Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần ñây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, ñồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. 1.2. Phân tích yêu cầu của hệ thống 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động Cập nhật thông tin luôn là nhu cầu thiết yếu của con người, cầm tớ báo mới cặm cụi đọc trên vỉa hè, trong công viên, hay nhâm nhi cốc cà phê vào buổi sáng đã là thói quen của nhiều người. Sự bùng nổ của internet đã cho ra đời báo điện tử. Với việc liên tục cập nhật và đưa ra các thông tin mới và nóng nhất, đồng thời cho phép người đọc tiếp cận các thông tin đó ở bất cứ thời gian và địa điểm nào, báo điện tử đã dần trở thành kênh thông tin quan trọng đối với người dùng internet. Có nhiều đánh giá cho rằng báo điện tử là điểm sáng của cách mạng công nghệ thông tin. Ngày càng xuất hiện nhiều tờ báo điện tử truyền tải thông tin dưới mọi hình thức mà các loại báo truyền thống cung cấp. Có thể kể tên một số trang báo điện tử lớn ở Việt Nam như: vnexpress.vn, dantri.com.vn, vietnamnet.vn, 24h.com.vn, tuoitre.com.vn, thanhnien.com.vn,… Tuy nhiên, khi mà các trang báo điện tử ra đời quá nhanh, sẽ xuất hiện tình trạng “loạn” thông tin.Quá nhiều trang web tin tức, quá nhiều thông tin trùng lặp sẽ làm cho người đọc không biết phải chọn nguồn tin nào để xem. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, tuoitre, thanhnien, dantri, hanoimoi,… Nếu phải vào từng trang để đọc thì rất mất thời gian, thêm vào đó nếu chỉ đọc 1, 2 mục tin trên mạng có lẽ là không đủ, chính vì nguyên nhân này, các trình đọc tin tự động, hay các trang tổng hợp tin tức (tiếng Anh gọi là News aggregator) đã ra đời. Các trang này sẽ tổng hợp nội dung các trang, các mục từ các báo điện tử khác nhau, và đưa ra một giao diện duy nhất để tiện lợi cho người đọc. Như vậy thay vì phải đi kiếm thông tin, bằng cách dùng các trang tin tổng hợp, thông tin sẽ tự động đưa xuống cho người đọc.Đối với trang tổng hợp tin tức cho tiếng Việt, có thể nói baomoi.com đi tiên phong.Với hơn 100 nguồn tin và được cập nhật liên tục, các tin trên baomoi.com khá phong phú và cập nhật. Bên cạnh đó có thể kể đến một số site khác như vietica.com, xalo.vn, gocnhin.com, socbay.com, vsearch.vn,…. 1.2. Mục đích của để tài khóa luận Mục tiêu của đề tại là xây dựng một hệ thống hỗ trợ việc đọc báo tiếng Việt trên các website.Các nguồn báo được tổng hợp từ trên server, người dùng sử dụng mobile có kết nối internet (GPRS hoặc 3G) như một thiết bị client gửi yêu cầu tới server và lấy về các nguồn báo họ muốn xem. Người dùng nếu có điện thoại hỗ trợ Java thì có thể sử dụng chương trình. Nếu điện thoại của người dùng và nhà cung cấp dịch vụ cho phép tải ứng dụng trên Internet xuống điện thoại di động thì người dùng có thể tải trực tiếp ứng dụng từ địa chỉ URL do Web server cung cấp, nếu không thì phải cài đặt chương trình bằng cách giao tiếp với máy tính bằng hồng ngoại, cáp,... 1.3.1. Thách thức đối với phần tổng hợp tin tức Đối với các trình đọc tin, có hai bước để xử lý. Bước thứ nhất, hệ thống đơn giản sẽ chỉ load và hiện thị các tin theo thứ tự từ nguồn tin mà người dùng muốn đọc về dựa vào danh sách các rss của nguồn tin đó. Bước thứ hai, phức tạp hơn, đó là sau khi đã lấy được nội dung các nguồn tin về, cần phân loại các nguồn tin vào các nhóm khác nhau, xử lý loại bỏ các tin trùng lặp nội dung từ các nguồn khác nhau, đồng thời sắp xếp hiện thị các tin phù hợp với sở thích người dùng. Ở bước thứ nhất, hệ thống sẽ phải truy cập vào các trang tin rss từ các báo điện tử, từ đó lấy ra các đường dẫn tới bài báo gốc. Sau đó truy cập vào các bài báo gốc này để lấy ra nội dung của tin. Tuy nhiên, do mỗi một báo lại có một cách tổ chức hiện thị tin tức khác nhau, với mỗi một trang lại có các mã html khác nhau, nên hệ thống cần phải có cách xử lý cho từng trang báo một. Sau khi đã lấy hết nội dung các trang tin, hệ thống cần đưa ra cách để sắp xếp các tin tức này vào các chuyên mục khác nhau. Việc sắp xếp này là không thể phụ thuộc vào cách phần chia chuyên mục ở từng báo riêng biệt, bởi vì mỗi một tờ báo lại có một cách phân chia khác nhau. Trên Bảng 1 là danh sách các chuyên mục từ hai tờ báo có thể coi là có số lượng độc giả lớn nhất Việt Nam (theo thống kê từ alexa.com, báo vnexpress.net đứng thứ 4, và báo dantri.com.vn đứng thứ 6 trong danh sách các site có lượng truy cập nhiều nhất tại Việt Nam). Hai báo này tuy có một số chuyên mục là giống nhau, nhưng số chuyên mục còn lại lại rất khác nhau.
1 LỜI MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Xã hội ngày càng tiến bộ, nhu cầu tiếp cận thông tin của mọi người ngày càng lớn, nhưng thông tin có chọn lọc lại càng là nhu cầu lớn hơn, cũng xuất phát từ nhu cầu đó và cũng nhằm mục đích tạo một website tin tức tổng hợp, phục vụ cho tất cả mọi người, để họ có thể thuận tiện hơn trong việc tiếp cận thông tin tin tức mới nhất của khoa, trang web sẽ phục vụ cho mọi người có thể nắm bắt được các thông tin về kinh tế xã hội. Với việc bùng nổ các thông tin, tin tức trên web hiện nay nhiều vô kể và bạn không thể nào có đủ thời gian để đọc hết. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, dantri, vietnamenet,… Nếu phải vào từng trang để đọc thì rất mất thời gian, do đó nếu dùng trình tổng hợp tin tức để chỉ định các trang, mục nào của các báo cần được gom lại trong một giao diện duy nhất để đọc thì sẽ tiện lợi hơn rất nhiều. Việc ra đời một hệ thống đọc tin tự động từ các nguồn báo khác nhau trên điện thoại là cần thiết Tên đề tài:“ Xây dựng hệ thống tổng hợp thông tin kinh tế xã hội”. Phạm vi nghiên cứu: Website Tin tức của tổng hợp. Công cụ lấy thông tin tin tức bằng RSS Sử dụng vntokenizer Phương pháp nghiên cứu: Phương pháp khảo sát áp dụng:  Phỏng vấn.  Tài liệu. Phương pháp phân tích, tổng hợp: Mục đích để chứng minh từng luận điểm của đề tài có tính thuyết phục hơn. Phương pháp mô hình hóa hệ thống theo hướng đối tượng:  Hình dung hệ thống thực tế hay theo mong muốn của chúng ta.  Chỉ rõ cấu trúc hoặc ứng xử của hệ thống.  Tạo khuôn mẫu hướng dẫn nhà phát triển trong suốt quá trình xây dựng hệ thống. GVHD : SVTH: 2  Ghi lại các quyết định của nhà phát triển để sử dụng sau này.  Làm công cụ cho phép mọi thành viên phát triển dự án có thể hiểu và làm việc với nhau. GVHD : SVTH: 3 LỜI CẢM ƠN Trên thực tế không có sự thành công nào mà không gắn liền với những sự hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực tiếp hay gián tiếp của người khác. Trong suốt thời gian từ khi bắt đầu học tập ở giảng đường Đại học đến nay, chúng em đã nhận được rất nhiều sự quan tâm, giúp đỡ của Thầy Cô, gia đình và bạn bè. Với lòng biết ơn sâu sắc nhất, chúng em xin gửi đến Thầy Cô ở Tổng hợp – đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường. Và đặc biệt, trong kỳ này, Khoa đã tổ chức cho chúng em được tiếp cận với môn học rất hữu ích đối với sinh viên ngành Công Nghệ Thông Tin. Đó là môn: “”. Tuy nhiên, dù rất cố gắng nhưng do thời gian có hạn nên chắc rằng đồ án khó tránh khỏi thiếu sót. Chúng em rất mong nhận được sự thông cảm và đóng góp ý kiến của quý Thầy cô và các bạn để đồ án của chúng em được hoàn chỉnh hơn.Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp chúng em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án. Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên đồ án “” chắc chắn sẽ không thể tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các thầy cô và các bạn để đồ án này ngày càng hoàn thiện hơn. Hà Nội, ngày 01 tháng 1 năm 2017 Sinh viên thực hiện: (ký và ghi họ tên) GVHD : SVTH: 4 NHẬN XÉT (của cơ quan thực tập) ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... GVHD : SVTH: 5 NHẬN XÉT (của giảng viên phản biện) ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... ........................................................................................................................................... GVHD : SVTH: 6 MỤC LỤC CHƯƠNG 1: TỔNG QUAN HỆ THỐNG.......................................................19 1.1. Khảo sát hệ thống........................................................................................19 1.1.1. Hạ tầng và phần mềm của hệ thống.....................................................19 1.2. Phân tích yêu cầu của hệ thống..................................................................19 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động......................19 1.2.2. Yêu cầu cần đạt được của hệ thống.....................................................22 1.2.3. Phân tích quy trình nghiệp vụ của hệ thống........................................23 1.3. Bài toán tách từ và công cụ vnTokenizer...................................................24 CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG.....................................27 2.1. Biểu đồ Usecase..........................................................................................27 2.1.1. Các tác nhân của hệ thống...................................................................27 2.1.2. Biểu đồ Usecase mức tổng quát..........................................................28 2.1.3. Usecase Đăng nhập..............................................................................29 2.1.4. Usecase tạo tài khoản và thay đổi mật khẩu........................................30 2.1.5. Usecase quản lý chuyên mục...............................................................31 2.1.6. Usecase Tạo và phân quyền chuyên mục............................................32 2.1.7. Usecase tìm kiếm thông tin sản phẩm.................................................32 2.1.8. Usecase đọc tin và gửi phản hồi..........................................................33 2.2. Biểu đồ lớp..................................................................................................34 2.2.1. Biểu đồ lớp tổng quát của hệ thống.....................................................34 2.3. Biểu đồ tuần tự............................................................................................34 2.3.1. Chức năng Đăng nhập..........................................................................34 2.3.2. Chức năng Tạo tài khoản.....................................................................35 2.3.3. Chức năng Quản trị người dùng.........................................................36 2.3.4. Chức năng Quản lý chuyên mục..........................................................37  GVHD : 2.3.5. Chức năng Phân quyền viết bài................................................38 SVTH: 7 2.3.5. Chức năng Quản lý chuyên mục..........................................................40 2.3.6. Chức năng Quản lý bài viết.................................................................41 2.3.7. Chức năng Viết bài...............................................................................41 2.3.8. Chức năng Phản hồi.............................................................................42 2.3.9. Chức năng tìm kiếm.............................................................................44 2.4. Thiết kế cấu trúc cơ sở dữ liệu....................................................................45 2.5. Mô hình dữ liệu quan hệ.............................................................................49 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH...............................................51 3.1. Cài đặt chương trình...................................................................................51 3.2. Thiết kế giao diện website..........................................................................51 3.2.1. Thiết kế giao diện người dùng.............................................................51 3.2.2. Thiết kế giao diện quản trị...................................................................51 KẾT LUẬN........................................................................................................52 TÀI LIỆU THAM KHẢO.................................................................................53 GVHD : SVTH: 8 DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH Hình 2.1 Biểu đồ Usecase tổng quát của hệ thống................................................14 Hình 2.2 Biểu đồ Usecase Đăng nhập vào hệ thống.............................................14 Hình 2.3 Biểu đồ Usecase tạo tài khoản, thay đổi mật khẩu................................15 Hình 2.4 Biểu đồ Usecase quản lý chuyên mục.....................................................16 Hình 2.5 Biểu đồ Usecase Tạo và phân quyền chuyên mục..................................17 Hình 2.6 Biểu đồ Usecase tìm kiếm thông tin liên quan đến bài viết...................18 Hình 2.7 Biểu đồ usecase đọc tin và gửi phản hồi................................................18 Hình 2.8 Biểu đồ lớp mức tổng quát của hệ thống................................................19 Hình 2.9 Biểu đồ tuần tự cho chức năng Đăng nhập............................................20 Hình 2.10 Biểu đồ tuần tự cho chức năng tạo tài khoản.......................................21 Hình 2.11 Biểu đồ tuần tự cho chức năng Quản trị người dùng..........................22 Hình 2.12 Biểu đồ tuần tự cho chức năng quản lý chuyên mục............................23 Hình 2.13 Biểu đồ tuần tự cho chức năng phân quyền viết bài............................24 Hình 2.14 Biểu đồ tuần tự cho chức năng quản lý chuyên mục............................25 Hình 2.15 Biểu đồ tuần tự cho chức năng Quản lý bài viết..................................26 Hình 2.16 Biểu đồ tuần tự cho chức năng Viết bài...............................................27 Hình 2.17 Biểu đồ tuần tự cho chức năng phản hồi..............................................28 Hình 2.18 Biểu đồ tuần tự cho chức năng tìm kiếm..............................................29 Hình 2.19 Mô hình dữ liệu quan hệ.......................................................................35 Hình 3.1 Giao diện trang dành cho người dùng....................................................36 Hình 3.2 Giao diện trang chủ quản trị...................................................................36 GVHD : SVTH: 9 DANH MỤC TỪ VIẾT TẮT CBCNVC CMND CSDL GVHD : Cán bộ công nhân viên chức Chứng minh nhân dân Cơ sở dữ liệu SVTH: 10 CHƯƠNG 1: TỔNG QUAN HỆ THỐNG 1.1. Khảo sát hệ thống 1.1.1. Hạ tầng và phần mềm của hệ thống  Các web tin tức tổng hợp hiện nay đã phần nào đáp ứng được về yêu cầu cập nhật thông tin công nghệ mới cho người đọc. Nhưng chưa có nhiều trang web tự động lấy tin tức từ các nguồn tin tức khác nhau để phục vụ cho người đọc có thể nắm được thông tin chất lượng không phải tìm đọc từ nhiều trang khác nhau.  Các trang web tin tức về “Tổng hợp” hiện nay vẫn còn khá lá cải và chưa phục vụ được hết nhu cầu đọc tin cần.  Trên cơ sở tự tổng hợp thông tin từ các website trên internet theo tiêu chí chọn trước. Hiện nay, có nhiều phương pháp tự động tìm kiếm thông tin khác nhau, nhưng nhìn chung là các cách tiếp cận ñều dựa vào các trọng sốtrang Web (Chỉ sốquan trọng của trang trong tập kết quả), như: Page Bank, HITS và ứng dụng kỹthuật khai phá dữ liệu. Trong đó Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần ñây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, ñồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. 1.2. Phân tích yêu cầu của hệ thống 1.2.1. Nguyên nhân ra đời các hệ thống tổng hợp tin tự động Cập nhật thông tin luôn là nhu cầu thiết yếu của con người, cầm tớ báo mới cặm cụi đọc trên vỉa hè, trong công viên, hay nhâm nhi cốc cà phê vào buổi sáng đã là thói quen của nhiều người. Sự bùng nổ của internet đã cho ra đời báo điện tử. Với việc liên tục cập nhật và đưa ra các thông tin mới và nóng nhất, đồng thời cho phép người đọc tiếp cận các thông tin đó ở bất cứ thời gian và địa điểm nào, báo điện tử đã dần trở thành kênh thông tin quan trọng đối với người dùng internet. Có nhiều đánh giá cho rằng báo điện tử là điểm sáng của cách mạng công nghệ thông tin. Ngày càng xuất hiện nhiều tờ báo điện tử truyền tải thông tin dưới mọi hình thức mà các loại báo truyền thống cung cấp. Có thể kể tên một số trang báo điện tử lớn ở Việt Nam như: vnexpress.vn, dantri.com.vn, vietnamnet.vn, 24h.com.vn, tuoitre.com.vn, thanhnien.com.vn,… GVHD : SVTH: 11 Tuy nhiên, khi mà các trang báo điện tử ra đời quá nhanh, sẽ xuất hiện tình trạng “loạn” thông tin. Quá nhiều trang web tin tức, quá nhiều thông tin trùng lặp sẽ làm cho người đọc không biết phải chọn nguồn tin nào để xem. Lấy một ví dụ đơn giản, hàng ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress, tuoitre, thanhnien, dantri, hanoimoi,… Nếu phải vào từng trang để đọc thì rất mất thời gian, thêm vào đó nếu chỉ đọc 1, 2 mục tin trên mạng có lẽ là không đủ, chính vì nguyên nhân này, các trình đọc tin tự động, hay các trang tổng hợp tin tức (tiếng Anh gọi là News aggregator) đã ra đời. Các trang này sẽ tổng hợp nội dung các trang, các mục từ các báo điện tử khác nhau, và đưa ra một giao diện duy nhất để tiện lợi cho người đọc. Như vậy thay vì phải đi kiếm thông tin, bằng cách dùng các trang tin tổng hợp, thông tin sẽ tự động đưa xuống cho người đọc. Đối với trang tổng hợp tin tức cho tiếng Việt, có thể nói baomoi.com đi tiên phong. Với hơn 100 nguồn tin và được cập nhật liên tục, các tin trên baomoi.com khá phong phú và cập nhật. Bên cạnh đó có thể kể đến một số site khác như vietica.com, xalo.vn, gocnhin.com, socbay.com, vsearch.vn,…. 1.2. Mục đích của để tài khóa luận Mục tiêu của đề tại là xây dựng một hệ thống hỗ trợ việc đọc báo tiếng Việt trên các website. Các nguồn báo được tổng hợp từ trên server, người dùng sử dụng mobile có kết nối internet (GPRS hoặc 3G) như một thiết bị client gửi yêu cầu tới server và lấy về các nguồn báo họ muốn xem. Người dùng nếu có điện thoại hỗ trợ Java thì có thể sử dụng chương trình. Nếu điện thoại của người dùng và nhà cung cấp dịch vụ cho phép tải ứng dụng trên Internet xuống điện thoại di động thì người dùng có thể tải trực tiếp ứng dụng từ địa chỉ URL do Web server cung cấp, nếu không thì phải cài đặt chương trình bằng cách giao tiếp với máy tính bằng hồng ngoại, cáp,... 1.3.1. Thách thức đối với phần tổng hợp tin tức Đối với các trình đọc tin, có hai bước để xử lý. Bước thứ nhất, hệ thống đơn giản sẽ chỉ load và hiện thị các tin theo thứ tự từ nguồn tin mà người dùng muốn đọc về dựa vào danh sách các rss của nguồn tin đó. Bước thứ hai, phức tạp hơn, đó là sau khi đã lấy được nội dung các nguồn tin về, cần phân loại các nguồn tin vào các nhóm khác nhau, xử lý loại bỏ các tin trùng lặp nội dung từ các nguồn khác nhau, đồng thời sắp xếp hiện thị các tin phù hợp với sở thích người dùng. GVHD : SVTH: 12 Ở bước thứ nhất, hệ thống sẽ phải truy cập vào các trang tin rss từ các báo điện tử, từ đó lấy ra các đường dẫn tới bài báo gốc. Sau đó truy cập vào các bài báo gốc này để lấy ra nội dung của tin. Tuy nhiên, do mỗi một báo lại có một cách tổ chức hiện thị tin tức khác nhau, với mỗi một trang lại có các mã html khác nhau, nên hệ thống cần phải có cách xử lý cho từng trang báo một. Sau khi đã lấy hết nội dung các trang tin, hệ thống cần đưa ra cách để sắp xếp các tin tức này vào các chuyên mục khác nhau. Việc sắp xếp này là không thể phụ thuộc vào cách phần chia chuyên mục ở từng báo riêng biệt, bởi vì mỗi một tờ báo lại có một cách phân chia khác nhau. Trên Bảng 1 là danh sách các chuyên mục từ hai tờ báo có thể coi là có số lượng độc giả lớn nhất Việt Nam (theo thống kê từ alexa.com, báo vnexpress.net đứng thứ 4, và báo dantri.com.vn đứng thứ 6 trong danh sách các site có lượng truy cập nhiều nhất tại Việt Nam). Hai báo này tuy có một số chuyên mục là giống nhau, nhưng số chuyên mục còn lại lại rất khác nhau. Một điều cần chú ý bóc tách nội dung cho các trang báo điện tử đó là, nội dung một số bài báo chứa các ảnh liên quan, hệ thống tin tức cần phải giữ lại các ảnh. Bảng 1. Danh sách chuyên mục từ báo vnexpress và dantri.com.vn Một vấn đề cần quan tâm nữa khi tổng hợp các tin đó là làm sao phân biệt được tin nào là tin gốc, tin nào là tin đăng lại. Việc phân biệt này có các tác dụng: GVHD : SVTH: 13 • Giúp cho người đọc không cần phải đọc lại một tin nhiều lần, người đọc chỉ cần quan tâm đến tin được đưa lên đầu tiên mà thôi • Giúp cho hệ thống không cần phải lưu lại các tin đã có rồi • Giúp hệ thống xác định được các nguồn tin gốc, và các nguồn tin sao lưu lại. Từ đó sẽ có cách ứng xử riêng với từng nguồn tin một. Ví dụ: sẽ tập trung lấy từ các nguồn tin gốc, các nguồn tin lặp thì chỉ lấy các chuyên mục ít bị lặp hơn. 1.2.2. Yêu cầu cần đạt được của hệ thống Yêu cầu chung Cơ bản áp dụng rộng rãi, phổ biến cho nhiều người có thể sử dụng được, ít xảy ra lỗi, đầy đủ, rành mạch, rõ ràng... Có các chức năng cơ bản như: Quản lý chuyên mục, quản lý người dùng, đăng và quản lý bài, tìm kiếm thông tin… Giao diện đơn giản, thân thiện, đẹp và dễ nhìn. Đáp ứng được tính bảo mật trên website nói chung. Thao tác nhanh chóng, hợp lý, hiệu quả, chính xác.  Yêu cầu chi tiết của từng chức năng Qua những khảo sát và mục tiêu cần hướng tới ở trên, một yêu cầu cấp thiết cần đặt ra là xây dựng và phát triển một website xây dựng một website đưa thông tin về Tổng hợp : với những tin tức sự kiện trong khoa cũng như những thông tin của tỉnh nắm bắt. Việc xây dựng website phải đáp ứng được những yêu cầu sau:  Cung cấp cho người truy cập: o Thông tin về Tổng hợp. o Cung cấp thông tin về các nội dung tổng hợp. o Thông tin về việc làm, kinh tế,văn hóa xã hội. o Những bài viết tư vấn, chia sẻ kinh nghiệm.  Quản lý nội dung: Website có lượng thông tin nhiều được chia thành nhiều loại tin, thông tin được tổ chức phân chia theo nhiều nhóm, nhiều cấp nên phải quản lý một cách dễ dàng, tìm kiếm chính xác.  Cho phép thay đổi cập nhật thông tin.  Website phải có chức năng phản hồi feedback cho người xem qua đó ta có thể tiếp thu được những ý kiến đóng góp của người truy cập để hoàn thiện website theo đúng mục tiêu hơn.  Có mục hỏi đáp tư vấn FAQ: giải đáp trao đổi tất cả những thắc mắc, đưa ra những ý kiến về định hướng nghề nghiệp để website có tính mở với sinh viên.  Website là nơi cung cấp thông tin chính thống về Tổng hợp trường đại học Điện Lực.  Thu thập tổng hợp tin tức, đánh giá dựa trên nội dung chuyên mục,liệt kê bài liên quan.  GVHD : SVTH: 14  Thống kê lượt người truy câp theo ngày, tuần, tháng, quý.  Website đảm bảo tính bảo mật trong quản trị, tối ưu hóa về quản trị nội dung, đăng tải một cách dễ dàng, thân thiện với đối tượng người truy cập, gam màu năng động phù hợp với sinh viên những người trên con đường lập nghiệp.      Công Yêu cầu về kĩ thuật Môi trường ứng dụng Trên hosting asp.net và MS SQL 2008. Trên một domain quốc tế. cụ sử dụng phát triển phần mềm: Làm ứng dụng bằng ASP.net sử dụng công cụ hỗ trợ thiết kế FCKeditor, AjaxcontrolToolkit. Triển khai trên môi trường .NET, database: SQL Server 2000 hoặc SQL Server 2005, sử dụng Visual Studio 2008, LinQ, sử dụng vntokenizer . 1.2.3. Phân tích quy trình nghiệp vụ của hệ thống  Quy trình nghiệp vụ chung  Trang web luôn có administrator (Admin) quản lý toàn bộ hệ thống. Admin phân quyền cho các moderator (Mode) quản lý từng chuyên mục để quản lý dễ dàng hơn và chuyên sâu hơn.  Admin thực hiện các chức năng: o Quyền quản lý là quyền cao nhất của hệ thống. Những người giữ vai trò quản lý chính có thể phân quyền cho các thành viên trong website. o Adminstrator có thể thực hiện được tất cả các chức năng của website như: Tạo tài khoản, quản lý tài khoản thành viên, quản lý và phân quyền các chuyên mục, đăng tin, sửa và xóa tin, bài… o Adminstrator có quyền thêm, sửa, xóa, cập nhật thông tin mới.  Quy trình nghiệp vụ chi tiết  Quản trị chuyên mục Website được chia thành nhiều chuyên mục, mỗi chuyên mục sẽ được upload lên những thông tin chuyên sâu về lĩnh vực đó. Trang web có thể có nhiều chuyên mục như lập trình với Aspnet-C#, lập trình với javascript-css-html, cơ sở dữ liệu, các thủ thuật của công nghệ.  Quản trị người dùng Admin sẽ phân quyền sử dụng cho các thành viên trong ban quản trị. Những người này(Moderator) sẽ chịu trách nhiệm chính về một chuyên mục cụ thể. GVHD : SVTH: 15  Tìm kiếm tin tức Khi người truy cập muốn tìm kiếm một bài viết nào đó, hệ thống sẽ cung cấp những thông tin liên quan đến bài viết mà người truy cập muốn tìm kiếm.  Đăng và quản lý tin bài Các Moderator sẽ đăng những bài viết có nội dung thông tin liên quan đến lĩnh vực công nghệ phần mềm. Những người truy cập cũng có thể gửi bài đăng lên hệ thống và hệ thống sẽ xem xét, nếu như bài đó có nội dung và chất lượng phù hợp thì sẽ cho đăng bài viết đó.  Quy trình thống kê Đưa ra những thống kê về lượt người truy cập theo ngày, tháng, tuần… Từ số liệu thống kê đó mà hệ thống có thể biết được tình trạng hoạt động cũng như chất lượng của trang web để mà từ đó có những thay đổi điều chỉnh cho phù hợp với tình hình thực tại 1.3. Bài toán tách từ và công cụ vnTokenizer Đặt bài toán Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới). Giới thiệu công cụ vnTokenizer vnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên phương pháp so khớp tối đa (Maximum Matching) với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt. Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở. Có thể đễ dàng sửa đổi nâng cấp và tích hợp vào các hệ thống phân tích văn bản tiếng Việt khác. Quy trình thực hiện tách từ theo phương pháp khớp tối đa: GVHD : SVTH: 16 Hình 1. Quy trình tách từ - Đầu vào của công cụ tách từ vnTokenizer là một câu hoặc một văn bản được lưu dưới dạng tệp. Đầu ra là một chuỗi các đơn vị từ được tách. Các đơn vị từ bao gồm các từ trong từ điển cũng như các chuỗi số, chuỗi kí từ nước ngoài, các hình vị ràng buộc (gồm các phụ tố), các dấu câu và các chuỗi kí tự hỗn tạp khác trong văn bản (ISO, 2008). Các đơn vị từ không chỉ bao gồm các từ có trong từ điển, mà cả các từ mới hoặc các từ được sinh tự do theo một quy tắc nào đó (như phương thức thêm phụ tố hay phương thức láy) hoặc các chuỗi kí hiệu không được liệt kê trong từ điển. Công cụ sử dụng tập dữ liệu đi kèm là tập từ điển từ vựng tiếng Việt, danh sách các đơn vị từ mới bổ sung, được biểu diễn bằng ôtômat tối tiểu hữu hạn trạng thái, tệp chứa các biểu thức chính quy cho phép lọc các đơn vị từ đặc biệt (xâu dạng số, ngày tháng,…), và các tệp chứa các thống kê unigram và bigram trên kho văn bản tách từ mẫu. Với các đơn vị từ đã có trong từ điển, khi thực hiện tách từ cũng được xử lý hiện tượng nhập nhằng bằng cách kết hợp với các thống kê unigram và bigram. Chẳng hạn trong tiếng Việt thường gặp các trường hợp nhập nhằng như: - Xâu AB vừa có thể hiểu là 1 đơn vị từ, vừa có thể là chuỗi 2 đơn vị từ A-B. - Xâu ABC có thể tách thành 2 đơn vị AB-C hoặc A-BC. Đánh giá kết quả Kết quả đánh giá của công cụ được cho là ổn định đối với nhiều loại văn bản/ văn phong khác nhau. Độ chính xác trung bình đạt được là khoảng 94%. GVHD : SVTH: 17 GVHD : SVTH: 18 CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ HỆ THỐNG 2.1. Biểu đồ Usecase 2.1.1. Các tác nhân của hệ thống STT Tên Actor Giải thích 1 Quản trị (Adminstrator)  Adminstrator là tác nhân giữ vai trò chính của website: Quyền quản lý là quyền cao nhất của hệ thống. Những người giữ vai trò quản lý chính có thể phân quyền cho các thành viên trong website.  Tác nhân Adminstrator có thể thực hiện được tất cả các chức năng của website như: Tạo,quản lý tài khoản thành viêntức là Adminstrator có quyền sửa hay xóa tài khoản của các thành viên trong ban quản trị các chuyên mục tin. Ngoài ra Adminstrator còn quản lý và phân quyền cho các chuyên mục, đăng tin, sửa tin và xóa tin, bài.  Tác nhân Adminstrator có quyền thêm, sửa, xóa và cập nhật các thông tin mới. 2 Quản lý chuyên mục  Đăng nhập hệ thống: Mỗi một thành viên có (User/ Mod) một số quyền giới hạn do người Adminstrator giao cho.  Đăng ký tài khoản thành viên khi muốn tham gia website.  Đăng tin mới: Khi có thông tin mới cần đăng thì Users biên tập thông tin và đăng lên website.  Sửa thông tin: Khi cần update, sửa thông tin thì Users sẽ vào bài viết đó và sửa thông tin cho chính xác.  Xóa thông tin: Khi thông tin quá cũ và không cần thiết thì Users tìm thông tin đó và xóa khỏi CSDL.  Người quản trị chuyên mục còn có nhiệm vụ duyệt các lời phản hồi (feedback) từ các đọc giả trong các chuyên mục thuộc phạm vi quản lý của GVHD : SVTH: 19 mình. 3 Khách (Visiter)  Truy cập Website xem, tìm kiếm thông tin các bài viết cần.  Feedback (phản hồi) ý kiến của Visiter về bài viết.  Visiter có quyền tạo một account cho riêng mình. Bảng 2.1 Danh sách các Actor của hệ thống. ST T Tên Usecase Actor liên quan Ghi chú 1 Đăng nhập Admin và Mod Có được quyền truy cập vào hệ thống. 2 Phân quyền các Actor Admin Phân quyền cho các actor có trong hệ thống. 3 Quản lý chuyên mục Mod Có được quyền thêm mới, sửa xóa các bài viết trong chuyên mục. 4 Tạo, phân quyền chuyên mục Admin Có được quyền thêm mới, sửa phân quyền đối với các chuyên mục. 5 Tìm kiếm Admin, Visiter. 6 Đọc bản tin và gửi phản hồi Visiter Admin Mod và và Mod, Tìm kiếm các tin, bài cần xem. Đọc các bài viết và phản hồi về nội dung bài viết. Bảng 2.2 Danh sách các Usecase của hệ thống GVHD : SVTH: 20 2.1.2. Biểu đồ Usecase mức tổng quát Hình 2.1 Biểu đồ Usecase tổng quát của hệ thống 2.1.3. Usecase Đăng nhập Hình 2.2 Biểu đồ Usecase Đăng nhập vào hệ thống  Tác nhân : Admin và User/Mod  Tóm tắt: Chức năng này cho phép Admin và các thành viên trong ban quản trị đăng nhập vào hệ thống để sử dụng các chức năng mà mình đã được phân quyền trong website. Use case đăng nhập bao giờ cũng được hiện ra trước tiên khi người dùng muốn vào hệ thống, usecase này yêu cầu Admin và các thành viên website phải đăng nhập mới có thể thực hiện được các chức năng của hệ thống. GVHD : SVTH:
- Xem thêm -

Tài liệu liên quan