BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
---------------------------
NGUYỄN THỊ HẢI HÀ
XÂY DỰNG HỆ THỐNG DỰ ĐOÁN KHẢ NĂNG
NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG
CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ
BÀ RỊA VŨNG TÀU
LUẬN VĂN THẠC SĨ
Bà Rịa - Vũng Tàu, tháng 4 năm 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
---------------------------
NGUYỄN THỊ HẢI HÀ
XÂY DỰNG HỆ THỐNG DỰ ĐOÁN KHẢ NĂNG
NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG
CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ
BÀ RỊA VŨNG TÀU
LUẬN VĂN THẠC SĨ
Chuyên ngành
: Công nghệ thông tin
Mã ngành
: 8480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC:
TS. BÙI THỊ THU TRANG
Bà Rịa-Vũng Tàu, tháng 4 năm 2021
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là bài luận văn của riêng tôi, do chính tôi nghiên cứu. Các
dữ liệu sử dụng được thu thập thực tế và kết quả nghiên cứu trong Luận văn là hoàn
toàn trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện nghiên cứu này
đều đã được cảm ơn và trích dẫn đầy đủ trong bài luận văn.
Tác giả Luận văn
(Ký và ghi rõ họ tên)
ii
LỜI CẢM ƠN
Đầu tiên, tác giả xin được gửi tới các thầy cô trong Viện Đào tạo quốc tế và sau đại
học, các thầy cô giảng viên cơ hữu cũng như thỉnh giảng của trường Đại học Bà Rịa
Vũng Tàu, lời cảm ơn chân thành nhất vì đã hướng dẫn và giúp đỡ tác giả hoàn thành
chương trình Cao học chuyên ngành Công nghệ thông tin một cách tốt nhất, cũng như
đã hướng dẫn em những kiến thức mới làm nền tảng cho em thực hiện được bài luận văn
này, và trang bị được nhiều kiến thức hữu ích cho công việc.
Tác giả cũng xin chân thành bày tỏ lòng cảm ơn sâu sắc đến TS. Bùi Thị Thu Trang
đã tận tình hướng dẫn tác giả thực hiện bài luận văn này. Dưới sự hướng dẫn của Cô, tác
giả đã từng bước tiếp cận được với công việc nghiên cứu khoa học, biết cách kết hợp
nghiên cứu dựa trên lý thuyết và thực tiễn, đồng thời biết ứng dụng phần mềm cho việc
nghiên cứu. Sau khi hoàn thành bài luận văn, em nhận thấy kiến thức của mình trong
suốt quá trình học đã được xâu chuỗi lại một cách có hệ thống và bước đầu biết cách
thực hiện nghiên cứu khoa học theo đúng lộ trình.
Tác giả cũng xin được chân thành cảm ơn các anh chị đồng nghiệp đã hỗ trợ tác
giả có được các thông tin và dữ liệu hữu ích cho việc thực hiện nghiên cứu.
Một lần nữa, tác giả xin chân thành cảm ơn sự hướng dẫn và giúp đỡ của tất cả các
thầy cô, các anh chị và các bạn. Kính chúc các thầy cô và các bạn nhiều sức khỏe và
thành công.
Tác giả luận văn
iii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... i
LỜI CẢM ƠN ........................................................................................................ ii
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ v
DANH MỤC CÁC BẢNG BIỂU ........................................................................... vi
DANH MỤC CÁC HÌNH VẼ............................................................................... vii
TÓM TẮT .............................................................................................................. 1
MỞ ĐẦU ................................................................................................................ 2
1. Lý do chọn đề tài..................................................................................................... 2
2. Tính cấp thiết của đề tài.......................................................................................... 3
3. Mục tiêu, nội dung và phương pháp nghiên cứu .................................................. 3
4. Nội dung nghiên cứu .............................................................................................. 4
5. Phương pháp luận và phương pháp nghiên cứu .................................................... 4
6. Kết cấu luận văn...................................................................................................... 5
TÓM TẮT PHẦN MỞ ĐẦU ................................................................................. 6
CHƯƠNG 1. GIỚI THIỆU MACHINE LEARNING CƠ BẢN ........................ 7
1.1. Khái niệm về Machine learning .......................................................................... 7
1.2. Phân nhóm.......................................................................................................... 11
1.2.1. Phân nhóm dựa trên phương thức học ................................................... 11
1.1.2. Phân nhóm dựa trên chức năng ............................................................. 16
TÓM TẮT CHƯƠNG 1 ...................................................................................... 25
CHƯƠNG 2. ỨNG DỤNG MẠNG NEURAL NETWORK CHO BÀI TOÁN
DỰ ĐOÁN KHẢ NĂNG NHẬP HỌC CỦA HỌC SINH VÀO TRƯỜNG CAO
ĐẲNG KỸ THUẬT CÔNG NGHỆ BÀ RỊA -VŨNG TÀU ............................... 26
2.1. Giới thiệu Neural Network................................................................................ 26
2.1.1 Khái niệm .............................................................................................. 26
2.1.2. Lịch sử phát triển của mạng nơron nhân tạo .......................................... 27
2.1.3. Ứng dụng.............................................................................................. 28
2.2. Cấu tạo và phân loại của mạng nơron nhân tạo ............................................... 29
2.2.1. Cấu tạo của mạng nơron nhân tạo ......................................................... 29
iv
2.2.2. Phân loại mạng nơron nhân tạo ............................................................. 30
2.3. Các thành phần cơ bản của mạng nơron nhân tạo ........................................... 32
2.3.1. Đơn vị xử lý ......................................................................................... 32
3.3.2. Hàm kết hợp ......................................................................................... 33
3.3.3. Hàm kích hoạt ...................................................................................... 33
2.4. Mạng truyền thẳng nhiều lớp và thuật toán lan truyền ngược ........................ 34
2.4.1.Mạng truyền thẳng nhiều lớp ................................................................. 34
2.4.2. Thuật toán lan truyền ngược (Back – Propagation Algorithm) .............. 38
2.5. Ứng dụng mạng nơ ron giải quyết bài toán ...................................................... 45
TÓM TẮT CHƯƠNG 2 ...................................................................................... 47
CHƯƠNG 3. XÂY DỰNG MÔ HÌNH DỰ ĐOÁN KHẢ NĂNG NHẬP HỌC
CỦA HỌC SINH VÀO TRƯỜNG CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ
BÀ RỊA – VŨNG TÀU ........................................................................................ 48
3.1. Giới thiệu trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu .......... 48
3.2. Tiến trình nghiên cứu ........................................................................................ 49
3.3. Thu thập dữ liệu ................................................................................................. 51
3.4. Phân tích và lựa chọn đặc trưng ........................................................................ 52
3.5. Tiền xử lý dữ liệu ................................................................................................. 60
3.6 Cấu trúc mạng nơ-ron ........................................................................................ 59
3.7. Huấn luyện mạng nơ-ron model ...................................................................... 60
3.8 Kiểm tra mạng nơ-ron Test ................................................................................ 67
TÓM TẮT CHƯƠNG 3 ...................................................................................... 70
NHẬN XÉT KẾT LUẬN, HƯỚNG PHÁT TRIỂN ........................................... 71
1. Ưu điểm ................................................................................................................. 71
2. Nhược điểm ........................................................................................................... 71
3. Phạm vi ứng dụng ................................................................................................. 71
4. Hướng phát triển tiếp theo .................................................................................... 72
TÀI LIỆU THAM KHẢO ................................................................................... 73
v
DANH MỤC CÁC TỪ VIẾT TẮT
TT
TÊN VIẾT TẮT
TÊN ĐẦY ĐỦ
DIỄN GIẢI
1
AI
2
ANN
3
BP
4
CNTT
Công nghệ thông tin
5
CBTP
Chế biến thực phẩm
6
MLP
MultiLayer Perceptron
Mạng nơron nhiều lớp
7
LMS
Least Mean Square
Bình phương nhỏ nhất
8
THCS
Trung học cơ sở
9
THPT
Trung học phổ thông
Artificial Intelligence
Trí tuệ nhân tạo
Artificial Neural Network
Mạng nơron nhân tạo
Back Propagation
Lan truyền ngược
Nghề đăng ký nhập học
là Công nghệ thông tin
Nghề đăng ký nhập học
là Chế biến thực phẩm
Trình độ học sinh là
Trung học cơ sở
Trình độ học sinh là
Trung học phổ thông
vi
DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1. Dữ liệu tạo Model với một số đặc trưng cơ bản ..................................... 63
Bảng 3.2. Một số đặc trưng giá trị trung bình......................................................... 63
Bảng 3.3. Thông số trong model ............................................................................ 64
Bảng 3.4. Mạng nơ ron với số đầu vào và ra .......................................................... 64
vii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Dữ liệu được phân chia làm hai tập điểm ................................................. 9
Hình 1.2. Dữ liệu phức tạp, không được phân chia ................................................ 10
Hình 1.3. MNIST Bộ cơ sở dữ liệu của chữ số viết tay .......................................... 12
Hình 1.4. AlphaGo chơi cờ vây với Lee Sedol. AlphaGo là một ví dụ của
Reinforcement learning ......................................................................................... 15
Hình 1.5. Regression Algorithms ........................................................................... 16
Hình 1.6. Instance-based Algorithms ..................................................................... 17
Hình 1.7. Regularization Algorithms ..................................................................... 18
Hình 1.8. Decision Tree Algorithms ...................................................................... 18
Hình 1.9. Bayesian Algorithms .............................................................................. 19
Hình 1.10. Clustering Algorithms .......................................................................... 20
Hình 1.11. Association Rule Learning Algorithms................................................. 21
Hình 1.12. Deep Learning Algorithms ................................................................... 21
Hình 1.13. Dimensional Reduction Algorithms ..................................................... 22
Hình 1.14. Ensemble Algorithms ........................................................................... 23
Hình 1.15. Artificial Neural Network Algorithms ................................................. 23
Hình 2.1. Mô hình một mạng nơron nhân tạo ........................................................ 29
Hình 2.2. Phân loại mạng nơron ............................................................................ 31
Hình 2.3. Mô hình mạng Noron nhân tạo ............................................................... 33
Hình 2.4. Mạng truyền thẳng nhiều lớp ................................................................. 35
Hình 3.1. Sơ đồ tiến trình nghiên cứu .................................................................... 50
Hình 3.2. Biểu đồ thể hiện sự phân bổ của dữ liệu Năm tốt nghiệp ........................ 53
Hình 3.3. Biểu đồ thể hiện sự phân bổ của dữ liệu Năm xét tuyển ......................... 54
Hình 3.4. Biểu đồ thể hiện sự phân bổ của dữ liệu Trình độ THCS và THPT......... 55
Hình 3.5. Biểu đồ thể hiện sự phân bổ của dữ liệu Giới tính .................................. 55
Hình 3.6. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Cơ khí .......................... 56
Hình 3.7. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Điện ............................. 56
Hình 3.8. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Công nghệ thông tin ..... 57
viii
Hình 3.9. Biểu đồ thể hiện sự phân bổ của dữ liệu Ngành Chế biến thực phẩm...... 57
Hình 3.10. Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh viên ở thành phố ............ 58
Hình 3.11. Biểu đồ thể hiện sự phân bổ của dữ liệu Sinh viên ở trong tỉnh ............ 58
Hình 3.12. Mô hình cấu trúc mạng Noron MLP ..................................................... 61
Hình 3.13. Giá trị loss sau mỗi epoch .................................................................... 66
1
TÓM TẮT
Mục tiêu nghiên cứu của đề tài là: Ứng dụng công nghệ máy học để xây dựng
hệ thống dự đoán khả năng nhập học của học sinh vào trường Cao đẳng Kỹ thuật
Công nghệ Bà Rịa – Vũng Tàu. Kết quả nghiên cứu sẽ được dùng làm cơ sở đề xuất
những chiến lược tuyển sinh phù hợp đồng thời đưa các chế độ và chính sách hấp dẫn
nhằm nâng cao khả năng nhập học của học sinh.
Phương pháp nghiên cứu là kết hợp phương pháp định tính và phương pháp
định lượng; tác giả đã tiến hành nghiên cứu sơ bộ, nghiên cứu chính thức và đưa ra
được quy trình nghiên cứu.
Tác giả tiến hành lấy dữ liệu tuyển sinh trong vòng 5 năm từ năm 2015 đến năm
2019 tại trường. Từ kết quả nghiên cứu của mô hình cho thấy trong số dữ liệu được
đưa vào mô hình phân tích, có những dữ liệu có ảnh hưởng đến khả năng nhập học
của học sinh sinh viên như là: ngành đào tạo, năm tốt nghiệp, điểm toán, điểm lý,
điểm tổng, điểm sàn, học sinh sinh viên ở trong tỉnh, học sinh sinh viên ở ngoài tỉnh,
học sinh sinh viên ở thành phố và học sinh sinh viên ở các huyện.
Từ kết quả phân tích, tác giả đã đề xuất phương án nhằm nâng cao khả năng
nhập học của học sinh sinh viên vào học tại Trường Cao đẳng Kỹ thuật Công nghệ
Bà Rịa – Vũng Tàu.
Hy vọng kết quả nghiên cứu sẽ góp phần tạo cơ sở khoa học giúp lãnh đạo của
Trường nghiên cứu đưa ra những chính sách, chế độ quản lý phù hợp nhằm nâng cao
tỷ lệ nhập học của học sinh sinh viên vào Trường Cao đẳng Kỹ thuật Công nghệ Bà
Rịa – Vũng Tàu.
2
MỞ ĐẦU
1. Lý do chọn đề tài
Bắt đầu từ năm 2018 Bộ Giáo dục và Đào tạo không quy định chung ngưỡng
đảm bảo chất lượng đầu vào (điểm sàn) cho các trường như năm 2017 trở về trước.
Thay vào đó các trường tự xác định điểm sàn theo tình hình thực tế, đây là một hình
thức trong quy định tự chủ đại học được bắt đầu bằng hình thức tự chủ tuyển sinh.
Cũng từ năm 2018, Bộ Giáo dục và Đào tạo đã cho phép các trường tự xác định điểm
sàn, các trường có thể tuyển sinh riêng bằng cách xét học bạ, tuyển thẳng… Đến thời
điểm hiện tại nhiều trường đã công bố phương án tuyển sinh các trình độ đào tạo của
trường mình bằng nhiều hình thức. Tuy nhiên đa phần các trường vẫn tin dùng kết
quả thi tuyển của kỳ thi trung học phổ thông quốc gia do Bộ Giáo dục và Đào tạo tổ
chức. Ngoài ra nhiều trường cũng dùng thêm các phương án tuyển sinh riêng như bài
thi đầu vào, tuyển thẳng thí sinh, hay xét bằng hình thức học bạ trung học phổ thông.
Trên thực tế các trường cũng không tuyển được nhiều thí sinh theo các phương thức
này. Không phải tất cả các cơ hội trúng tuyển đều hấp dẫn thí sinh và ngay cả một số
trường công lập cũng đang lo lắng không tuyển đủ chỉ tiêu [1].
Trải qua hơn 20 năm hình thành và phát triển, với phương châm “Luôn luôn đổi
mới vì nguồn nhân lực chất lượng cao” Trường Cao Đẳng Kỹ thuật Công nghệ Bà
Rịa – Vũng Tàu đã đạt được nhiều thành tích, đồng thời cũng đã xây dựng được một
thương hiệu uy tín và có chất lượng, là một trong 40 trường trọng điểm quốc gia về
lĩnh vực đào tạo nghề. Tuy nhiên, một thực tế cho thấy rằng trường Cao đẳng Kỹ
thuật Công nghệ Bà Rịa - Vũng Tàu năm 2020 cũng đang đứng trước nỗi lo tuyển
sinh không đủ chỉ tiêu. Trường cũng đưa ra những phương thức tuyển sinh mới để
thu hút học sinh tới tham quan, trải nghiệm với các ngành nghề tại trường. Số học
sinh tới trường nộp hồ sơ đã tăng lên nhưng do học sinh có rất nhiều cơ hội vào học
tại các trường đại học dẫn đến trường hợp học sinh nộp hồ sơ nhưng lại không đến
làm thủ tục nhập học.
Với vai trò là giảng viên kiêm nhiệm chuyên viên đào tạo, tác giả đã nhận thấy
được vai trò quan trọng của việc tuyển sinh đạt chỉ tiêu tại trường, tác giả mong muốn
3
đóng góp một phần nhỏ giúp ban lãnh đạo trường hiểu rõ hơn các nhân tố ảnh hưởng
đến khả năng nhập học của học sinh sinh viên. Với những lý do trên, tác giả chọn đề
tài “Xây dựng hệ thống dự đoán khả năng nhập học của học sinh vào Trường Cao
đẳng Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu” làm nội dung luận văn tốt nghiệp
Thạc sĩ.
2. Tính cấp thiết của đề tài
Có thể nói rằng, tuyển sinh đủ chỉ tiêu có vai trò quyết định đến sự tồn tại và
phát triển của các trường, đặc biệt trong thời kỳ các trường phải tự chủ. Do đó, để
tuyển được học sinh sinh viên mỗi trường cần xây dựng thương hiệu và phải có
phương án tuyển sinh cho phù hợp.
Trong bối cảnh hiện nay các trường Cao đẳng, Đại học cạnh tranh nhau tuyển
sinh do đó học sinh có nhiều nguyện vọng học tại các trường khác nhau. Vì vậy khi
học sinh đến tìm hiểu thông tin về trường và nộp hồ sơ thì trường phải xây dựng được
mô hình dự đoán khả năng nhập học của học sinh để từ kết quả đó nắm bắt cơ hội,
nhận diện những học sinh có khả năng cao chắc chắn sẽ nhập học vào trường. Căn cứ
kết quả dự đoán đưa ra những chế độ, chính sách hấp dẫn để thu hút học sinh tới nhập
học.
Việc xây dựng mô hình dự báo khả năng nhập học của học sinh vào trường
dựa vào các đặc trưng của học sinh như kết quả xét điểm học bạ, năm tốt nghiệp, khu
vực, hộ khẩu thường trú,… và áp dụng mạng nơron là cần thiết và mang tính khả thi
cao.
3. Mục tiêu, nội dung và phương pháp nghiên cứu
- Đối tượng nghiên cứu: Đề tài lần lượt nghiên cứu thông tin của học sinh để
từ đó phân loại các nhân tố ảnh hưởng đến việc học sinh tới nhập học tại trường Cao
đẳng Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu. Các thuật toán được nghiên cứu trong
đề xuất quá trình huấn luyện mạng nơ ron cũng như phân lớp cho học sinh tới nhập
học tại trường.
4
- Phạm vi nghiên cứu: thu thập thông tin nộp hồ sơ của học sinh trong vòng 5
năm từ năm 2015 đến năm 2019. Tác giả tiến hành phân loại, đánh giá các thông tin
của học sinh.
- Mục tiêu tổng quát: Ứng dụng công nghệ máy học để xây dựng hệ thống
dự đoán khả năng nhập học của học sinh vào trường từ đó đưa ra các chế độ và chính
sách hấp dẫn để thu hút học sinh đến nhập học tại trường Cao đẳng Kỹ thuật Công
nghệ Bà Rịa – Vũng Tàu.
- Mục tiêu cụ thể:
+ Hệ thống hóa, phân loại các thông tin từ học sinh tới nộp hồ sơ;
+ Xác định những thông tin ảnh hướng tới việc nhập học của học sinh. Cụ thể
như ngành đào tạo, giới tính, điểm xét học bạ, hộ khẩu thường trú,…;
+ Xây dựng được mô hình dự đoán khả năng nhập học từ đó đề xuất những
phương án tư vấn tuyển sinh để thu hút học sinh đến nhập học tại trường Cao đẳng
Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu.
4. Nội dung nghiên cứu
- Nghiên cứu cơ sở lý luận về các thuật toán Neural Network, bài toán phân
loại 2 class,…;
- Nghiên cứu các đặc trưng của học sinh ảnh hưởng trực tiếp và gián tiếp đến
việc nhập học, dữ liệu thông tin nộp hồ sơ của học sinh từ năm 2015 đến năm 2019;
- Xác định được vị trí và tầm quan trọng của việc dự đoán học sinh tới nhập
học;
- Ứng dụng các thuật toán để đưa ra kết quả dự đoán khả năng nhập học chính
xác nhất.
5. Phương pháp luận và phương pháp nghiên cứu
Trong quá trình nghiên cứu, tác giả luận văn thu thập thông tin theo nhiều cách
thức khác nhau, cụ thể:
5
Tiếp cận về lý thuyết: Tìm kiếm, tổng hợp những lý thuyết Machine learning
và các thuật toán Neural Network từ nhiều nguồn khác nhau như sách báo, giáo trình,
internet.
Tiếp cận thực tế:
- Thu thập thông tin của học sinh nộp hồ sơ vào học tại trường Cao đẳng Kỹ
thuật Công nghệ Bà Rịa – Vũng Tàu.
- Từ những thông tin thu thập được, tác giả sẽ áp dụng các thuật toán để đưa
ra những dự đoán khả năng nhập học của học sinh nhằm định hướng cho nhà trường
có các chiến lược tư vấn tuyển sinh phù hợp.
6. Kết cấu của luận văn
Luận văn gồm có 3 chương, được trình bày theo kết cấu như sau:
MỞ ĐẦU
CHƯƠNG 1: Giới thiệu Machine learning cơ bản
CHƯƠNG 2: Ứng dụng mạng Neural network cho bài toán dự đoán khả năng
nhập học của học sinh vào Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa -Vũng
Tàu
CHƯƠNG 3: Xây dựng mô hình dự đoán khả năng nhập học của học sinh vào
trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa – Vũng Tàu
NHẬN XÉT KẾT LUẬN, HƯỚNG PHÁT TRIỂN
6
TÓM TẮT MỞ ĐẦU
Trong phần mở đầu tác giả đã trình bày lý do chọn đề tài, phân tích một số công
trình nghiên cứu đã công bố liên quan đến đề tài. Đồng thời đưa ra mục tiêu nghiên
cứu bao gồm mục tiêu tổng quát và mục tiêu cụ thể, đối tượng và phạm vi nghiên
cứu, phương pháp nghiên cứu và kết cấu 3 chương của luận văn.
7
CHƯƠNG 1. GIỚI THIỆU MACHINE LEARNING CƠ BẢN
1.1. Khái niệm về Machine learning
Machine Learning là một tập con của Artificial Intelligence (AI). Theo định
nghĩa của Tom Michell “Definition: A computer program is said to learn from
experience E with respect to some class of tasks T and performance measure P, if its
performance at tasks in T, as measured by P, improves with experience E.” Nói cách
khác, Machine Learning là một lĩnh vực nhỏ của Khoa học máy tính, nó có thể tự học
hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể [2].
Machine learning đã tạo ra cơn sốt công nghệ trên cả Việt Nam và toàn thế giới
trong vài năm gần đây. Các công ty lớn như Facebook, Google, Microsoft đến các
công ty nhỏ và vừa đều đầu tư vào Machine learning. Trong cuộc sống hiện nay các
ứng dụng sử dụng Machine learning xuất hiện trên mọi lĩnh vực từ ngành khoa học
máy tính đến những ngành ít liên quan hơn như công nghệ hóa học, vật lý, y học,
chính trị. Cỗ máy đánh cờ vây AlphaGo là một trong những ví dụ tiêu biểu cho sự
phát triển vượt trội của Machine learning so với các phương pháp cổ điển, với khả
năng tính toán trong một không gian có số lượng phần tử lớn hơn số lượng hạt trong
vũ trụ, tối ưu hơn cả đại kì thủ [3].
Để giới thiệu cụ thể hơn về Machine learning, dựa vào mối quan hệ của nó với
ba khái niệm sau:
Machine learning và Trí tuệ nhân tạo (Artificial Intelligence hay AI)
Machine learning và thuật ngữ “Big Data”.
Machine learning và Dự đoán tương lai.
Trí tuệ nhân tạo (AI) được nhắc tới như một ngành của khoa học máy tính. Nó
liên quan trực tiếp đến việc tự động hóa các hành vi thông minh. Các nhà khoa học
đặt ra một số mục tiêu cụ thể đó là làm cho máy tính lừa được Turing Test. Alan
Turing (1912-1954) đã tạo ra Turing Test, ông được xem là cha đẻ của ngành khoa
học máy tính hiện đại, ứng dụng này giúp phân biệt đối tượng đối diện có phải là
người hay không [3], [12].
8
Nếu Machine learning là một phương tiện được kỳ vọng sẽ giúp con người đạt
được mục tiêu thì AI sẽ thể hiện mục tiêu đó của con người. Rõ ràng Machine learning
đã mang con người chúng ta đi rất xa trên quãng đường chinh phục AI. Nhưng con
người vẫn cần phải đi quãng đường xa hơn rất nhiều. Nhắc tới AI người ta sẽ nhớ
ngay tới Machine learning nhưng không nó không giống nhau vì nếu Machine
learning là phương tiện thì AI là mục tiêu. Mục đích tối thượng của Machine learning
là chinh phục AI, nhưng hiện tại Machine learning tập trung vào những mục tiêu ngắn
hạn hơn như: Làm cho máy tính có những khả năng nhận thức cơ bản của con người
như nhìn, nghe, hiểu được ngôn ngữ lập trình, giải toán, …và hỗ trợ con người trong
việc xử lý một khối lượng thông tin khổng lồ mà chúng ta phải đối mặt hàng ngày,
hay còn gọi là Big Data [14].
Big Data thực chất không phải là một ngành khoa học cụ thể. Hiện nay Big
Data là một cụm từ được giới truyền thông dùng để nhấn mạnh thời kì bùng nổ của
dữ liệu. Nó cũng không khác gì với những cụm từ như "kỷ nguyên phần mềm", "cách
mạng công nghiệp". Big Data là kết quả của việc hàng ngày càng có nhiều người kết
nối mạng Internet. Với sự ra đời của các mạng xã hội như Facebook, Twitter,
Instagram nhu cầu chia sẻ thông tin của con người ngày càng tăng lên vượt bậc. Mạng
xã hội không chỉ có Facebook mà ngoài ra còn có cả Youtube nơi mọi người có thể
chia sẻ các video và bình luận ở đó. Quy mô của Big Data lớn như thế nào thì hãy
xem qua những con số “biết nói” sau đây:
Mỗi phút trên youtube có khoảng 300 giờ video được upload (theo
https://www.youtube.com/yt/press/statistics.html)
Mỗi ngày có hơn 900 triệu người truy cập vào Facebook, 82.8% trong số đó ở
ngoài Mỹ và Canada (theo http://newsroom.fb.com/company-info/)
Mọi người càng chia sẻ nhiều thông tin thì nhu cầu tìm kiếm thông tin ngày
càng tăng. Google phải xử lý 100 tỉ lượt tìm kiếm mỗi tháng, tức là 3,4 tỉ lượt mỗi
ngày và 39.000 lượt mỗi giây (theo http://www.internetlivestats.com/google-searchstatistics/) [3].
9
Khi chúng ta hiểu được giá trị của thông tin ẩn chứa bên trong dữ liệu thì Big
Data đã thực sự xuất hiện, và có đủ công nghệ cũng như tài nguyên để có thể khai
thác chúng trên quy mô khổng lồ. Ở đây có một quan hệ tương đương và hỗ trợ giữa
Big Data và Machine Learning: Machine learning phát triển nhờ vào sự gia tăng của
khối lượng dữ liệu, ngược lại giá trị của Big Data phụ thuộc vào khả năng khai thác
tri thức từ dữ liệu của Machine learning [3].
Thuật toán Perceptron được phát minh ra bởi Frank Rosenblatt vào năm 1957
là một trong những thuật toán cơ bản của Machine learning. Đây là một thuật toán
hữu ích dùng để phân loại hai đối tượng khác nhau. Một ví dụ đơn giản là phân loại
thư rác (hình tam giác) và thư bình thường (hình vuông). Những điểm hình tam giác
và hình vuông trong hình 2.1 đại diện cho những email đã biết nhãn trước. Chúng
được dùng để "đào tạo" (train) perceptron. Sau khi kẻ đường thẳng để chia hai tập
điểm, sẽ có thêm các điểm chưa được dán nhãn, đại diện cho các email cần được phân
loại (điểm hình tròn). Khi đó ta sẽ gán nhãn của một điểm giống như nhãn của các
điểm nằm trong cùng nửa mặt phẳng với điểm đó [5].
Đối với perceptron, việc phân chia này giống như việc vẽ một đường thẳng trên
mặt phẳng để chia mặt phẳng thành hai tập điểm:
Hình 1.1. Dữ liệu được phân chia làm hai tập điểm
Sơ lược quy trình phân loại thư được mô tả như sau: Trước hết, ta cần một thuật
toán để chuyển email thành những điểm dữ liệu. Đây là công đoạn quan trọng vì nếu
ta chọn được cách biểu diễn phù hợp, công việc của perceptron sẽ diễn ra nhanh hơn
10
rất nhiều. Tiếp đến, perceptron sẽ cho biết tọa độ của từng điểm và sử dụng để cập
nhật tham số của đường kẻ phân chia. Do là một thuật toán khá đơn giản nên có rất
nhiều vấn đề có thể nảy sinh với perceptron, ví dụ như điểm cần phân loại nằm ngay
trên đường thẳng phân chia hoặc xấu hơn là với một tập dữ liệu phức tạp, ta không
tìm thấy đường thẳng phân chia:
Hình 1.2. Dữ liệu phức tạp, không được phân chia
Lúc này, ta cần các loại đường phân chia "không thẳng". Perceptron là một thuật
toán của Machine learning gọi là Supervised learning: ta đưa cho máy tính rất nhiều
các ví dụ cùng với câu trả lời mẫu để mong muốn máy tính sẽ tìm được những đặc
điểm cần thiết để dự đoán cho những ví dụ khác chưa có câu trả lời trong tương lai.
Ngược lại, cũng có những thuật toán Machine learning sẽ giải quyết những bài toán
mà không có câu trả lời trước, được gọi là Unsupervised learning. Đối với trường
hợp không có câu trả lời sẵn, máy tính cố gắng phân tích để tìm ra cấu trúc ẩn của
một tập dữ liệu. Một loại Machine learning nữa được gọi là Reinforcement learning.
Reinforcement learning cũng không có câu trả lời có sẵn, tuy nhiên máy tính nhận
được kết quả trả lời lại khi mỗi hành động xảy ra. Dựa vào kết quả trả lời tốt hay xấu
mà máy tính sẽ nghiên cứu đưa ra các hướng dẫn chỉnh sửa cho phù hợp [5].
- Xem thêm -