Đăng ký Đăng nhập
Trang chủ Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (icr) trong xử lý số li...

Tài liệu Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (icr) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009

.PDF
134
61
107

Mô tả:

TỔNG CỤC THỐNG KÊ BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009 Đơn vị chủ trì: Trung tâm Tin học Thống kê Chủ nhiệm: TS. Thiều Văn Tiến Thư ký: CN. Nguyễn Thị Huyền Thanh 7873 21/4/2010 HÀ NỘI, NĂM 2008 Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 LỜI NÓI ĐẦU Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công nghệ nhập tin truyền thống. Vì vậy, chúng ta không biết được công nghệ nhận dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v.. Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông minh trong các điều tra để chuẩn bị cho việc áp dụng công nghệ này trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết. Những kinh nghiệm có được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng. Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong xử lý số liệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08 nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử nghiệm của Tổng điều tra dân số và nhà ở năm 2009. Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu khi áp dụng công nghệ quét, nhận dạng trong xử lý điều tra; Phần IV. Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở. Trên cơ sở những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử lý Tổng điều tra dân số và nhà ở 1/4/2009. Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR. -1- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo từng phiếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử lý tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp hoặc cơ sở dữ liệu, nơi lưu giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử dụng sau này do sự đơn giản, chi phí đầu tư thấp. Tuy nhiên, nếu áp dụng phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác chất lượng thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin. Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính có thể tính toán được. Hiện nay công nghệ này đã được áp dụng ở nhiều nước trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào... đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê. Việt Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra. Tuy nhiên, do những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao... nên Tổng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009. Trong thời gian qua, với sự giúp đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứu, thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài. Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và Vụ thống kê Dân số và Lao động. Danh sách những người thực hiện như sau: 1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài 2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê, thư ký đề tài 3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê 4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê 5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao động -2- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao động 13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê -3- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC 1. Công nghệ quét, nhận dạng Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition). 1.1. Công nghệ đọc đánh dấu quang học (OMR) Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra. Đây là một bước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v. Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đường cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ viết tay và chữ in. Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR và OCR. 1.2. Công nghệ nhận dạng ký tự quang học (OCR) Công nghệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có thể nhận dạng ký tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể nhận dạng được chữ viết tay. Đối với chữ in, nó cũng chỉ có thể nhận dạng một số loại fonts chuẩn như Times Roman và Arial -4- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 1.3. Công nghệ nhận dạng ký tự thông minh (ICR) Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng ký tự thông minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể đọc và nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các ký tự đánh dấu hay được khoanh, mã vạch,... Các phiếu điều tra được nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay được máy quét (scanner) chuyển thành hình ảnh và sau đó được nhận dạng chuyển đổi thành các chữ cái chữ số mà máy tính có thể xử lý được. So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được không chỉ các ký tự đánh dấu, mã vạch,... mà còn nhận dạng chữ viết tay. Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR, ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy, không đòi hỏi thiết bị chuyên biệt. Ngày nay ICR được sử dụng rộng rãi ở rất nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế cách thức nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR và OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với thực tế hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn. 2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra thống kê của một số nước 2.1. Kinh nghiệm của Thái Lan Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số năm 2000. Sau khi xử lý tổng điều tra dân số năm 2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động (Labour Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey), Tổng điều tra nông nghiệp năm 2003, v.v. Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là phiếu ngắn và phiếu dài. Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn, trong đó có 20% nhân khẩu thường trú được ghi vào phiếu dài. Phiếu ngắn (gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12 tháng trước điều tra). Ngoài các chỉ tiêu ở phiếu ngắn, phiếu dài còn bao gồm các chỉ tiêu (thêm 10 chỉ tiêu): công việc làm trong tuần trước điều tra, tìm việc làm, lý do không làm việc, số con sinh và số con chết, số trẻ sinh trong năm qua, nơi sinh, độ dài thời gian cư trú, nơi ở trước, lý do di chuyển. Về nhà ở, bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích ở (tổng điều tra); nhiên -5- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước, các thiết bị sử dụng lâu bền. Số lượng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái Lan là 16 triệu phiếu. Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12 tháng, trong khi sử dụng công nghệ quét nhận dạng ký tự ICR chỉ mất 8 tháng (bằng 2/3 thời gian nhập tin bằng bàn phím). Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm tiến hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trước khi gửi về NSO tại Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc. Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2 hệ thống: - Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition (gồm các Module: TELEform Designer; TELEform Reader; TELEform Verifier) Các thiết bị sử dụng trong hệ thống TELEform bao gồm: Số lượng (cái) Tên thiết bị NetServer for TELEform Server 1 NetServer for DataBase Server 1 Reader Modules Workstatons 21 Verifier Modules Workstations 30 Scanner Control Workstations 6 Sanner Fujitsu M4099D (*) 6 Ghi chú - Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau: Form Designer; Administration Station; Recognition Station; Correction Station). Các thiết bị sử dụng trong hệ thống ABBYY bao gồm: Tên thiết bị Số lượng (cái) IBM Server X Series 225 1 Correction Station 1 -6- Ghi chú Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 Verifier Modules Workstations 25 Scanner Control Workstations 4 Sanner Fujitsu M4099D (*) 4 Storage Flex LT707 1 (*): Máy quét khổ A3, 2 mặt (Duplex). Giá mỗi máy năm 2000 khoảng 20.000 USD Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan đã mua phần mềm công nghệ ICR (gồm 3 môdule: thiết kế, đọc và hiệu chỉnh số liệu) của Công ty Phần mềm TELEform Cardiff của Mỹ. Trong thời gian sử dụng, có một vài trục trặc và nhận thấy nếu mua trọn gói thì đắt, NSO đã chuyển qua thuê phần mềm ABBYY của Nga có trụ sở tại Băng Cốc. Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra: - Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy nhiên độ dai của giấy cần tốt hơn loại giấy thông thường; - Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt trang của các tập phiếu khác nhau. Khi có một tờ phiếu nào có vấn đề, máy tính kiểm soát máy quét đưa ra thông báo ngay. Người vận hành lấy tờ đó từ ngăn “đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc; - Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động, nửa thủ công; - Tốc độ quét rất khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là 20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút); - Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả các ký tự nhận dạng dùng để tổng hợp đều phải bằng số. Như vậy có nghĩa là, nếu câu trả lời nào đó không phải bằng số, cần ghi mã trước khi quét; - Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không được viết một cách cẩu thả, tuỳ tiện; - Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần mềm nhận dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ không cần phải kiểm tra tất cả các ký tự. Vì vậy, việc ghi chép phiếu càng đúng và chuẩn mực, càng giảm công việc xác minh số liệu; -7- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã trên phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2 của Nhật Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại; - Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần; -Việc bảo quản phiếu để dùng cho ICR không quá phức tạp. Cụ thể là, phiếu khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một đường nào đó quy định trước). Một tập phiếu được cho vào trong một túi giấy như vỏ bao xi măng. Nhiều túi phiếu được cho vào trong một hộp cát tông (như loại hộp cát tông bình thường dùng đóng hàng hoá); 2.2. Kinh nghiệm của Philipin Trước năm 2000, việc xử lý các điều tra, tổng điều tra của Cơ quan thống kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím. Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử lý tổng điều tra dân số và nhà ở và sau đó tiếp tục sử dụng công nghệ này trong xử lý tổng điều tra nông nghiệp và thủy sản 2002. Sau đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong xử lý tổng điều tra dân số 2000. a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa +)Thiết kế phiếu điều tra Trong tổng điều tra dân số và nhà ở năm 2000, NSO thiết kế 4 phiếu điều tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu và phiếu tình trạng hộ. Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô hình tròn hoặc ô hình chữ nhật đủ để ghi các ký tự chữ số ( 0,..,9), chữ in (A, B, ..,Z, N ngã). Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002. Kích thước phiếu: 11inch x 17 inch 11inch x 12 inch 11inch x 8,5 inch +) In phiếu điều tra Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt, tiêu chuẩn tối thiểu 80gram/m2 +)Viết phiếu điều tra Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill) ký tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật. Lý do không dùng bút bi là không thể nhận dạng được ký tự đã bị gạch xóa. b) Xử lý điều tra sử dụng công nghệ ICR -8- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 +) Tổ chức xử lý NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data Capture Center – DCC). Số lượng phiếu xử lý phải xử lý là 15,5 triệu. Số lượng phiếu của từng Trung tâm như sau: -Trung tâm Pampanga: 3,5 triệu phiếu -Trung tâm Manila: 5 triệu phiếu -Trung tâm Cebu: 3,5 triệu phiếu -Trung tâm Davao: 3,5 triệu phiếu Thời gian xử lý thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần. Thời gian xử lý 6 tháng. Tổng số người dùng trong xử lý tổng điều tra dân số nhà ở năm 2000 là 146 người +) Các thiết bị phần cứng Tại mỗi Trung tâm xử lý, lập mạng LAN chạy trên hệ điều hành Windows NT 4.0 với các thiết bị sau: • 01 máy chủ với cấu hình cơ bản CPU 500 MHZ, HDD 90GB • 15 máy trạm (PC) • 01 máy in mạng • 03 ổ quang (MO) dùng để lưu trữ • 03 ổ ghi CD-ROM • 05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút Riêng Trung tâm tại Manila số máy quét nhiều hơn các Trung tâm còn lại. Tổng số máy quét dùng trong xử lý là 22 máy. +) Phần mềm dùng trong xử lý Để xử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét và phần mềm nhận dạng ký tự thông minh EYES & HANDS for FORMS. Phần mềm ICR mà NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu chỉnh (Data Verification) và chuyển đổi (Data Transfer/Generation). Sau khi thực hiện quét, nhận dạng thông tin từ phiếu điều tra được chuyển ra tệp định dạng text. Từ dạng file này các chuyên gia NSO Philipin chuyển đổi vào các cơ sở dữ liệu khác nhau để lập các biểu thống kê. Phần mềm dùng để tổng hợp kết quả là module CENT trong phần mềm IMPS và phần mềm SPSS. c) Kinh nghiệm sử dụng công nghệ ICR của Philipin - Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trường đánh dấu (mark) và trường viết tay (handwritten). Trong thiết kế, hạn chế trường ký tự chữ để tăng tỷ lệ nhận dạng đúng; -9- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - Chất lượng in phiếu điều tra cần đảm bảo; - Trung bình 1 máy quét được 30 trang (phiếu) trong một phút; -Tỷ lệ nhận dạng của các trường đánh dấu (mark) là cao. Tỷ lệ nhận dạng của các trường viết tay là thấp. Tỷ lệ nhận dạng chung là 90-95%; - Những vùng dữ liệu dạng text (tên chủ hộ, địa chỉ hộ) thì kết quả chưa chắc khả quan. Trong mẫu ký tự tiếng Philipin có một ký tự nằm ngoài bảng chữ cái Latinh hiện nay – ký tự ñ .Việc nhận dạng ký tự này cho kết quả chưa cao lắm; - Tốc độ nhận dạng 3400-3500 phiếu/giờ, hiệu chỉnh 270-320 phiếu/giờ. Do vậy số lượng bản quyền module hiệu chỉnh của mỗi Trung tâm năm 2000 chỉ có 4 là không đủ mà cần khoảng 9-10. 2.3. Kinh nghiệm của Trung Quốc Ở Trung Quốc, việc áp dụng công nghệ quét trong xử lý số liệu điều tra thống kê đã được thực hiện từ những năm 90 của thế kỷ trước. Năm 1990 sử dụng công nghệ quét để xử lý số liệu điều tra của 19 triệu dân ở hai tỉnh Quý Dương và Trùng Khánh. Năm 1992 sử dụng công nghệ này cho xử lý điều tra nông nghiệp. Năm 2000 áp dụng công nghệ quét để xử lý số liệu tổng điều tra dân số và tổng điều tra nông nghiệp. Năm 2006 sử dụng công nghệ quét để xử lý số liệu tổng điều tra nông nghiệp lần thứ 2. Trong tổng điều tra dân số năm 2000, số lượng xử lý gấp 2 lần số lượng năm 1990 nhưng số lượng cán bộ và thời gian xử lý chỉ bằng 1/2 so với năm 1990 (năm 2000 sử dụng 5.000 cán bộ; xử lý trong 6 tháng). - Bút viết chất lượng tốt (bút chì kim 2B do Thượng Hải sản xuất); - Máy quét đã sử dụng là Kodak, Fujitsu M4097D tốc độ 40-80 tờ phút, quét 2 mặt. Giá máy scanner khoảng 60.000 tệ/máy. Sử dụng 500 máy scanner, phân cho các tỉnh theo tỷ trọng dân số. Riêng Bắc Kinh, Cục Thống kê nhà nước chỉ cấp 01 Scanner nhưng UBND thành phố đã mua thêm 17 scanner; - Giấy chất lượng tốt (90-100 gram/m2). Không cần in màu; - Không cần đánh số phiếu (ID); - Chữ Hán phải phiên thành mã số mới nhận biết được; - Phiếu khổ A3 gấp làm đôi, ghim giữa trang A3 nên phải bóc ghim trước khi quét; - Phầm mềm xử lý do công ty Tử Quang (Trung Quốc) thiết kế nên không phải mua phần mềm bên ngoài; - Ghi phiếu còn khá nhiều lỗi vì vậy phải verify khá nhiều. Công tác kiểm tra phiếu ở Trung tâm máy tính rất chặt chẽ. Mỗi lô phiếu có sai sót > 5% phải kiểm tra lại toàn bộ phiếu gốc; - 10 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - Huyện thu thập và ghi mã sau đó chuyển lên tỉnh. Tỉnh thực hiện quét, nhận dạng, verify, hiệu đính và tổng hợp cho cấp tỉnh, cấp huyện, cấp xã. Sau đó chuyển lên Trung tâm máy tính (Trung ương). Trung tâm máy tính gia quyền, tổng hợp cho vùng và cả nước; - Để xử lý tổng điều tra nông nghiệp 2006, Trung Quốc mua máy sanner và phần mềm mới; Về sử dụng công nghệ quét trong xử lý điều tra thống kê, Trung Quốc chủ yếu vẫn sử dụng công nghệ OCR và OMR. Công nghệ OMR đòi hỏi tiêu chuẩn giấy phải tốt hơn, kỹ thuật in phải cao hơn vì vậy Trung Quốc chủ yếu sử dụng công nghệ OCR. Trung Quốc chưa sử dụng công nghệ ICR. Trung Quốc không có phần mềm riêng cho khâu thiết kế phiếu. 2.4. Kinh nghiệm của Lào Trung tâm Thống kê Quốc gia Lào đã sử dụng công nghệ ICR trong xử lý số liệu tổng điều tra dân số năm 2005. Sau đây là kinh nghiệm của Lào trong việc sử dụng công nghệ ICR để xử lý tổng điều tra dân số năm 2005: a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa +)Thiết kế phiếu điều tra Phiếu điều tra của tổng điều tra dân số Lào năm 2005 gồm 35 câu hỏi. Các câu hỏi từ 1 đến 10 dành cho tất cả các thành viên của hộ. Các câu từ 11 đến 14 hỏi thông tin về đi học đối với thành viên từ 6 tuổi trở lên. Câu 15-17 hỏi công việc cho các thành viên từ 10 tuổi trở lên. Câu 18-20 hỏi cho phụ nữ 15-49. Câu hỏi 21 hỏi về người chết của hộ. Câu hỏi 22-23 hỏi những thành viên chuyển đến và chuyển đi trong 12 tháng qua. Câu 24 hỏi thông tin về người tàn tật của hộ. Câu 25-34 hỏi về nhà ở của hộ. Câu 35 hỏi về tổng số người chia theo giới tính của hộ. Trung tâm Thống kê Lào thiết kế bảng hỏi bằng phần mềm PageMaker. +) In phiếu điều tra - Về giấy in: Giấy in phiếu hỏi không được bóng, trơn, giấy quá mỏng, giấy bị bẩn; nên sử dụng giấy 80gram/m2. Không sử dụng giấy có carbon vì sẽ gặp vấn đề khi quét. - Chất lượng in: Tất cả các bảng hỏi đều phải sử dụng 1 loại máy in để in. Chọn font chữ in là Arial hoặc OCR-B tối thiểu là size 10-12pt. Không chọn chữ đậm và nghiêng. Không tạo đường bao quanh các trường là nét mỏng. Nên chọn đường bao có nét 1 hoặc 1.5 pt là tốt nhất. Những câu hỏi mở phải có đường kẻ ngăn cách giữa các ký tự. Đối với số có phần thập phân phải có dấu phẩy để ngăn cách. - Phiếu điều tra được đóng thành quyển. Tổng số có khoảng 25.000 quyển phiếu (mỗi quyển có thể ghi được 40 hộ với 400 người). Dân số Lào năm 2005 khoảng 5.600.000 người. - 11 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 b) Xử lý điều tra sử dụng công nghệ ICR +) Tổ chức xử lý - Trung tâm Thống kê Lào tổ chức xử lý điều tra tập trung. Có 35 người làm xử lý điều tra với 4 bước cơ bản: • Kiểm tra, mã hoá, làm bảng kê (tick off) • Quét (Scanning) • Hiệu chỉnh (Verify) • Tổng hợp và phân tích số liệu - Số người làm công việc kiểm tra, mã hoá hoặc chép lại phiếu nếu phiếu bẩn hoặc nhầu nát là 30 người, làm việc trong 3 tháng (20 người sẽ là những người thực hiện hiệu chỉnh trong giai đoạn tiếp theo). - Sử dụng 01 người chuyên đánh số thứ tự (mã Serial Number) cho tất cả các phiếu (mã này được in trước chỉ việc dán vào quyển phiếu) - Sử dụng 01 người điều khiển máy cắt gáy quyển phiếu trước khi đưa vào scan (1 lần cắt được 5 quyển phiếu hỏi). - Sử dụng 01 người điều khiển máy đọc mã serial number của quyển phiếu bằng thiết bị đọc và phần mềm của ReadSoft. Phần mềm ghi lại ngày đọc và trạng thái của phiếu. Sau đó ghi ra 1 tờ Tick off prepaced Bookets tờ này ghi lại số serial number của quyển phiếu và số tờ phiếu đã sử dụng, số tờ phiếu chưa sử dụng của quyển phiếu. Sau đó bỏ tờ bìa của quyển phiếu và thay vào đó là Tick off. - Sử dụng 02 người điều khiển 2 máy quét. Trước khi quét nhập vào số của hộp bìa sẽ đựng phiếu sau khi quét. Tốc độ quét 56 tờ/1 phút. Một lần có thể đưa vào máy scanner 500 tờ. Trong quá trình quét chương trình sẽ thống kê số tick off và số hộ đã quét được. Quét 2 mặt một lúc. - Thỉnh thoảng máy có bị giắt giấy và máy tự động dừng. Sau đó phải cho máy nghỉ và vệ sinh làm sạch máy. - Phải làm sạch máy hàng ngày bằng chất rửa và giấy lau riêng. - Sử dụng Tape để back up số liệu hàng ngày. - Trên máy chủ có cài phần mềm Eyes & Hands. Sau khi quét xong, phần mềm Eyes &Hands trên máy chủ tự động chuyển Interpret và Tranfer để bộ phận Verify có thể sửa được số liệu. - Vào verify sau đó chọn số của hộp đựng tài liệu, chương trình sẽ liệt kê các số theo thứ tự từ 0-9 những số mà chương trình nghi ngờ, người sửa sẽ chọn những số phải xem lại và nhập lại. Sử dụng 20 người sửa trong 3 tháng. - Trên máy chủ, thiết kế CSDL bằng SQL Server để chuyển số liệu từ dạng text vào SQL. Và thủ tục được chạy hàng ngày. Những file text đã chuyển được sẽ ghi sang một thư mục khác. Tên file text thể hiện ngày chuyển. - 12 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - Sau khi chuyển vào SQL, dùng SPSS để phân tích số liệu. +) Các thiết bị phần cứng, phần mềm - Máy móc, thiết bị dùng cho xử lý được lắp đặt trong mạng LAN. Số lượng thiết bị đã sử dụng như sau: • 02 máy chủ (server) • 02 máy quét. Quét 2 mặt (Duplex). Tốc độ 56 tờ/ phút. Giá mỗi scanner khoảng 35.000 USD • 20 máy PC • Thiết bị Backup - Về phần mềm, Trung tâm Thống kê Lào sử dụng phần mềm Eye’s & Hand’s của công ty ReadSoft. Tiền thuê phần mềm Eye’s & Hand’s là 16.000 USD/1 năm. Nếu năm sau sử dụng tiếp thì phải trả 6.000 USD/1 năm. Trong quá trình làm có 1 chuyên gia của công ty ReadSoft đến hỗ trợ. 3. Một số vấn đề rút ra từ kinh nghiệm của các nước đã sử dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu thống kê Từ thông tin trong mục 2, có thể lập bảng so sánh thời gian, công nghệ và số thiết bị của một số nước xử lý Tổng điều tra dân số áp dụng công nghệ quét như sau: STT Tên nước Năm áp dụng Quy mô dân số (triệu người) Thời gian xử lý (tháng) Số lượng máy quét Công nghệ Phần mềm 1 Thái Lan 2000 62,4 8 10 máy Fujitsu M4099D ICR Teleform và ABBYY 2 Philipin 2000 76,4 6 22 máy Kodak 3510/3590 ICR ReadSoft 3 Lào 2005 5,6 3 2 máy tốc độ 56 tờ/phút ICR ReadSoft 4 Trung Quốc 2000 1 262 6 500 máy Kodak, Fujitsu M4097D OCR Cty Tử QuangTQuốc Ghi chú: Phiếu điều tra của các nước được thiết kế khác nhau - 13 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 3.1. Lựa chọn công nghệ Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều tra, máy fax với tốc độ nhanh và tốn ít nhân lực. Hệ thống này sử dụng máy quét để đọc phiếu điều tra hoặc tài liệu, và một phần mềm ứng dụng sẽ đọc hoặc định dạng tự động dữ liệu hoặc chữ số ghi trên phiếu/tài liệu, sau đó chuyển thông tin thành file dữ liệu mã ASCII (American Standard Code for Information Interchange) để xử lý tiếp theo. Công nghệ quét, nhận dạng có thể chia thành công nghệ quét, nhận dạng ký tự quang học (OCR), công nghệ đọc đánh dấu quang học (OMR), công nghệ quét, nhận dạng ký tự thông minh (ICR). Cho đến thời điểm hiện nay, trong các công nghệ nói trên, công nghệ quét nhận dạng ký tự thông minh ICR là công nghệ tiên tiến nhất, được sử dụng nhiều nhất trong việc xử lý điều tra thống kê. Do vậy, nghiên cứu áp dụng công nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu điều tra nói chung và trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009 của Việt Nam là sự lựa chọn phù hợp. 3.2. Ưu điểm của công nghệ nhận dạng ký tự thông minh Sử dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý số liệu điều tra có những ưu điểm như: a) Rút ngắn thời gian xử lý Ở các nước đã áp dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý điều tra đều cho rằng công nghệ này đã làm giảm đáng kể thời gian xử lý so với phương nhập nhập tin truyền thống bằng bàn phím (keyboard). Thời gian nhập dữ liệu rút ngắn do máy quét đọc tốc độ nhanh, tốc độ nhận dạng, tốc độ chuyển đổi kết quả nhận dạng ra file text/cơ sở dữ liệu và tốc độ hiệu đính (verify) nhanh hơn so với phương pháp nhập tin truyền thống. Công nghệ này phù hợp đối với các cuộc điều tra lớn và tổng điều tra, trong đó phiếu điều tra không quá phức tạp, nhưng số lượng phiếu rất lớn. Do vậy công nghệ ICR có thể giúp cho cơ quan thống kê nhà nước công bố kết quả điều tra sớm hơn nhiều so với công nghệ truyền thống nhập tin từ bàn phím máy tính. b) Tăng độ chính xác Khi áp dụng công nghệ ICR trong xử lý điều tra, khâu nhập liệu được thực hiện bởi hệ thống máy móc, thiết bị và phần mềm. Sự can thiệp của con người vào trong quá trình quét, nhận dạng là rất ít nên đã tránh được những lỗi do con người gây ra khi nhập tin bằng bàn phím như nhập nhầm ký tự, nhập sai vị trí, nhập đúp ký tự v.v. Đặc biệt trong xử lý tổng điều tra, do khối lượng dữ liệu lớn phải sử dụng nhiều người nhập tin nên các loại lỗi cũng đa dạng và số lượng lỗi tăng nhanh khi công việc nhiều. Đối với các cuộc điều tra quy mô lớn, càng ít can thiệp của con người hoặc hoạt động thủ công sẽ giảm được đáng kể sai sót trong giai đoạn nhập số liệu. - 14 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 c) Hiệu suất cao Khi áp dụng công nghệ ICR trong xử lý điều tra, số lượng người tham gia vào khâu xử lý đã giảm rất nhiều so với nhập dữ liệu thủ công. Máy quét làm việc rất nhanh và đọc thông tin tự động, chỉ đến giai đoạn kiểm tra nhận biết thông tin mới cần người hiệu chỉnh. d) Giảm giá thành Chi phí nhập số liệu bằng công nghệ ICR cao ở giai đoạn đầu khi lắp đặt hệ thống, nhưng về lâu dài chỉ cần kinh phí bảo dưỡng và phát triển. Hơn nữa sử dụng ít nhân công và thời gian nhập số liệu ngắn làm giảm khá nhiều chi phí. Kinh nghiệm quốc tế cho thấy rằng, khối lượng công việc càng lớn thì chi phí nhập số liệu bằng công nghệ ICR càng rẻ so với phương pháp nhập thủ công. Điều này càng khẳng định ưu thế của công nghệ ICR khi xử lý các cuộc điều tra quy mô lớn. Mặc dù công nghệ ICR có nhiều ưu điểm đặc biệt khi xử lý các cuộc điều tra quy mô lớn, nhưng công nghệ này có những yêu cầu nhất định về phiếu và ghi phiếu điều tra: • Về phiếu điều tra - Thiết kế phiếu điều tra áp dụng công nghệ ICR trong xử lý phải đảm bảo những yêu cầu nhất định để quét và nhận dạng đạt độ chính xác cao. Độ cao, độ rộng của từng ô, khoảng cách giữa các ô phải đảm bảo để điều tra viên có đủ khoảng trống để điền thông tin. Độ đậm, nhạt của đường bao ô cũng ảnh hưởng đến kết quả nhận dạng. Tỷ lệ nhận dạng đúng ô điền ký tự và ô đánh dấu là khác nhau, do vậy lựa chọn kiểu ô trong thiết kế cũng ảnh hưởng đến kết quả nhận dạng. - Chất lượng in phiếu cũng ảnh hưởng rất nhiều đến quá trình quét, nhận dạng. Trước hết, kích thước phiếu in phải đảm bảo chính xác. Việc in phiếu điều tra ở những nhà in khác nhau có thể làm lệch vị trí của các ô, lệch kích thước của các ô, lệch kích thước của phiếu dẫn đến việc nhận dạng sai. Độ dày, mỏng của phiếu điều tra cũng ảnh hướng rất nhiều đến kết quả. Yêu cầu giấy in phiếu điều tra phải đảm bảo tối thiểu 80 gram/m2. Việc bảo quản phiếu điều tra cũng đòi hỏi khắt khe hơn. Phiếu điều tra cần phải giữ khô, không quăn, không nhàu nát. Những phiếu bị quăn, nhàu nát hoặc bị ẩm làm chậm quá trình quét phiếu. • Về ghi phiếu điều tra: - Chất lượng ghi phiếu ảnh hưởng rất nhiều đến kết quả áp dụng công nghệ ICR trong xử lý. Để chất lượng ghi phiếu tốt, một vấn đề quan trọng trong khi ghi phiếu điều tra là phải kiểm soát được chữ viết tay của điều tra viên. Viết - 15 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 xấu và ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều lỗi khi quét. Đặc biệt là trong tổng điều tra, một lực lượng lớn điều tra viên sẽ tham gia, thường khó kiểm soát được cách viết của họ. Do vậy, việc đào tạo ghi phiếu điều tra phải đặc biệt quan tâm. Cần có mẫu ký tự chuẩn để đảm bảo tỷ lệ nhận dạng cao. Khi lựa chọn điều tra viên, phải kiểm tra và loại bỏ những điều tra viên ghi không đúng mẫu ký tự đã quy định. - Để đảm bảo tỷ lệ nhận dạng cao, nét chữ khi điền phiếu phải đảm bảo rõ ràng, không tẩy xóa. Độ rộng của nét chữ cũng ảnh hưởng đến chất lượng, do vậy, ở các nước đã áp dụng công nghệ ICR thường sử dụng bút chì kim chất lượng tốt. - 16 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 PHẦN II. NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR CỦA CÔNG TY READSOFT Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu công nghệ nhận dạng ký tự thông minh qua các tài liệu nước ngoài, thông tin trên mạng Internet. Trong thời gian này và trước đó, một số cán bộ của TTTHTK tham gia các đoàn khảo sát các cơ quan thống kê nước ngoài (Lào, Hồng Kông, Thái Lan, Philippin) cũng thu thập được một số thông tin, kinh nghiệm, có những hiểu biết nhất định về công nghệ này. Một số phần mềm nhận dạng phiếu loại này đã được tìm hiểu như: hệ thống IFP (Intelligent Form Procesing – Xử lý mẫu phiếu thông minh) của IBM, giải pháp của Pearson do công ty FPT giới thiệu, ABBYY của Nga, Document for FORMS của ReadSoft, TIS (Top Image System) của Israel,... Việc lựa chọn phần mềm là rất khó khăn do thông tin các công ty cung cấp phần lớn chỉ mang tính giới thiệu chung về giải pháp và do chúng ta chưa có kinh nghiệm gì và cũng không thể tìm kiếm chuyên gia tư vấn ở Việt Nam. Việc lựa chọn Document for FORMS của ReadSoft dựa trên việc ReadSoft – Eyes & Hands đã có tiếng trên lĩnh vực này, nhiều cơ quan thống kê các nước bạn đã sử dụng. ReadSoft cung cấp đầy đủ và nhanh chóng những thông tin cần thiết và giá phần mềm là chấp nhận được cho việc thử nghiệm. 1. Công nghệ nhận dạng ICR của ReadSoft ReadSoft FORMS 5.2 là phần mềm xử lý tự động phiếu (Form Automation) của công ty ReadSoft (những phiên bản cũ của phần mềm này được gọi là “Eyes & Hands for FORMS”). ReadSoft là một trong những công ty hàng đầu trong lĩnh vực nhận dạng. ReadSoft bắt đầu đưa ra thị trường công nghệ ICR từ năm 1991 và cho đến nay có rất nhiều khách hàng. Riêng trong xử lý Tổng điều tra dân số, nhiều nước trong khu vực đã sử dụng phần mềm của ReadSoft như: Malaysia, Lào, Bangladesh, Philipin,... ReadSoft FORMS 5.2 là phần mềm tích hợp tất cả các chức năng để xử lý phiếu: định dạng FORM, quét (scan) phiếu, nhận dạng, kiểm tra số liệu, chuyển đối dữ liệu, quản lý các lô phiếu và dữ liệu. Phần mềm có những khả năng sau: - Nhận dạng được các loại ký tự ICR (chữ viết tay), OCR (chữ in/đánh máy), OMR (ký tự đánh dấu), mã vạch, (ngoài nhận dạng các ô đánh dấu có thể lựa chọn ký tự khoanh tròn); - Định dạng nhiều loại mẫu phiếu và xử lý đồng thời không cần phân loại; - Nhiều lựa chọn khác nhau cho việc kiểm tra số liệu; - Kiểm tra số liệu theo khối (mass verify); - Một số kiểm tra có thể thiết lập ngay trong phần mềm (không cần lập trình) như: kiểm tra giá trị hợp lệ theo các khoảng xác định hoặc so sánh - 17 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 - với các bảng tham chiếu, cộng tổng số, một số dạng kiểm tra logic giữa các trường liên quan; Khả năng quản lý, kiểm soát lô tương đối mềm dẻo; Mềm dẻo trong xác định tệp dữ liệu đầu ra; Quản lý người dùng và có khả năng đưa ra thống kê ở mức người dùng, thống kê về đầu ra cho người quản trị; Cho phép lập trình nhúng (built-in) trong các chức năng của FORMS 5.2 bằng ngôn ngữ VBA; Cho phép tích hợp gắn kết với các chương trình khác qua DDE, DLL, ODBC, OLE, ActiveX; Quét màu, nhận dạng và lọc các ảnh; Nhập dữ liệu từ máy FAX hoặc Internet. Phần mềm ReadSoft FORMS 5.2 có các module sau: - Quản lý (Manager): thực hiện các chức năng như định dạng mẫu phiếu, thiết lập thuộc tính cho các lô, cho các công đoạn trong quá trình xử lý, thiết lập Job; - Quét (Scan): thực hiện việc quét các lô phiếu thành dạng hình ảnh; - Nhận dạng (Interpret): thực hiện việc nhận dạng dữ liệu từ các hình ảnh; - Hiệu chỉnh (Verify): thực hiện việc nhập những dữ liệu không nhận dạng được và kiểm tra dữ liệu; - Chuyển đổi (Transfer): thực hiện chuyển đổi dữ liệu nhận dạng và kiểm tra xong ra các tệp dữ liệu dạng Text. 2. Quản lý và định dạng Form trong phần mềm ReadSoft Form 5.2 Một trong những phần quan trọng trước khi tiến hành quét phiếu điều tra là vấn đề định dạng form cho phiếu điều tra. Trong phần mềm ReadSoft Form 5.2, form là một tài liệu có cấu trúc bao gồm những khoảng trống để chứa thông tin: Những câu hỏi, những ô để ghi dữ liệu, những ô đánh dấu (checks)... Phiếu hỏi của một cuộc điều tra có thể nhiều tập phiếu (có thể là một tờ hay nhiều tờ), mỗi form thể hiện 1 tờ phiếu trong một tập phiếu điều tra đó, tờ phiếu có thể là 1 mặt hay 2 mặt. 2.1. Định dạng Form trong phần mềm ReadSoft Form 5.2 Trước khi định dạng form, chúng ta phải tạo form definition (định nghĩa form). Đó là một bản mô tả dựa trên 1 khuôn mẫu của một tờ phiếu. Để tạo ra một định dạng form, vào module Manager chọn quét một tờ phiếu mẫu (phiếu mẫu không bao gồm thông tin). Sau đó định nghĩa các điểm định vị trên form (adjustment), các trường và thiết lập một số trạng thái, tiếp theo lưu vào trong cơ sơ dữ liệu. Khi đó mỗi lần quét phiếu, phần mềm sẽ so sánh những tờ phiếu - 18 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 đã được quét với định dạng form để nhận dạng được các tờ phiếu và các trường định nghĩa. Định dạng Form bao gồm việc định dạng các trường định vị (Adjustment fields) và định dạng các ô chứa thông tin trên phiếu. +) Định dạng các trường định vị Để phân biệt các tờ phiếu khác nhau, người ta xác định các điểm làm mốc trên mỗi tờ phiếu. Các điểm mốc này được gọi là điểm định vị (adjustment). Điểm định vị có thể là một ký tự, một biểu tượng hay đường giao nhau trên tờ phiếu nhưng phải là điểm duy nhất có trên tất cả các tờ phiếu. Sau khi xác định điểm định vị trên phiếu, điểm này sẽ xuất hiện trên phiếu có dạng hình vuông và được lưu vào cơ sở dữ liệu là một trường. Nếu như trong một tập phiếu điều tra có nhiều tờ phiếu khác nhau thì các điểm định vị được sử dụng trên từng tờ phiếu phải có các vị trí khác nhau để tránh nhầm lẫn giữa các tờ phiếu với nhau trong quá trình nhận dạng. Có 2 kiểu xác định vị trí mốc trên form (adjustment field) là chọn các điểm làm mốc và chọn các đường kẻ làm mốc. Khi tiến hành quét phiếu, phần mềm sẽ kiểm tra kích cỡ, vị trí và hình dạng của các trường định vị trên form. Trong quá trình đặt phiếu để tiến hành quét, với số lượng phiếu rất lớn trong một lần quét thì việc để đúng phiếu không lệch là một điều cực kỳ khó, vì vậy các điểm định vị sẽ cho phép độ lệch của tờ phiếu không quá 10 độ - có nghĩa trong quá trình đặt phiếu vào máy scan nếu phiếu được quét vào nằm trong khoảng 10 độ so với phương thẳng đứng thì các điểm định vị sẽ đưa phiếu về đúng vị trí và phiếu được nhận dạng được nếu như form định vị đúng các điểm định vị. Trong một số trường hợp phiếu có tình trạng xoay 90 độ, 180 độ hay 270 độ hoặc khi chọn các trường định vị đối xứng nhau, khi đó cần phải chọn thuộc tính cho phép phiếu xoay chiều (Identify rotated forms) trong thuộc tính của Scan. Lúc đó, mỗi khi gặp các tờ phiếu xoay chiều, các điểm định vị sẽ đưa các tờ phiếu xoay chiều đó về đúng chiều của phiếu. +) Định dạng các ô chứa thông tin trong phiếu Để thu được thông tin trong phiếu, những trường chứa các thông tin này phải được định nghĩa: tên trường, kiểu thông tin: - Đối với những ô số hay ô chữ: Kiểu Character field có thể được dùng cho cả ô số hay ô chữ viết tay (chữ in hoa, chữ in thường, các ký tự đặc biệt – có thể là dấu phẩy hoặc dấu chấm, các ký tự trắng - dấu cách và các ký tự được viết cho nhiều dòng - bảng) hoặc đánh máy. Nhưng thông tin này phải nằm trọn trong các đường viền bao quanh của trường. - Đối với những ô đánh dấu (check): - 19 -
- Xem thêm -

Tài liệu liên quan