Liên hiệp các hội khoa học và kỹ thuật Việt Nam
Thứ hai, 22/11/2010 19:39 (GMT+7)

Nhận dạng chữ viết tay

Các nghiên cứu về nhận dạng chữ viết tay đã được phát triển từ hơn nửa thập kỷ qua và đạt được nhiều thành quả thiết thực. Ở mức khái niệm, kỹ thuật nhận dạng chữ viết tay được chia thành hai phương pháp chính : (i) nhận dạng chữ viết gián tiếp dựa trên thông tin tĩnh (off-line handwriting recognition): chương trình sẽ thông dịch các kí tự, các chữ hay các đoạn văn được viết trên các mẫu giấy hoặc các các bề mặt khác mà chúng ta có thể thu thập thông tin về chúng thông qua hình ảnh thu được từ các bề mặt bằng cách chụp lại hình ảnh.(ii) nhận dạng chữ viết trực tiếp dựa trên thông tin động (online handwriting recognition): nhận dạng ký tự hoặc chữ viết dựa trên thông tin thu được trong thời gian thực ngay lúc người dùng thực hiện hành động viết, những thông tin đó là tốc độ viết, áp lực khi viết và hướng viết.

Hướng tiếp cận của đề tài nghiên cứu này là nhận dạng dựa trên thông tin tĩnh. Mặc dù phương pháp nhận dạng trực tiếp đang được áp dụng rộng rãi trên các thiết bị di động, nhưng nhận dạng tĩnh lại có những ưu điểm khác. Phương pháp này không dừng lại ở việc ứng dụng và hoàn thiện trên các thiết bị di động, mà còn có khả năng mở rộng sang các ứng dụng khác như đọc các văn bản viết trên giấy cũng như ứng dụng vào khả năng đọc và hiểu chữ của robot.

Đầu tiên, chúng ta dùng giải thuật làm mỏng nét ký tự để giữ lại bộ khung ký tự, loại bỏ các thông tin dư thừa về hình dạng của kí tự. Sau đó, những thông tin đặc trưng được rút trích dựa trên bộ khung này bằng phương pháp rút trích thông tin theo chiều và kết hợp những véctơ đặc điểm cục bộ với các thông tin về cấu trúc toàn cục sẽ nhận dạng chữ viết. Tiếp theo, chiều của các phần đoạn thẳng tạo nên các ký tự được dò tìm, các pixel được thay thế bằng các giá trị chiều thích hợp. Cuối cùng, các đặc điểm của kí tự được huấn luyện và phân loại bởi mạng nơron.

Những nét đặc trưng của hệ thống nhận dạng chữ viết tay

Nhận dạng chữ viết tay thường bao gồm năm giai đoạn: tiền xử lý (preprocessing), phân mảnh (segmentation), biểu diễn (representation), huấn luyện và nhận dạng (training and recognition), hậu xử lý (postprocessing).

(i) Tiền xử lý: giảm nhiễu cho các lỗi trong quá trình quét ảnh, hoạt động viết của con người, chuẩn hóa dữ liệu và nén dữ liệu.

(ii) Phân mảnh: chia nhỏ văn bản thành những thành phần nhỏ hơn, phân mảnh các từ trong câu hay các kí tự trong từ.

(iii) Biểu diễn, rút trích đặc điểm: giai đoạn đóng vai trò quan trọng nhất trong nhận dạng chữ viết tay. Để tránh những phức tạp của chữ viết tay cũng như tăng cường độ chính xác, ta cần phải biểu diễn thông tin chữ viết dưới những dạng đặc biệt hơn và cô đọng hơn, rút trích các đặc điểm riêng nhằm phân biệt các ký tự khác nhau.

(iv) Huấn luyện và nhận dạng: phương pháp điển hình so trùng mẫu, dùng thống kê, mạng nơ-ron, trí tuệ nhân tạo hay dùng phương pháp kết hợp các phương pháp trên.

(v) Hậu xử lý: sử dụng các thông tin về ngữ cảnh để giúp tăng cường độ chính xác, dùng từ điển dữ liệu.

Mô tả quá trình trong hệ thống nhận dạng. Sơ đồ gồm hai phần chính: đường màu đỏ mô tả các bước để huấn luyện cho máy học, đường màu xanh mô tả các bước trong quá trình nhận dạng:

(i) Ban đầu các hình ảnh này đi qua giai đoạn chuyển ảnh về dạng ảnh nhị phân (giai đoạn tiền xử lý). Ảnh sẽ được lưu trữ dưới dạng ma trận điểm, vị trí pixel có nét vẽ sẽ mang giá trị 1, ngược lại có giá trị 0. Sau đó, ảnh được cắt xén để ký tự nằm trọn trong một khung chữ nhật, các vùng không gian không có nét vẽ được loại bỏ đi. Giải thuật cắt xén hiện thực đơn giản dựa trên ảnh nhị phân và thu giảm ảnh đã được cắt xén về một ảnh có kích thước chung đã được quy định trước.

(ii) Tiếp theo, ảnh đã được cắt xén và thu nhỏ được làm mỏng. Quá trình làm mỏng này giúp ta chỉ lấy những thông tin cần thiết về hình dạng của ký tự và loại bỏ các pixel dư thừa. Các chấm nhỏ trên hình biểu thị các pixel có giá trị 1 ban đầu. Sau khi làm mỏng, chỉ những pixel có ý nghĩa được giữ lại, và chúng được biểu diễn bằng các chấm to trong hình.

(iii) Ảnh sau quá trình làm mỏng chứa hầu hết các thông tin về hình dạng của ký tự. Những thông tin này sẽ được phân tích để rút trích ra các đặc điểm giúp việc phân loại các ký tự với nhau. Phương thức này dựa trên thông tin về hình dạng của ký tự như sự chuyển vị trí và sự chuyển chiều. Kết quả quá trình này là các véc-tơ đặc điểm chứa thông tin về ký tự. Các thông tin này giúp máy lấy được các đặc điểm của từng ký tự, phân loại chúng và tạo ra các thông tin cần thiết để nhận dạng các ký tự có chung ý nghĩa. Do chữ viết mỗi người mỗi khác nên ta không thể thu thập tất cả các nét chữ của từng người để máy học có thể nhận diện mà chỉ có thể dựa trên một số mẫu nào đó để nhận ra các nét chữ của những người viết khác nhau. Mạng nơ-ron nhân tạo (Artificial neural networks) có thể giải quyết vấn đề này.

(iv) Xây dựng mạng nơ-ron đồng nghĩa với việc thiết lập các thông số thích hợp trong mạng để giúp mạng có thể phân biệt được các ký tự có trong và ngoài mẫu. Các thông số của mạng nơ-ron sẽ được lưu lại và giúp cho quá trình nhận dạng. Sau một loạt các giai đoạn trên, chúng ta sẽ thu được những thông số cần thiết của mạng nơ-ron, và nó giúp hệ thống phân biệt được các kí tự viết tay. Và quá trình nhận dạng được trình bày phần sau sử dụng những kết quả từ quá trình máy học giúp hệ thống phân biệt các ký tự.

Giải thuật nhận dạng chữ viết tay

Trong khuôn khổ đề tài nghiên cứu này, thay vì sử dụng ảnh trong tập hợp mẫu cho trước, nhóm nghiên c ứu sử dụng ảnh thu được từ người dùng chương trình vẽ. Ảnh này qua các bước tiền xử lý cũng như rút trích đặc điểm trong quá trình huấn luyện. Mặt khác, thay vì các véc-tơ đặc điểm được đưa vào giai đoạn huấn luyện, các véc-tơ này sẽ được đưa vào giai đoạn nhận dạng. Giai đoạn này sử dụng các thông số của mạng nơron, các véc-tơ đặc điểm sẽ được đưa qua mạng nơ-ron và trả về véc-tơ xuất. Véc-tơ xuất chỉ ra bit ký tự vừa vẽ có ý nghĩa gì. Trong phương pháp này, họ chia cấu trúc của giải thuật thành hai quá trình với các giai đoạn theo trình tự sau:

- Quá trình huấn luyện: ảnh mẫu, ảnh nhị phân, cắt xét và thu nhỏ, làm mỏng ảnh, rút trích đặc điểm, xây dựng mạng nơ-ron.

- Quá trình nhận dạng: ảnh kí tự, ảnh nhị phân, cắt xét và thu nhỏ, làm mỏng ảnh, rút trích đặc điểm, nhận dạng.

Sử dụng mạng nơ-ron đề huấn luyện và nhận dạng

Mạng nơ-ron cung cấp một hướng tiếp cận mạnh cho các giá trị thực xấp xỉ, giá trị rời rạc hay các véc-tơ giá trị. Trong nhiều dạng của vấn đề, mạng nơ-ron nhân tạo là một trong những phương pháp máy học hiểu quả hiện nay. Trong phần nghiên cứu của mình, kỹ thuật mạng nơron truyền ngược (backpropagation), một trong những phương pháp hiểu quả trong trong nhiều bài toán, thích hợp bài toán nhận dạng chữ viết tay của chúng ta.

Mạng nơ-ron  giúp xây dựng một tập cơ sở dữ liệu từ việc huấn luyện các tập mẫu có sẵn. Cơ sở dữ liệu này được dùng trong nhận dạng ký tự từ các đặc điểm phân tích được.

Kết quả nghiên cứu

Nhóm nghiên cứu đã  phát triển một kỹ thuật nhận dạng ký tự viết tay dùng phương pháp nhận dạng dựa trên thông tin tĩnh. Phương pháp gồm hai bước: làm mỏng nét ký tự để giữ lại bộ khung của chúng và những thông tin đặc trưng được rút trích dựa trên bộ khung này bằng phương pháp rút trích thông tin theo chiều. Mặt khác, họ xây dựng mạng nơ-ron nhân tạo nhằm tạo ra cơ sở dữ liệu tri thức cho quá trình nhận dạng. Không giống như những phương pháp khác, phương pháp họ đề xuất sử dụng bộ khung, kết quả của quá trình làm mỏng, thay cho đường biên. Ưu điểm của sự cải tiến này không những làm giảm thời gian thi hành của giải thuật mà còn đưa ra các đặc điểm chính xác hơn. Mặt khác, thay vì các véc-tơ đặc điểm được đưa vào giai đoạn huấn luyện, các véc-tơ này sẽ được đưa vào giai đoạn nhận dạng.

Bên cạnh những ưu điểm trên, giải thuật làm mỏng không phù hợp chữ viết chữ quá nhỏ, các nét viết có thể dính từ nét này qua nét khác. Do đó, giải thuật có thể làm mất thông tin của ảnh. Khi chuẩn hóa các giá trị về chiều, một số trường hợp chuẩn hóa không trả về các giá trị mong muốn, làm sai lệch thông tin thực về nét vẽ. Chương trình phải huấn luyện trên hàng ngàn mẫu ký tự khác nhau. Do số mẫu được huấn luyện quá ít, không thể đánh giá xác thực được độ chính xác của chương trình một cách tuyệt đối.

Màu sắc của chữ sẽ không ảnh hưởng tới giải thuật trong trường hợp áp dụng trên các thiết bị di động. Nhưng nếu sử dụng trong trường hợp nhận dạng một trang giấy hay một bức thư thì cần áp dụng giải thuật phân mảnh và phân ngưỡng thích hợp để truy xuất vị trí các kí tự trong mặt giấy viết. Đây cũng là một phần ứng dụng trong hướng phát triển hỗ trợ khả năng đọc hiểu đoạn văn bản cho robot trong các nghiên cứu xa hơn.

Hướng phát triển sắp tới của nhóm nghiên cứu là tăng cường và bổ sung thêm một số các đặc điểm khác cần phải rút trích để tăng độ tin cậy và lưu những thông tin chính xác hơn về đặc trưng của ký tự. Mặt khác, nhóm áp dụng một số phương pháp cải tiến trong mạng nơ-ron để tăng độ tin cậy cho mạng. Đồng thời không dừng lai ở mức chỉ nhận dạng một kí tự đơn thuần, sắp tới họ sẽ cố gắng áp dụng các giải thuật phân mảnh để ứng dụng có khả năng đọc một từ gồm nhiều kí tự viết dính liền nhau, dẫn tới khả năng có thể đọc được cả một đoạn văn bản.

Xem Thêm

Thúc đẩy ứng dụng AI trong quản lý năng lượng - Giải pháp then chốt giảm phát thải nhà kính
Ngày 17/12, tại phường Bà Rịa, thành phố Hồ Chí Minh (TP.HCM), Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Sở Công Thương TP.HCM, Trung tâm Chứng nhận Chất lượng và Phát triển Doanh nghiệp và Công ty Cổ phần Tập đoàn Vira tổ chức Hội thảo khoa học “Giải pháp thúc đẩy ứng dụng AI trong quản lý, sử dụng năng lượng hiệu quả nhằm giảm phát thải khí nhà kính”.
Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách
Trong hai ngày 12-13/11, tại tỉnh Cao Bằng, Liên hiệp các Hội KH&KT Việt Nam (VUSTA) phối hợp với Trung tâm Con người và Thiên nhiên (PanNature) và Liên hiệp các Hội KH&KT tỉnh Cao Bằng tổ chức Chương trình chia sẻ “Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách”.
Thúc đẩy ứng dụng thực tiễn của vật liệu tiên tiến trong sản xuất năng lượng sạch
Ngày 24/10, tại Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Thành phố Hồ Chí Minh, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp với Hội Khoa học Công nghệ Xúc tác và Hấp phụ Việt Nam (VNACA) tổ chức Hội thảo khoa học “Vật liệu tiên tiến ứng dụng trong sản xuất nhiên liệu tái tạo và giảm phát thải khí nhà kính”.
Dựa vào thiên nhiên để phát triển bền vững vùng núi phía Bắc
Đó là chủ đề của hội thảo "Đa dạng sinh học và giải pháp dựa vào thiên nhiên cho phát triển vùng núi phía Bắc" diễn ra trong ngày 21/10, tại Thái Nguyên do Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (Vusta) phối hợp với Trung tâm Con người và Thiên nhiên (PANNATURE) phối hợp tổ chức.
Muốn công tác quy hoạch hiệu quả, công nghệ phải là cốt lõi
Phát triển đô thị là một quá trình, đô thị hoá là tất yếu khách quan, là một động lực quan trọng cho phát triển kinh tế - xã hội nhanh và bền vững. Trong kỷ nguyên vươn mình, quá trình đô thị hoá không thể tách rời quá trình công nghiệp hoá - hiện đại hoá đất nước...
Hội thảo quốc tế về máy móc, năng lượng và số hóa lần đầu tiên được tổ chức tại Vĩnh Long
Ngày 20/9, tại Vĩnh Long đã diễn ra Hội thảo quốc tế về Máy móc, năng lượng và số hóa hướng đến phát triển bền vững (IMEDS 2025). Sự kiện do Hội Nghiên cứu Biên tập Công trình Khoa học và Công nghệ Việt Nam (VASE) - hội thành viên của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Trường Đại học Sư phạm Kỹ thuật Vĩnh Long (VLUTE) tổ chức.
Ứng dụng công nghệ số toàn diện là nhiệm vụ trọng tâm của VUSTA giai đoạn tới
Ứng dụng công nghệ số toàn diện, xây dựng hệ sinh thái số là bước đi cấp thiết nhằm nâng cao hiệu quả quản trị và phát huy sức mạnh đội ngũ trí thức của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA). Qua đó cho thấy, VUSTA không chỉ bắt kịp xu thế công nghệ mà còn chủ động kiến tạo những giá trị mới, khẳng định vai trò tiên phong của đội ngũ trí thức trong thời đại số.

Tin mới

GS.VS. Châu Văn Minh được trao tặng Huân chương Độc lập
Chiều ngày 3/4, tại Trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm đã chủ trì buổi Lễ trao tặng các danh hiệu cao quý của Đảng và Nhà nước. GS.VS. Châu Văn Minh, Ủy viên Trung ương Đảng khóa XIII, Bí thư Đảng ủy VUSTA đã được trao tặng Huân chương Độc lập hạng Ba. Đây là phần thưởng cao quý ghi nhận những đóng góp đặc biệt xuất sắc của ông cho sự nghiệp khoa học và xây dựng đất nước.
Hội Tự động hóa Việt Nam tham dự CMES Shanghai 2026, tăng cường kết nối giao thương quốc tế
Từ ngày 23 đến 26/3/2026, tại Thượng Hải, Trung Quốc, Triển lãm Quốc tế Máy công cụ và Công nghệ chế tạo CMES Shanghai 2026 đã diễn ra sôi động, thu hút sự tham gia của đông đảo doanh nghiệp và chuyên gia trong lĩnh vực cơ khí chế tạo, tự động hóa và sản xuất thông minh trên toàn cầu.
Công bố Quyết định của Bộ Chính trị về công tác tổ chức và cán bộ
Sáng 1/4, tại Hà Nội, Bộ Chính trị tổ chức hội nghị công bố Quyết định của Bộ Chính trị về công tác tổ chức và cán bộ đối với 5 cơ quan. Thủ tướng Chính phủ Phạm Minh Chính dự hội nghị. Đồng chí Trần Cẩm Tú, Ủy viên Bộ Chính trị, Thường trực Ban Bí thư trao các quyết định và phát biểu ý kiến chỉ đạo.
Tổng Bí thư Tô Lâm trao Huân chương Quân công hạng nhất và Huy hiệu Đảng tặng các đồng chí lãnh đạo, nguyên lãnh đạo
Chiều 30/3, tại trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm và các đồng chí lãnh đạo Đảng, Nhà nước đã dự lễ trao Huân chương Quân công hạng nhất và Huy hiệu Đảng tặng Thủ tướng Chính phủ Phạm Minh Chính và các đồng chí lãnh đạo, nguyên lãnh đạo Đảng, Nhà nước, Chính phủ.
Đổi mới công tác tư vấn, phản biện: “Chìa khóa” để phát huy vai trò của đội ngũ trí thức
Giới chuyên môn nhận định, chuyển đổi số và AI sẽ tạo bước đột phá cho công tác tư vấn, phản biện nhờ sự giao thoa giữa trí tuệ chuyên gia, sức mạnh dữ liệu cùng các công cụ phân tích hiện đại. Tuy nhiên, thực tế hoạt động tư vấn phản biện hiện chưa theo kịp yêu cầu, đòi hỏi cấp thiết phải làm chủ các nền tảng số và phương pháp phân tích hiện đại để thu hẹp khoảng cách giữa tiềm năng và thực tiễn.
Hội thảo khoa học quốc gia “Phát triển kinh tế tư nhân ở Hải Phòng trong kỷ nguyên vươn mình của đất nước”
Ngày 27/3/2026, tại Trường Đại học Hải Phòng đã diễn ra Hội thảo khoa học quốc gia với chủ đề: “Phát triển kinh tế tư nhân ở Hải Phòng trong kỷ nguyên vươn mình của đất nước”. Hội thảo do Liên hiệp các Hội Khoa học và Kỹ thuật thành phố, Trường Đại học Hải Phòng, Đại học Phenikaa, Ban Quản lý Khu kinh tế Hải Phòng đồng tổ chức.
Phú Thọ: Hội nghị tuyên truyền pháp luật và kết quả bầu cử đại biểu Quốc hội khóa XVI và Hội đồng nhân dân các cấp
Ngày 28/3/2026, Liên hiệp các Hội Khoa học và Kỹ thuật tỉnh Phú Thọ phối hợp với Hội Luật gia tỉnh tổ chức Hội nghị tuyên truyền pháp luật và kết quả bầu cử đại biểu Quốc hội khóa XVI và Hội đồng nhân dân các cấp nhiệm kỳ 2026 - 2031.
Đắk Lắk: Ths. Đoàn Văn Thanh và Ths. Lê Văn Dần được bầu giữ chức Phó Chủ tịch Liên hiệp Hội
Chiều ngày 26/3/ 2026, tại Hội trường cơ quan, Liên hiệp các Hội Khoa học và Kỹ thuật tỉnh (Liên hiệp Hội) Đắk Lắk đã tổ chức Hội nghị Ban Chấp hành (mở rộng) với ba nội dung: Thực hiện quy trình công tác cán bộ; Sơ kết công tác quý I, triển khai nhiệm vụ công tác quý II và Trao quyết định công nhận tổ chức thành viên mới.
Gia Lai: Đánh giá kết quả bước đầu thực hiện Dự án Sa nhân tím
Ngày 25/3/2026, xã Bình Phú, tỉnh Gia Lai, Liên hiệp các Hội Khoa học và Kỹ thuật tỉnh Gia Lai phối hợp với các đơn vị liên quan tổ chức Hội nghị sơ kết giữa kỳ Dự án “Hỗ trợ phát triển vùng nguyên liệu cây dược liệu sa nhân dưới tán rừng cho cộng đồng dân tộc thiểu số góp phần cải thiện sinh kế người dân, bảo tồn hệ sinh thái rừng, thích ứng biến đổi khí hậu tại xã Bình Phú, tỉnh Gia Lai”.
Hội Điều dưỡng Hải Phòng nâng cao chất lượng điều dưỡng, hướng tới sự hài lòng người bệnh
Ngày 25/3/2026, tại Bệnh viện Kiến An, Hội Điều dưỡng thành phố Hải Phòng tổ chức Đại hội Đại biểu lần thứ I, nhiệm kỳ 2026 - 2031. Đại hội đánh dấu bước chuyển quan trọng sau khi hợp nhất Hội Điều dưỡng Hải Phòng và Hội Điều dưỡng Hải Dương trước đây, tạo nền tảng thống nhất, đồng bộ trong phát triển công tác điều dưỡng trên địa bàn thành phố.