Liên hiệp các hội khoa học và kỹ thuật Việt Nam
Thứ hai, 28/12/2009 21:20 (GMT+7)

VietOCR 1.5: Nhận dạng ký tự tiếng Việt “chuẩn không cần chỉnh”

Dung lượng:4,2MB.

Tải tại:http://websitetinhoc.com  (miễn phí).

Nguồn: Diendantinhoc

So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:\Program Files\VietUnicode\VietOCR.NET\samples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

 - Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate  vài lần cho đúng hướng là xong.

- Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Xem Thêm

Thúc đẩy ứng dụng AI trong quản lý năng lượng - Giải pháp then chốt giảm phát thải nhà kính
Ngày 17/12, tại phường Bà Rịa, thành phố Hồ Chí Minh (TP.HCM), Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Sở Công Thương TP.HCM, Trung tâm Chứng nhận Chất lượng và Phát triển Doanh nghiệp và Công ty Cổ phần Tập đoàn Vira tổ chức Hội thảo khoa học “Giải pháp thúc đẩy ứng dụng AI trong quản lý, sử dụng năng lượng hiệu quả nhằm giảm phát thải khí nhà kính”.
Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách
Trong hai ngày 12-13/11, tại tỉnh Cao Bằng, Liên hiệp các Hội KH&KT Việt Nam (VUSTA) phối hợp với Trung tâm Con người và Thiên nhiên (PanNature) và Liên hiệp các Hội KH&KT tỉnh Cao Bằng tổ chức Chương trình chia sẻ “Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách”.
Thúc đẩy ứng dụng thực tiễn của vật liệu tiên tiến trong sản xuất năng lượng sạch
Ngày 24/10, tại Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Thành phố Hồ Chí Minh, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp với Hội Khoa học Công nghệ Xúc tác và Hấp phụ Việt Nam (VNACA) tổ chức Hội thảo khoa học “Vật liệu tiên tiến ứng dụng trong sản xuất nhiên liệu tái tạo và giảm phát thải khí nhà kính”.
Dựa vào thiên nhiên để phát triển bền vững vùng núi phía Bắc
Đó là chủ đề của hội thảo "Đa dạng sinh học và giải pháp dựa vào thiên nhiên cho phát triển vùng núi phía Bắc" diễn ra trong ngày 21/10, tại Thái Nguyên do Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (Vusta) phối hợp với Trung tâm Con người và Thiên nhiên (PANNATURE) phối hợp tổ chức.
Muốn công tác quy hoạch hiệu quả, công nghệ phải là cốt lõi
Phát triển đô thị là một quá trình, đô thị hoá là tất yếu khách quan, là một động lực quan trọng cho phát triển kinh tế - xã hội nhanh và bền vững. Trong kỷ nguyên vươn mình, quá trình đô thị hoá không thể tách rời quá trình công nghiệp hoá - hiện đại hoá đất nước...
Hội thảo quốc tế về máy móc, năng lượng và số hóa lần đầu tiên được tổ chức tại Vĩnh Long
Ngày 20/9, tại Vĩnh Long đã diễn ra Hội thảo quốc tế về Máy móc, năng lượng và số hóa hướng đến phát triển bền vững (IMEDS 2025). Sự kiện do Hội Nghiên cứu Biên tập Công trình Khoa học và Công nghệ Việt Nam (VASE) - hội thành viên của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Trường Đại học Sư phạm Kỹ thuật Vĩnh Long (VLUTE) tổ chức.
Ứng dụng công nghệ số toàn diện là nhiệm vụ trọng tâm của VUSTA giai đoạn tới
Ứng dụng công nghệ số toàn diện, xây dựng hệ sinh thái số là bước đi cấp thiết nhằm nâng cao hiệu quả quản trị và phát huy sức mạnh đội ngũ trí thức của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA). Qua đó cho thấy, VUSTA không chỉ bắt kịp xu thế công nghệ mà còn chủ động kiến tạo những giá trị mới, khẳng định vai trò tiên phong của đội ngũ trí thức trong thời đại số.

Tin mới

Liên hiệp Hội Việt Nam chủ trì tổ chức họp các đoàn dự Đại hội đại biểu toàn quốc MTTQ Việt Nam lần thứ XI
Căn cứ Thông tri số 10/TT-MTTQ-UB của Ủy ban Trung ương MTTQ Việt Nam về việc triệu tập đại biểu dự Đại hội đại biểu toàn quốc MTTQ Việt Nam lần thứ XI, với vai trò là Trưởng các Đoàn của tổ chức chính trị, tổ chức chính trị - xã hội, các tổ chức Liên hiệp, Liên hiệp Hội Việt Nam đã chủ trì tổ chức họp các đoàn để triển khai thực hiện thông tri của MTTQ Việt Nam.
Thủ tướng Lê Minh Hưng lên đường tham dự Hội nghị cấp cao ASEAN lần thứ 48 tại Philippines
Nhận lời mời của Tổng thống nước Cộng hòa Philippines Ferdinand Romualdez Marcos Jr, Chủ tịch ASEAN năm 2026, ngày 7/5, Thủ tướng Chính phủ nước Cộng hòa xã hội chủ nghĩa Việt Nam Lê Minh Hưng dẫn đầu Đoàn đại biểu cấp cao Việt Nam lên đường tham dự Hội nghị cấp cao ASEAN lần thứ 48 tại Cebu, Philippines từ ngày 7 đến 8/5/2026.
Hội Vô tuyến - Điện tử Việt Nam: Điểm tựa khoa học công nghệ gắn với chuyển đổi số quốc gia
Hội Vô tuyến - Điện tử Việt Nam với gần 40 năm phát triển đang thể hiện rõ vai trò tổ tổ chức xã hội - nghề nghiệp uy tín trong lĩnh vực vô tuyến, điện tử, viễn thông, công nghệ thông tin đồng thời đóng góp thực chất vào tiến trình chuyển đổi số quốc gia theo tinh thần Nghị quyết 57-NQ/TW của Bộ Chính trị.
Đầu tư khoa học công nghệ giải quyết điểm nghẽn của ngành Thủy sản Việt Nam
Phát biểu tại Hội nghị khoa học công nghệ thủy sản và kiểm ngư toàn quốc năm 2026, Thứ trưởng Bộ Nông nghiệp và Môi trường Phùng Đức Tiến đã nhấn mạnh sự cần thiết của đổi mới sáng tạo khoa học công nghệ trong giải quyết điểm nghẽn về logistics, môi trường, nâng cao sức cạnh tranh của ngành Thủy sản trong nước.
Chủ tịch VUSTA Phan Xuân Dũng nhận danh hiệu Giáo sư danh dự Đại học Năng lượng Moskva, Liên bang Nga
Sáng 30/4/2026, tại Trường Đại học Năng lượng Moskva, Liên bang Nga (MPEI), TSKH. Phan Xuân Dũng, Chủ tịch VUSTA đã vinh dự đón nhận danh hiệu Giáo sư danh dự của MPEI. Chủ tịch VUSTA Phan Xuân Dũng là công dân đầu tiên của Việt Nam được trao tặng danh hiệu Giáo sư tại MPEI, đứng trong bảng danh dự cùng với các nhà khoa học nổi tiếng trên thế giới.
51 năm thống nhất đất nước: Khơi thông nguồn lực tri thức trong kỷ nguyên mới
Thông tấn xã Việt Nam giới thiệu bài phỏng vấn với Phó Giáo sư, Tiến sĩ Phạm Ngọc Linh, Phó Chủ tịch Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) về vai trò của lực lượng trí thức và những giải pháp đột phá để hiện thực hóa khát vọng hùng cường vào năm 2030 và 2045.