Tiếng Việt và việc xử lí tự động tiếng Việt trong công nghệ thông tin
1. Ngôn ngữ và công nghệ thông tin
Ngôn ngữ là công cụ giao tiếp quan trọng nhất của con người. Trong giao tiếp, thông tin là nội dung quan trọng hàng đầu. Phần lớn các thông tin tồn tại dưới dạng các văn bản nói và viết, bằng ngôn ngữ tự nhiên. Trong quá trình giao tiếp “Người-Máy” đơn ngữ, hoặc cao hơn, trong giao tiếp “Người-Máy-Người” đa ngữ, một loạt vấn đề về ngôn ngữ cần được giải quyết. Để có thể xử lí và nắm được một khối lượng lớn thông tin, máy tính cần phải tự động “nhận biết” được hình thức văn bản và “hiểu” được nội dung ngữ nghĩa, ngữ pháp, ngữ dụng của văn bản. Công nghệ thông tin là ngành khoa học nhằm xử lí dữ liệu để tìm, lưu giữ và truyền thông tin, tri thức. Xử lí ngôn ngữ là xử lí dữ liệu ngôn ngữ thu được ở dạng tiếng nói (ngôn ngữ nói - âm thanh) và dạng văn bản chữ viết (ngôn ngữ viết). Có rất nhiều bài toán về xử lí ngôn ngữ như tổng hợp lời nói (“máy biết nói”), nhận dạng người nói, nhận dạng tiếng nói, tự động kiểm tra chính tả, kiểm tra ngữ pháp, phân loại văn bản, tóm tắt văn bản, dịch tự động...
2. Tiếng Việt trong công nghệ thông tin
Có những nguyên tắc và cách giải quyết các bài toán về xử lí ngôn ngữ tự nhiên chung, phổ quát, có thể áp dụng cho các ngôn ngữ khác nhau. Đồng thời, cũng cần phải tìm ra những cách giải quyết riêng, phù hợp với đặc điểm từng ngôn ngữ cụ thể.
Tiếng Việt có những đặc điểm riêng, cần lưu ý khi giải quyết các bài toán tự động xử lí ngôn ngữ.
2.1. Tiếng Việt là ngôn ngữ giao tiếp của cộng đồng các dân tộc Việt Nam, tồn tại dưới hình thức một ngôn ngữ văn hóa, toàn dân, đồng thời cũng có nhiều biến thể địa lí (phương ngữ, thổ ngữ), biến thể xã hội (phương ngữ xã hội), một số vấn đề cần được thống nhất và chuẩn hóa.
2.2. Chữ viết tiếng Việt (chữ Quốc ngữ) là chữ viết ghi âm – âm tiết, các quy tắc chính tả tương đối hoàn chỉnh, tuy nhiên cũng còn một số chưa được thống nhất và chuẩn hóa: vị trí dấu thanh, quy tắc sử dụng dấu câu, quy tắc viết tên riêng nước ngoài...
2.3. Về mặt ngữ âm: Tiếng Việt là ngôn ngữ đơn lập triệt để (đơn tiết, có thanh điệu, âm tiết có những đặc điểm riêng biệt về chức năng và cấu trúc).
2.4. Về mặt từ vựng: Vấn đề nhận diện từ (phân biệt từ và từ tồ), số lượng đáng kể từ đồng âm, hiện tượng chuyển loại, tính đa nghĩa của từ.
2.5. Về mặt ngữ pháp: các tiêu chí hình thức để xác định từ loại, sự phân biệt nghĩa từ vựng và nghĩa ngữ pháp, phạm trù từ vựng và phạm trù ngữ pháp, tính tùy tiện của các phương thức biểu hiện các phạm trù ngữ pháp, vai trò của phương thức trật tự thành tố trong biểu hiện ý nghĩa cú pháp...
Những đặc điểm trên cần lưu ý khi giải quyết các bài toán như nhận dạng tiếng nói, nhận diện người nói, tổng hợp lời nói từ văn bản đến lời nói, tự động phân tích văn bản, phân loại văn bản, xây dựng từ điển điện tử tiếng Việt, tự động phân tích ngữ pháp, dịch tự động...
3. Về sự hợp tác giữa CNTT và nghiên cứu tiếng Việt
Vấn đề xử lí tiếng Việt trong CNTT đang là nhiệm vụ cấp bách để phát triển CNTT nói riêng, cũng như ứng dụng ngành khoa học “mũi nhọn” này vào các lĩnh vực kinh tế, văn hóa, xã hội ở nước ta hiện nay, nói chung. Cho đến nay cũng đã có một số đề tài về xử lí tiếng Việt như tổng hợp, nhận dạng tiếng Việt, phân loại văn bản, tóm tắt văn bản, dịch máy... được thực hiện. Tuy nhiên, như nhận xét của các chuyên gia trong CNTT, phần lớn các đề tài này mới chỉ mang tính chất đặt vấn đề, ở dạng nguyên sơ (prototype), mới được thực hiện trong phạm vi luận án cao học và một số luận án tiến sĩ.
Những chuyên gia trong CNTT ngày càng ý thức rõ: 1- để giải các bài toán về xử lí tiếng Việt (dạng nói và viết) không thể trông chờ vào các chuyên gia hay các công ty phần mềm nước ngoài, mà phải do chính người Việt Nam giải quyết; 2- các vấn đề xử lí tiếng Việt chỉ có thể giải quyết trên cơ sở những kết quả nghiên cứu tiếng Việt, cần thiết phải có sự hợp tác chặt chẽ giữa những người nghiên cứu tiếng Việt và CNTT. Trong những năm qua, sự hợp tác này chưa có, hoặc đã có ở đâu đó, nhưng chưa tốt. Trong khi những người làm CNTT còn lúng túng khi giải quyết những vấn đề liên quan đến tiếng Việt, thì những người nghiên cứu tiếng Việt, do nhiều nguyên nhân, thường đứng ngoài, hoặc chỉ tham gia với tư cách tư vấn, hay làm tư liệu một cách không thường xuyên và thiếu chủ động, tích cực. Để giải các bài toán về tổng hợp, nhận dạng, dịch tự động tiếng Việt, người ta thường chọn cách ít phải sử dụng các tri thức về ngôn ngữ học, về tiếng Việt, bằng cách dựa vào các chương trình, phần mềm đã có, vốn được xây dựng để xử lí các ngôn ngữ châu Âu (chủ yếu là Anh, Pháp, Đức), đem áp dụng vào tiếng Việt. Cách làm này cũng có thể đem những kết quả nhất định, nhưng cũng có không ít hạn chế.
4. Một số vấn đề cần giải quyết
4.1. Xây dựng các cơ sở dữ liệu tiếng Việt
Nếu như trong công nghệ thông tin, tiếng Việt được xem như nguồn tài nguyên quan trọng, thì vấn đề đặt ra là cần khái thác, xử lí, sử dụng, tái tạo và làm giàu nguồn tài nguyên này như thế nào? Để giải quyết những câu hỏi trên, một vấn đề cần quan tâm trước hết là, những người làm CNTT và nghiên cứu tiếng Việt cần hợp tác để xây dựng các cơ sở dữ liệu (CSDL) cơ bản về tiếng Việt. Để xây dựng các CSDL, có thể áp dụng những cơ sở lí thuyết, cách tiếp cận, phương pháp của chuyên ngành Ngữ liệu học (Corpus Linguistics) - một chuyên ngành khoa học mới được ra đời, nhằm áp dụng những kết quả CNTT vào việc tạo lập các kho ngữ liệu (Corpora). Những người nghiên cứu tiếng Việt và CNTT cùng hợp tác xây dựng và cùng chia sẻ, khai thác các kho ngữ liệu – tài nguyên này trong nghiên cứu tiếng Việt và CNTT. Trong các kho ngữ liệu cơ bản về tài nguyên tiếng Việt, trước mắt cần thiết lập 2 kho:
4.1.2. CSDL ngữ âm tiếng Việt. Kho dữ liệu ngữ âm tiếng Việt nhằm giải quyết các vấn đề liên quan đến công nghệ xử lí lời (âm thanh) tiếng Việt. Ở nhiều nước đã thành lập CSDL dạng này. Đối với tiếng Anh ở Hoa Kỳ, các nhà ngôn ngữ học đã kết hợp với CNTT xây dựng cơ sở dữ liệu ngữ âm – âm học tiếng Anh. (DRAPA TIMIT Acoustic-Phonetic Continuos Speech Corpus, viết tắt TIMIT). Kho TIMIT của ngôn ngữ nói tiếng Anh Hoa Kỳ được thành lập nhằm cung cấp dữ liệu để nghiên cứu ngữ âm – âm học và để xây dựng và phát triển các hệ thống tổng hợp, nhận dạng tự động lời nói. Dự án được thực hiện trong sự hợp tác giữa Viện Công nghệ Massachusetts (MIT), Viện Stanford (SRI) và Công ty công nghệ thông tin Texas . TIMIT chứa đựng 6300 câu, do 630 người đọc (mỗi người đọc 10 câu), đại diện cho 8 phương ngữ tiếng Anh ở Hoa Kỳ.
4.1.3. CSDL từ vựng tiếng Việt. Kho dữ liệu từ vựng là cơ sở để xây dựng các loại từ điển điện tử tiếng Việt, bao gồm cả từ điển từ ngữ, từ điển ý niệm, từ điển đối địch... Từ điển điện tử là cơ sở để xử lí các văn bản tiếng Việt (nhận dạng văn bản, phân loại văn bản, tóm tắt văn bản, dịch tự động...). Có thể tham khảo cách làm CSDL Longman.
4.2. Đẩy mạnh nghiên cứu cơ bản về tiếng Việt trong CNTT
Chúng ta đã có nhiều kết quả trong nghiên cứu tiếng Việt. Tuy nhiên, để giải quyết những vấn đề về xử lí tiếng Việt trong CNTT, một số vấn đề về tiếng Việt cần được nghiên cứu, giải quyết theo cách riêng. Những người nghiên cứu tiếng Việt trước hết, cần nắm rõ những bài toán về xử lí tiếng nói đang đặt ra và sau đó, giải quyết chúng theo yêu cầu của CNTT. Chẳng hạn chúng ta đã có nhiều thành tựu nghiên cứu về ngữ âm – âm vị học tiếng Việt, nhưng chủ yếu dựa trên những miêu tả cấu âm và cảm thụ thính giác; trong khi đó, việc giải quyết những vấn đề về xử lí lời nói (âm thanh) tiếng Việt cần dựa trên những khảo sát, miêu tả và giải thuyết ngữ âm – âm vị học dựa trên những thuộc tính âm học của các tín hiệu tiếng nói (âm thanh). Trong lĩnh vực ngữ pháp, chúng ta cũng đã xây dựng nhiều lí thuyết chẳng hạn, về từ loại, về phân tích cú pháp tiếng Việt, nhưng hiện nay, những người làm CNTT cần một hệ thống phân tích từ loại tiếng Việt thích dụng trong việc gắn nhãn (tagging) các đơn vị từ ngữ để phân tích tự động từ vựng và hình thái học tiếng Việt; họ cũng cần một lí thuyết phân tích cú pháp tiếng Việt thích dụng cho việc tự động phân tích cú pháp trong các hệ thống tìm kiếm thông tin, tóm tắt văn bản, dịch máy... Có thể nói, những vấn đề liên quan đến xử lí tự động tiếng Việt (dạng nói – âm thanh và chữ viết) cả về lí thuyết và thực hành, giới nghiên cứu tiếng Việt chưa làm được nhiều. Để giải quyết những vấn đề này, giới CNTT đang chờ đợi những nghiên cứu trên tất cả các bình diện về tiếng Việt như: chuẩn hóa (chính âm, chính tả), nghiên cứu phương ngữ, ngữ âm học, từ vựng ngữ nghĩa, biên soạn từ điển các loại, ngữ pháp lí luận và thực hành, ngữ dụng, phân tích diễn ngôn...








