Liên hiệp các hội khoa học và kỹ thuật Việt Nam
Thứ tư, 02/05/2007 23:08 (GMT+7)

Tiếng Việt và việc xử lí tự động tiếng Việt trong công nghệ thông tin

1. Ngôn ngữ và công nghệ thông tin

Ngôn ngữ là công cụ giao tiếp quan trọng nhất của con người. Trong giao tiếp, thông tin là nội dung quan trọng hàng đầu. Phần lớn các thông tin tồn tại dưới dạng các văn bản nói và viết, bằng ngôn ngữ tự nhiên. Trong quá trình giao tiếp “Người-Máy” đơn ngữ, hoặc cao hơn, trong giao tiếp “Người-Máy-Người” đa ngữ, một loạt vấn đề về ngôn ngữ cần được giải quyết. Để có thể xử lí và nắm được một khối lượng lớn thông tin, máy tính cần phải tự động “nhận biết” được hình thức văn bản và “hiểu” được nội dung ngữ nghĩa, ngữ pháp, ngữ dụng của văn bản. Công nghệ thông tin là ngành khoa học nhằm xử lí dữ liệu để tìm, lưu giữ và truyền thông tin, tri thức. Xử lí ngôn ngữ là xử lí dữ liệu ngôn ngữ thu được ở dạng tiếng nói (ngôn ngữ nói - âm thanh) và dạng văn bản chữ viết (ngôn ngữ viết). Có rất nhiều bài toán về xử lí ngôn ngữ như tổng hợp lời nói (“máy biết nói”), nhận dạng người nói, nhận dạng tiếng nói, tự động kiểm tra chính tả, kiểm tra ngữ pháp, phân loại văn bản, tóm tắt văn bản, dịch tự động...

2. Tiếng Việt trong công nghệ thông tin

Có những nguyên tắc và cách giải quyết các bài toán về xử lí ngôn ngữ tự nhiên chung, phổ quát, có thể áp dụng cho các ngôn ngữ khác nhau. Đồng thời, cũng cần phải tìm ra những cách giải quyết riêng, phù hợp với đặc điểm từng ngôn ngữ cụ thể.

Tiếng Việt có những đặc điểm riêng, cần lưu ý khi giải quyết các bài toán tự động xử lí ngôn ngữ.

2.1. Tiếng Việt là ngôn ngữ giao tiếp của cộng đồng các dân tộc Việt Nam, tồn tại dưới hình thức một ngôn ngữ văn hóa, toàn dân, đồng thời cũng có nhiều biến thể địa lí (phương ngữ, thổ ngữ), biến thể xã hội (phương ngữ xã hội), một số vấn đề cần được thống nhất và chuẩn hóa.

2.2. Chữ viết tiếng Việt (chữ Quốc ngữ) là chữ viết ghi âm – âm tiết, các quy tắc chính tả tương đối hoàn chỉnh, tuy nhiên cũng còn một số chưa được thống nhất và chuẩn hóa: vị trí dấu thanh, quy tắc sử dụng dấu câu, quy tắc viết tên riêng nước ngoài...

2.3. Về mặt ngữ âm: Tiếng Việt là ngôn ngữ đơn lập triệt để (đơn tiết, có thanh điệu, âm tiết có những đặc điểm riêng biệt về chức năng và cấu trúc).

2.4. Về mặt từ vựng: Vấn đề nhận diện từ (phân biệt từ và từ tồ), số lượng đáng kể từ đồng âm, hiện tượng chuyển loại, tính đa nghĩa của từ.

2.5. Về mặt ngữ pháp: các tiêu chí hình thức để xác định từ loại, sự phân biệt nghĩa từ vựng và nghĩa ngữ pháp, phạm trù từ vựng và phạm trù ngữ pháp, tính tùy tiện của các phương thức biểu hiện các phạm trù ngữ pháp, vai trò của phương thức trật tự thành tố trong biểu hiện ý nghĩa cú pháp...

Những đặc điểm trên cần lưu ý khi giải quyết các bài toán như nhận dạng tiếng nói, nhận diện người nói, tổng hợp lời nói từ văn bản đến lời nói, tự động phân tích văn bản, phân loại văn bản, xây dựng từ điển điện tử tiếng Việt, tự động phân tích ngữ pháp, dịch tự động...

3. Về sự hợp tác giữa CNTT và nghiên cứu tiếng Việt

Vấn đề xử lí tiếng Việt trong CNTT đang là nhiệm vụ cấp bách để phát triển CNTT nói riêng, cũng như ứng dụng ngành khoa học “mũi nhọn” này vào các lĩnh vực kinh tế, văn hóa, xã hội ở nước ta hiện nay, nói chung. Cho đến nay cũng đã có một số đề tài về xử lí tiếng Việt như tổng hợp, nhận dạng tiếng Việt, phân loại văn bản, tóm tắt văn bản, dịch máy... được thực hiện. Tuy nhiên, như nhận xét của các chuyên gia trong CNTT, phần lớn các đề tài này mới chỉ mang tính chất đặt vấn đề, ở dạng nguyên sơ (prototype), mới được thực hiện trong phạm vi luận án cao học và một số luận án tiến sĩ.

Những chuyên gia trong CNTT ngày càng ý thức rõ: 1- để giải các bài toán về xử lí tiếng Việt (dạng nói và viết) không thể trông chờ vào các chuyên gia hay các công ty phần mềm nước ngoài, mà phải do chính người Việt Nam giải quyết; 2- các vấn đề xử lí tiếng Việt chỉ có thể giải quyết trên cơ sở những kết quả nghiên cứu tiếng Việt, cần thiết phải có sự hợp tác chặt chẽ giữa những người nghiên cứu tiếng Việt và CNTT. Trong những năm qua, sự hợp tác này chưa có, hoặc đã có ở đâu đó, nhưng chưa tốt. Trong khi những người làm CNTT còn lúng túng khi giải quyết những vấn đề liên quan đến tiếng Việt, thì những người nghiên cứu tiếng Việt, do nhiều nguyên nhân, thường đứng ngoài, hoặc chỉ tham gia với tư cách tư vấn, hay làm tư liệu một cách không thường xuyên và thiếu chủ động, tích cực. Để giải các bài toán về tổng hợp, nhận dạng, dịch tự động tiếng Việt, người ta thường chọn cách ít phải sử dụng các tri thức về ngôn ngữ học, về tiếng Việt, bằng cách dựa vào các chương trình, phần mềm đã có, vốn được xây dựng để xử lí các ngôn ngữ châu Âu (chủ yếu là Anh, Pháp, Đức), đem áp dụng vào tiếng Việt. Cách làm này cũng có thể đem những kết quả nhất định, nhưng cũng có không ít hạn chế.

4. Một số vấn đề cần giải quyết

4.1. Xây dựng các cơ sở dữ liệu tiếng Việt

Nếu như trong công nghệ thông tin, tiếng Việt được xem như nguồn tài nguyên quan trọng, thì vấn đề đặt ra là cần khái thác, xử lí, sử dụng, tái tạo và làm giàu nguồn tài nguyên này như thế nào? Để giải quyết những câu hỏi trên, một vấn đề cần quan tâm trước hết là, những người làm CNTT và nghiên cứu tiếng Việt cần hợp tác để xây dựng các cơ sở dữ liệu (CSDL) cơ bản về tiếng Việt. Để xây dựng các CSDL, có thể áp dụng những cơ sở lí thuyết, cách tiếp cận, phương pháp của chuyên ngành Ngữ liệu học (Corpus Linguistics) - một chuyên ngành khoa học mới được ra đời, nhằm áp dụng những kết quả CNTT vào việc tạo lập các kho ngữ liệu (Corpora). Những người nghiên cứu tiếng Việt và CNTT cùng hợp tác xây dựng và cùng chia sẻ, khai thác các kho ngữ liệu – tài nguyên này trong nghiên cứu tiếng Việt và CNTT. Trong các kho ngữ liệu cơ bản về tài nguyên tiếng Việt, trước mắt cần thiết lập 2 kho:

4.1.2. CSDL ngữ âm tiếng Việt. Kho dữ liệu ngữ âm tiếng Việt nhằm giải quyết các vấn đề liên quan đến công nghệ xử lí lời (âm thanh) tiếng Việt. Ở nhiều nước đã thành lập CSDL dạng này. Đối với tiếng Anh ở Hoa Kỳ, các nhà ngôn ngữ học đã kết hợp với CNTT xây dựng cơ sở dữ liệu ngữ âm – âm học tiếng Anh. (DRAPA TIMIT Acoustic-Phonetic Continuos Speech Corpus, viết tắt TIMIT). Kho TIMIT của ngôn ngữ nói tiếng Anh Hoa Kỳ được thành lập nhằm cung cấp dữ liệu để nghiên cứu ngữ âm – âm học và để xây dựng và phát triển các hệ thống tổng hợp, nhận dạng tự động lời nói. Dự án được thực hiện trong sự hợp tác giữa Viện Công nghệ Massachusetts (MIT), Viện Stanford (SRI) và Công ty công nghệ thông tin Texas . TIMIT chứa đựng 6300 câu, do 630 người đọc (mỗi người đọc 10 câu), đại diện cho 8 phương ngữ tiếng Anh ở Hoa Kỳ.

4.1.3. CSDL từ vựng tiếng Việt. Kho dữ liệu từ vựng là cơ sở để xây dựng các loại từ điển điện tử tiếng Việt, bao gồm cả từ điển từ ngữ, từ điển ý niệm, từ điển đối địch... Từ điển điện tử là cơ sở để xử lí các văn bản tiếng Việt (nhận dạng văn bản, phân loại văn bản, tóm tắt văn bản, dịch tự động...). Có thể tham khảo cách làm CSDL Longman.

4.2. Đẩy mạnh nghiên cứu cơ bản về tiếng Việt trong CNTT

Chúng ta đã có nhiều kết quả trong nghiên cứu tiếng Việt. Tuy nhiên, để giải quyết những vấn đề về xử lí tiếng Việt trong CNTT, một số vấn đề về tiếng Việt cần được nghiên cứu, giải quyết theo cách riêng. Những người nghiên cứu tiếng Việt trước hết, cần nắm rõ những bài toán về xử lí tiếng nói đang đặt ra và sau đó, giải quyết chúng theo yêu cầu của CNTT. Chẳng hạn chúng ta đã có nhiều thành tựu nghiên cứu về ngữ âm – âm vị học tiếng Việt, nhưng chủ yếu dựa trên những miêu tả cấu âm và cảm thụ thính giác; trong khi đó, việc giải quyết những vấn đề về xử lí lời nói (âm thanh) tiếng Việt cần dựa trên những khảo sát, miêu tả và giải thuyết ngữ âm – âm vị học dựa trên những thuộc tính âm học của các tín hiệu tiếng nói (âm thanh). Trong lĩnh vực ngữ pháp, chúng ta cũng đã xây dựng nhiều lí thuyết chẳng hạn, về từ loại, về phân tích cú pháp tiếng Việt, nhưng hiện nay, những người làm CNTT cần một hệ thống phân tích từ loại tiếng Việt thích dụng trong việc gắn nhãn (tagging) các đơn vị từ ngữ để phân tích tự động từ vựng và hình thái học tiếng Việt; họ cũng cần một lí thuyết phân tích cú pháp tiếng Việt thích dụng cho việc tự động phân tích cú pháp trong các hệ thống tìm kiếm thông tin, tóm tắt văn bản, dịch máy... Có thể nói, những vấn đề liên quan đến xử lí tự động tiếng Việt (dạng nói – âm thanh và chữ viết) cả về lí thuyết và thực hành, giới nghiên cứu tiếng Việt chưa làm được nhiều. Để giải quyết những vấn đề này, giới CNTT đang chờ đợi những nghiên cứu trên tất cả các bình diện về tiếng Việt như: chuẩn hóa (chính âm, chính tả), nghiên cứu phương ngữ, ngữ âm học, từ vựng ngữ nghĩa, biên soạn từ điển các loại, ngữ pháp lí luận và thực hành, ngữ dụng, phân tích diễn ngôn...

Xem Thêm

Thúc đẩy ứng dụng AI trong quản lý năng lượng - Giải pháp then chốt giảm phát thải nhà kính
Ngày 17/12, tại phường Bà Rịa, thành phố Hồ Chí Minh (TP.HCM), Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Sở Công Thương TP.HCM, Trung tâm Chứng nhận Chất lượng và Phát triển Doanh nghiệp và Công ty Cổ phần Tập đoàn Vira tổ chức Hội thảo khoa học “Giải pháp thúc đẩy ứng dụng AI trong quản lý, sử dụng năng lượng hiệu quả nhằm giảm phát thải khí nhà kính”.
Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách
Trong hai ngày 12-13/11, tại tỉnh Cao Bằng, Liên hiệp các Hội KH&KT Việt Nam (VUSTA) phối hợp với Trung tâm Con người và Thiên nhiên (PanNature) và Liên hiệp các Hội KH&KT tỉnh Cao Bằng tổ chức Chương trình chia sẻ “Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách”.
Thúc đẩy ứng dụng thực tiễn của vật liệu tiên tiến trong sản xuất năng lượng sạch
Ngày 24/10, tại Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Thành phố Hồ Chí Minh, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp với Hội Khoa học Công nghệ Xúc tác và Hấp phụ Việt Nam (VNACA) tổ chức Hội thảo khoa học “Vật liệu tiên tiến ứng dụng trong sản xuất nhiên liệu tái tạo và giảm phát thải khí nhà kính”.
Dựa vào thiên nhiên để phát triển bền vững vùng núi phía Bắc
Đó là chủ đề của hội thảo "Đa dạng sinh học và giải pháp dựa vào thiên nhiên cho phát triển vùng núi phía Bắc" diễn ra trong ngày 21/10, tại Thái Nguyên do Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (Vusta) phối hợp với Trung tâm Con người và Thiên nhiên (PANNATURE) phối hợp tổ chức.
Muốn công tác quy hoạch hiệu quả, công nghệ phải là cốt lõi
Phát triển đô thị là một quá trình, đô thị hoá là tất yếu khách quan, là một động lực quan trọng cho phát triển kinh tế - xã hội nhanh và bền vững. Trong kỷ nguyên vươn mình, quá trình đô thị hoá không thể tách rời quá trình công nghiệp hoá - hiện đại hoá đất nước...
Hội thảo quốc tế về máy móc, năng lượng và số hóa lần đầu tiên được tổ chức tại Vĩnh Long
Ngày 20/9, tại Vĩnh Long đã diễn ra Hội thảo quốc tế về Máy móc, năng lượng và số hóa hướng đến phát triển bền vững (IMEDS 2025). Sự kiện do Hội Nghiên cứu Biên tập Công trình Khoa học và Công nghệ Việt Nam (VASE) - hội thành viên của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Trường Đại học Sư phạm Kỹ thuật Vĩnh Long (VLUTE) tổ chức.
Ứng dụng công nghệ số toàn diện là nhiệm vụ trọng tâm của VUSTA giai đoạn tới
Ứng dụng công nghệ số toàn diện, xây dựng hệ sinh thái số là bước đi cấp thiết nhằm nâng cao hiệu quả quản trị và phát huy sức mạnh đội ngũ trí thức của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA). Qua đó cho thấy, VUSTA không chỉ bắt kịp xu thế công nghệ mà còn chủ động kiến tạo những giá trị mới, khẳng định vai trò tiên phong của đội ngũ trí thức trong thời đại số.

Tin mới

Phát huy vai trò nòng cốt của trí thức KH&CN tỉnh Cà Mau
Đại hội đại biểu Liên hiệp các Hội Khoa học và Kỹ thuật tỉnh Cà Mau lần thứ I, nhiệm kỳ 2026 - 2031 tổ chức thành công thực sự đã mở ra một không gian mới để hội tụ sức mạnh, tâm huyết và trí tuệ của đội ngũ trí thức tỉnh nhà, định hình con đường kiến tạo và phát triển trong kỷ nguyên mới của đất nước.
Công bố Quyết định bổ nhiệm Giám đốc, Tổng biên tập Nhà xuất bản Tri thức
Ngày 28/4, tại Hà Nội, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) tổ chức Hội nghị Công bố quyết định về công tác cán bộ. Tại hội nghị, TSKH. Phan Xuân Dũng, Chủ tịch VUSTA đã trao Quyết định bổ nhiệm bà Bùi Thị Thu Hằng, Phó Giám đốc phụ trách, Phó Tổng biên tập NXB Tri thức giữ chức vụ Giám đốc, Tổng biên tập NXB Tri thức.
Đảng bộ Liên hiệp Hội Việt Nam tổ chức Hội nghị Ban Thường vụ - Ban Chấp hành tháng 4/2026
Ngày 28/4, tại Hà Nội, Đảng bộ Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (LHHVN) tổ chức Hội nghị Ban Thường vụ - Ban Chấp hành nhằm đánh giá kết quả công tác, đồng thời triển khai các nhiệm vụ trọng tâm, tạo chuyển biến mạnh mẽ trong công tác xây dựng Đảng và chuẩn bị cho Đại hội LHHVN nhiệm kỳ mới.
Nâng tầm sức mạnh văn hóa vùng Đất Tổ - Động lực quan trọng cho phát triển bền vững
Phát triển văn hóa và con người là nền tảng tinh thần, nguồn lực nội sinh, động lực cho phát triển nhanh bền vững. Quan điểm đó tiếp tục được khẳng định mạnh mẽ trong Nghị quyết số 80-NQ/TW của Bộ Chính trị. Nghị quyết nhấn mạnh văn hóa phải thấm sâu vào đời sống xã hội, gắn kết hài hòa với chính trị, kinh tế, môi trường, quốc phòng, an ninh, đối ngoại; thực sự trở thành sức mạnh mềm của quốc gia.
Chủ tịch Phan Xuân Dũng dự Đại hội đại biểu Liên hiệp các Hội KH&KT tỉnh Cà Mau lần thứ I
Ngày 23/4, Đại hội đại biểu Liên hiệp các Hội KH&KT tỉnh Cà Mau lần thứ I, nhiệm kỳ 2026-2031 đã thành công tốt đẹp. Chủ tịch VUSTA Phan Xuân Dũng chúc mừng, đánh giá cao những nỗ lực rất lớn của Liên hiệp Hội tỉnh, đồng thời nhấn mạnh yêu cầu đẩy mạnh TVPB, ĐMST&CĐS, lan tỏa tri thức KH&CN, phục vụ trực tiếp đời sống người dân địa phương.
Tuyên Quang: Thúc đẩy năng lực triển khai năng lực hoạt động KHCN, ĐMST và CĐS trong sinh viên
Ngày 21/4, Liên hiệp các Hội Khoa học và Kỹ thuật (KH&KT) tỉnh Tuyên Quang phối hợp với Trường Cao đẳng Tuyên Quang tổ chức Hội thảo tập huấn, phổ biến kiến thức “Thúc đẩy năng lực triển khai hoạt động khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số trong sinh viên” bằng hình thức trực tiếp và trực tuyến.