Hai bạn trẻ với công trình ‘Xây dựng hệ tổng hợp tiếng nói tiếng Việt’

Với nghiên cứu của mình, các bạn đã chọn ra một số phương pháp và giải thuật để thực hiện việc tổng hợp tiếng nói cho tiếng Việt. Đặc biệt, các bạn đã thực hiện thành công một phần mềm có khả năng chuyển văn bản tiếng Việt thành tiếng nói. Công trình này đã đoạt giải nhất (lĩnh vực khoa học tự nhiên) của Giải thưởng sinh viên nghiên cứu khoa học - Eureka lần 6 và giải ba sinh viên nghiên cứu khoa học cấp Bộ năm 2004.

Đôi bạn trẻ Dung Nghi và Nhật Anh đều sinh năm 1981 và cùng là bạn thân học chung lớp thuộc ngành Viễn thông, Khoa Điện-điện tử của Trường Đại học Bách khoa TP Hồ Chí Minh (Chương trình đào tạo kỹ sư thiết bị cao Việt - Pháp). Cả hai cùng có sở thích chung là nghiên cứu ứng dụng viễn thông vào cuộc sống. Đặc biệt, tuy là dân ngành viễn thông nhưng cả hai đều rất thích nghiên cứu về tiếng nói... tiếng Việt.

Từ cuối năm 2003, dưới sự hướng dẫn của PGS.TS Lê Tiến Thường, Giám đốc Trung tâm Du học của trường, hai bạn đã tiến hành cùng thực hiện chung đề tài khoa học "Ứng dụng phương pháp thích hợp xây dựng hệ tổng hợp tiếng nói tiếng Việt".

Nhật Anh cho biết: "Tổng hợp tiếng nói, đó là công việc tạo ra những "máy nói" giống như con người, trước hết để giúp cho những người khuyết tật và sau đó là để mở ra những hướng phát triển mới cho lĩnh vực viễn thông - công nghệ thông tin. Sau một thời gian nghiên cứu, cho đến nay, các nhà khoa học trên thế giới đã gặt hái được nhiều kết quả khả quan và đã xây dựng thành công một số mô hình tổng hợp tiếng nói cho các ngôn ngữ Anh, Pháp, Đức, Trung Quốc...

Tuy nhiên đối với tiếng Việt, việc xây dựng các hệ thống tổng hợp tiếng nói chỉ mới ở giai đoạn đầu. Với mong muốn xây dựng được một hệ tổng hợp tiếng nói tiếng Việt bằng những giải thuật riêng, thích hợp đối với đặc điểm ngữ âm của ngôn ngữ tiếng Việt, chúng em chọn đây là đề tài để thực hiện nghiên cứu của mình".

Dung Nghi bổ sung thêm: "Tổng hợp tiếng nói tiếng Việt là một trong những hướng nghiên cứu mới. Thành công trong hướng nghiên cứu này sẽ mang lại nhiều ứng dụng hữu ích cho xã hội, nhất là trong lĩnh vực viễn thông và công nghệ thông tin. Tuy nhiên, tiếng nói là một vấn đề vô cùng phức tạp, luôn đòi hỏi các nhà khoa học phải tìm hiểu nghiên cứu không ngừng. Vì vậy mục tiêu thực hiện đề tài của chúng em là tiến hành xây dựng cơ sở lý thuyết về các đặc trưng của ngữ âm tiếng Việt, cơ sở sinh lý học bộ máy phát âm của con người và một số cơ sở trong việc xử lý tín hiệu tiếng nói; Khảo sát một số phương pháp, giải thuật đã được sử dụng trong các hệ tống hợp tiếng nói; Xây dựng giải thuật riêng để thực hiện việc tổng hợp tiếng nói tiếng Việt; Thiết kế chương trình phần mềm tổng hợp tiếng nói tiếng Việt; Thi công phần cứng trên FPGA và một số mạch phụ trợ để thực hiện việc tổng hợp tiếng nói tiếng Việt".

Để có kết quả này, trong suốt quá trình thực hiện, đôi bạn trẻ đã tham khảo và tìm hiểu khá nhiều các phương pháp, mô hình và giải thuật thực hiện việc tổng hợp tiếng nói đã được xây dựng cho các ngôn ngữ nước ngoài. Dựa trên những đặc trưng về mặt ngữ âm của tiếng nói tiếng Việt, các bạn đã chọn một số phương pháp và giải thuật, tiến hành xây dựng thử trên MATLAB, rút ra những ưu điểm và nhược điểm của từng phương pháp, giải thuật và cuối cùng là tổng hợp chúng lại để xây dựng một chương trình tổng hợp tiếng nói tiếng Việt hoàn chỉnh.

Các phương pháp và giải thuật đã được hai bạn xây dựng là Giải thuật TD-PSOLA: dùng để tổng hợp các nguyên âm đơn (không dấu hoặc có dấu); Phương pháp tổng hợp FORMANT theo mô hình Klatt: xây dựng trên SIMULINK của MATLAB, dùng để tổng hợp phụ âm, nguyên âm và âm vần dạng đơn giản. Có thể ghép nối âm và từ lại với nhau; Phương pháp tổng hợp FORMANT theo mô hình LF: dùng để tổng hợp các nguyên âm và phụ âm; Giải thuật kéo dài, thu ngắn tín hiệu âm thanh, làm trơn tín hiệu: được xây dựng dựa trên cơ sở của giải thuật TD-PSOLA, nhằm thu ngắn hoặc kéo dài âm, tạo ngữ điệu cho giọng đọc trong câu.

Đặc biệt, dựa vào những giải thuật đã xây dựng được, các bạn đã thực hiện thành công một phần mềm có khả năng chuyển văn bản tiếng Việt thành tiếng nói. Chương trình này được đặt tên là VietSound, có thể thực thi cùng với chương trình chạy trên MATLAB hay chạy độc lập như một phần mềm hoàn chỉnh, có khả năng đọc các văn bản có chiều dài không giới hạn.

Riêng đối với phần cứng, các bạn cũng thực hiện thành công trên hai kit UP1 và UP2, bao gồm phần giao tiếp bàn phím, máy tính và phần tổng hợp. Có thể xem đây như một hệ tổng hợp tiếng nói, với văn bản được nhập vào từ bàn phím sẽ hiển thị trên màn hình và sau đó tiếng nói tổng hợp được xuất ra loa.

Hiện Dung Nghi được giữ lại làm cán bộ giảng dạy bộ môn điện tử và đang theo học cao học ở trường, còn Nhật Anh thì phụ trách phòng thí nghiệm của Trung tâm Du học và sắp tới em theo học cao học ở Pháp với một học bổng vừa giành được.

Riêng về hướng phát triển của đề tài trong thời gian tới, Nhật Anh cũng cho biết: Với những kinh nghiệm thu nhặt được trong suốt quá trình thực hiện đề tài này, chúng em cũng đã đề ra những hướng phát triển tiếp theo, đó là đi sâu nghiên cứu bản chất âm học của ngôn ngữ tiếng Việt, sự ảnh hưởng giữa các âm lân cận.

Nguồn:www.nhandan.com.vn 31/5/2005