Thiết bị biết nghe tiếng người của Việt Nam
Mô hình Markov ẩn (HMM) là một mô hình thống kê, thích hợp ứng dụng trong việc nhận dạng mẫu: tiếng nói, hình ảnh và chữ viết… HMM được ứng dụng rộng rãi trong những năm gần đây vi hai lý do. Thứ nhất, mô hình có độ chính xác cao trong nhiều ứng dụng; Thứ hai, cấu trúc mô hình có thể thay đổi dễ dàng cho phù hợp với từng ứng dụng cụ thể.
Nghiên cứu này tập trung nghiên cứu mô hình Markov ẩn theo hướng ứng dụng nhận dạng tiếng nói và cài đặt mô hình này lên chip FPGA. HMM có nhiều tham số, vì vậy việc lựa chọn tham số sao cho tốt nhất cũng được thực hiện trong đề tài. Việc lựa chọn này rất quan trọng, nó phải đạt được sự cân bằng giữa tốc độ xử lý và độ chính xác. Hệ thống nhận dạng này được cài đặt trên FPGA để nhận dạng các từ đơn, số lượng từ trong bộ từ vựng có thể thay đổi nhờ khả năng có thể huấn luyện của HMM. Do hệ thống nhận dạng này được cài đặt trên FPGA nên nó chiếm khoảng không nhỏ, thích hợp ứng dụng trong giao tiếp người-máy, robot, điều khiển bằng tiếng nói hay hỗ trợ người khuyết tật…
Mục tiêu của đề tài là tạo ra thiết bị nhận dạng tiếng nói nhỏ gọn nhưng có độ chính xác và đạt tốc độ cao. Vì vậy công việc chính là nghiên cứu lý thuyết HMM và tập trung vào ứng dụng của HMM trong lĩnh vực nhận dạng tiếng nói, lựa chọn các thông số thích hợp của mô hình để có thể cài đặt máy nhận dạng lên một chip FPGA. Máy nhận dạng được thử nghiệm với các từ nói đơn và thông qua quá trình thực nghiệm sẽ điều chỉnh lại các thông số của mô hình để đạt được độ chính xác cao nhất.
Máy nhận dạng tiếng nói đã được cài đặt và chạy thử nghiệm trên board FPGA DE2. Nó được huấn luyện bởi giọng nói của 2 người: 1 nam, 1 nữ. Thực hiện 20 mẫu (tiếng nói) cho một từ vựng.
Với các tham số trên, máy nhận dạng đạt độ chính xác trung bình 86% với giọng nói của người có tham gia huấn luyện. Thời gian nhận dạng cho mỗi từ là 1.9 giây. Độ chính xác của máy nhận dạng có thể tăng lên bằng cách tăng các tham số Fs, N, K, D nhưng thời gian nhận dạng cũng tăng theo.
Mô hình Markov ẩn đã chứng tỏ rất thích hợp trong nhận dạng mẫu, đặc biệt là nhận dạng tiếng nói. FPGA là một kỹ thuật hiệu quả để tạo khai phần cứng cho một hệ thống thông minh. Sự kết hợp mô hình Markov và FPGA sẽ tạo ra một hệ thống nhận dạng có độ chính xác cao, nhỏ gọn và dễ dàng thay đổi cấu trúc của hệ thống.
Tuy nhiên, hệ thống trên cần phải được phát triển thêm: khi một từ cần nhận dạng được đưa vào hệ thống, từ này sẽ được tính xác suất trên mô hình của mỗi từ trong bộ từ vựng. Việc tính xác suất này được tiến hành theo tuần tự làm cho tăng thời gian nhận dạng. Để khắc phục, có thể sử dụng kỹ thuật song song trong FPGA sẽ rút ngắn thời gian nhận dạng W lần. Máy nhận dạng chỉ được huấn luyện bởi giọng 2 người nên độ chính xác sẽ thấp khi thực hiện với giọng nói khác. Để giải quyết vấn đề này, có thể tiếng hành huấn luyện với số lượng lớn các giọng nói khác nhau trong các môi trường khác nhau.








