Thuật toán Bayes để giúp máy tính học tập
Vị Giáo sư thuộc trường Đại học Stanford này đang lập ra những chương trình mà ngoài việc giải quyết các vấn đề như cách thức thực hiện chức năng của gen, còn làm sáng tỏ những bài toán hóc búa vẫn tồn tại lâu nay của khoa học máy tính về sự bất định (Uncertainty), chẳng hạn như dạng thức học tập, phương pháp tìm kiếm các mối quan hệ nhân quả, hoặc đưa ra được những dự báo trong điều kiện không có đủ tri thức về thế giới thực tại. Những phương pháp này hứa hẹn sẽ đem lại tiến bộ cho các lĩnh vực như phiên dịch tiếng nước ngoài, chế tạo vi chip, phát minh dược phẩm, v.v… Chẳng thế mà chúng đang thu hút được sự quan tâm ngày càng nhiều của các hãng như Intel, Microsoft, Google và các công ty, trường đại học hàng đầu khác.
Làm thế nào mà một ý tưởng do ngài Bộ trưởng Tư pháp kiêm nhà toán học Thomas Bayes đưa ra vào thế kỷ XVIII lại có thể giúp ích cho khoa học máy tính hiện đại? Không giống với các cách tiếp cận trước đây đối với vấn đề suy luận của máy tính, trong đó họ phải “dạy” cho máy tính biết các mối quan hệ nhân quả phổ biến (chẳng hạn như “ Hễ trời mưa, thì cây cỏ bị ướt”), trong trường hợp ở đây, những chương trình dựa vào các cách tiếp cận xác suất như Lý thuyết Bayes lại có thể tiếp cận một khối lượng lớn dữ liệu (chẳng hạn như “ Trời đang mưa”, “ cỏ bị ướt” v.v…) rồi tự mình suy luận ra những mối quan hệ, hay sự phụ thuộc mà nó thấy là khả dĩ nhất. Khả năng này là hết sức quan trọng, bởi lẽ có rất nhiều quyết định mà các nhà lập trình muốn máy tính tự động thực hiện, ví dụ như làm cho các kết quả tìm kiếm của máy tính thích hợp với từng người, tương ứng với những yêu cầu trước đây của họ, thì lại không thể lập ra từ trước, mà đòi hỏi máy tính phải cân nhắc những tổ hợp bằng chứng chưa nhìn thấy trước và đưa ra những điều suy đoán hợp lý nhất. Theo nhận định của David Tennenhouse, Giám đốc phụ trách hoạt động nghiên cứu của Hãng Intel: “Những kỹ thuật này đang chuẩn bị tác động tới mọi việc chúng ta thực hiện với máy tính, từ những giao diện với người dùng, xử lý dữ liệu của các cảm biến cho tới công việc khai thác dữ liệu (Data Mining)”.
Koller đã áp dụng Thuật toán Bayes để giải quyết bài toán về điều chỉnh gen-một việc hết sức hợp thời, bởi lẽ tốc độ mà mỗi một gen trong tế bào điều khiển việc hình thành protein tương ứng của nó phụ thuộc vào các tín hiệu từ vô vàn các protein được mã hoá bởi các gen khác. Các công nghệ y sinh mới đang đem lại một khối lượng dữ liệu rất lớn, đến nỗi các nhà khoa học lúng túng trong việc gỡ rối các mối tương tác, làm chậm tiến trình tìm kiếm các loại thuốc mới để chống lại bệnh tật, từ ung thư đến đái tháo đường. Chương trình của Koller trải dữ liệu ra thành những dải chứa hàng ngàn gen, sau đó việc kiểm tra xác suất mà những thay đổi trong hoạt động của các gen nào đó có thể được giải thích bởi những thay đổi trong hoạt động của những gen khác. Chương trình này không chỉ phát hiện được một cách độc lập những mối quan hệ tương tác đã được biết rõ qua những năm nghiên cứu mà còn khám phá ra các chức năng của một số nhân tố điều chỉnh mà trước đây vẫn còn bí hiểm. Koller cho biết: “Con người ta bị hạn chế bởi năng lực liên kết nhiều chứng cứ khác nhau, nhưng máy tính thì lại làm rất tốt”. Các nhà nghiên cứu đang làm thích ứng các phương pháp như vậy cho vô số các ứng dụng thực tiễn.
Nguồn: Tech Trends, 2/2006; vista 6/2/2006