Liên hiệp các hội và khoa học kỹ thuật Việt Nam
Thứ tư, 16/04/2014 19:07 (GMT+7)

Tám (Không phải, chín!) vấn đề của dữ liệu lớn

Nhà báo Patrick Tucker đã khẳng định trong bài báo mới nhất về dữ liệu lớn "Tương lai trần trụi" (The Naked Future): "Chúng ta sẽ có khả năng dự đoán được khoảng tương lai rộng lớn một cách chính xác hơn bây giờ rất nhiều, kể cả những sự kiện được cho là nằm ngoài khả năng suy luận của con người". Các mối tương quan thống kê chưa bao giờ tuyệt vời như vậy.

Liệu dữ liệu lớn có thật sự tuyệt vời như nó được ca ngợi? Dữ liệu lớn, không còn nghi ngờ gì nữa, đó thật sự là một công cụ hữu dụng có ảnh hưởng quan trọng trong một số lĩnh vực nhất định. Ví dụ như trong hầu hết các chương trình máy tính sử dụng trí tuệ nhân tạo thành công trong 20 năm gần đây, từ công cụ tìm kiếm Google cho đến I.B.M. Trong show truyền hình "Jeopardy" người chiến thắng Watson, đã chiến thắng dựa vào phần lớn các cơ quan dữ liệu. Nhưng cũng chính bởi vì sự nổi tiếng và tính ứng dụng ngày càng tăng, chúng ta vẫn cần phải suy xét về những gì dữ liệu lớn có thể và không thể làm được.

Điều đầu tiên cần lưu ý là mặc dù dữ liệu lớn rất hữu dụng trong việc phát hiện các mối tương quan, đặc biệt những mối tương quan tinh tế mà việc phân tích cơ sở dữ liệu nhỏ hơn có thể sẽ bỏ qua và không thể cho chúng ta biết mối tương quan nào là có ý nghĩa. Quá trình phân tích dữ liệu lớn có thế làm được điều này. Ví dụ như từ năm 2006 đến năm 2011, tỷ lệ giết người tại Mỹ có liên quan đến thị phần của trình duyệt web Internet Explorer: cả hai đều giảm mạnh. Nhưng thật khó để hình dung là có bất kỳ mối quan hệ nhân quả nào giữa hai đối tượng này. Tương tự như vậy, từ năm 1998 đến năm 2007 số bệnh nhân bị chuẩn đoán mắc bệnh tự kỷ có mối liên quan đến doanh số bán hàng của thực phẩm hữu cơ (cả hai đều tăng mạnh) nhưng việc xác định các mối tương quan sẽ không thể cho chúng ta biết liệu chế độ ăn uống có liên quan gì đến bệnh tự kỷ hay không.

Điều thứ 2, dữ liệu lớn có thể hỗ trợ cho nghiên cứu khoa học nhưng khó có thể thành công như là một sự thay thế có quy mô lớn. Ví dụ như trong ngành sinh học phân tử, có rất nhiều thứ có thể suy ra từ cấu trúc 3 chiều của protein từ trình tự ADN cơ bản của chúng, và dữ liệu lớn là một trong nhiều công cụ được các nhà khoa học sử dụng để xử lý các vấn đề. Nhưng không nhà khoa học nào cho rằng có thể giải quyết vấn đề cấu trúc 3 chiều của protein chỉ bằng việc nạp dữ liệu đơn lẻ, dù cho hệ thống phân tích thống kê có mạnh ra sao thì vẫn luôn phải bắt đầu với một phân tích dựa trên sự hiểu biết về cả vật lý và hóa sinh.

Thứ 3, rất nhiều công cụ dựa trên nền tảng dữ liệu lớn có thể dễ dàng bị gian lận. Ví dụ, chương trình dữ liệu lớn dùng để chấm điểm bài luận của sinh viên thường dựa trên các đo lường như là độ dài của câu và sự tinh tế trong cách dùng từ, mà có sự tương quan với bài được chấm bởi con người. Nhưng một khi sinh viên hiểu được cách chương trình này vận hành, họ sẽ bắt đầu sử dụng các câu dài và các từ tối nghĩa hơn là học các viết các đoạn văn rõ ràng và mạch lạc. Kể cả công cụ tìm kiếm Google được xem như là một thành công với dữ liệu lớn cũng không thể miễn dịch với hiện tượng "Đánh bom Google" và “thư rác” , những kỹ thuật làm nâng cao xếp hạng của website khi tìm kiếm.

Thứ tư, ngay cả khi kết quả phân tích cả dữ liệu lớn không bị cố ý gian lận, chúng lại trở nên không thiết thực như cảm nhận ban đầu. Xem xét đến những dự đoán về bệnh cúm bởi Google cho thấy: năm 2009, Google đã báo cáo, một cách khoa trương, rằng bằng cách phân tích các truy vấn tìm kiếm liên quan đến bệnh cúm họ đã có thể phát hiện sự lây lan của bệnh cúm nhanh và chính xác hơn trung tâm kiểm soát và phòng ngừa dịch bệnh. Nhưng vài năm sau, dự đoán về dịch cúm củaGgoogle đã bắt đầu dao động, trong 2 năm gần đây, họ đã đưa ra những dự đoán xấu nhiều hơn là tốt.

Trong bài đăng trên tạp chí Khoa học đã giải thích, một trong những nguyên nhân dẫn đến thất bại của Google trong việc dự đoán bệnh cúm có thể là do chính các công cụ tìm kiếm của Google liên tục thay đổi ví dụ như các mô hình trong thu thập dữ liệu tại một thời điểm không cần thiết để ứng dụng cho các mô hình thu thập dữ liệu tại một thời điểm khác. Nhà thống kê Kaiser Fung đã lưu ý rằng, việc thu thập dữ liệu lớn dựa trên các truy cập vào trang web có thể khiến cho các dữ liệu thu thập theo các cách khác nhau và cho các mục đích khác nhau bị trộn lẫn – khiến cho đôi khi tạo ra các hiệu ứng không tốt. Sẽ rất mạo hiểm khi đưa ra các kết luận dựa trên những tệp dữ liệu này.

Mối quan tâm thứ năm có thể gọi là hiệu ứng tiếng vang trong phòng. Thuật ngữ này cũng bắt nguồn từ thực tế rằng có rất nhiều dữ liệu lớn đến từ các trang web. Khi mà nguồn thông tin dành cho việc phân tích dữ liệu lớn lại chính là một sản phẩm của dữ liệu lớn mà có khả năng trở thành một vòng luẩn quẩn. Xem xét các chương trình dịch thuật tương tự như Google dịch, dựa trên các cặp văn bản song song từ những ngôn ngữ khác nhau. Ví dụ, cùng một bài viết trên wikipedia bằng hai ngôn ngữ khác nhau, để phân biệt các mô hình dịch giữa các ngôn ngữ. Đây là một chiến lược hoàn toàn hợp lý, ngoại trừ một thực tế là với một số các ngôn ngữ ít phổ biến, rất nhiều bài viết trên wikipedia cũng sử dụng Google dịch. Trong trường hợp này, lỗi dịch trên Google dịch đã ảnh hưởng đến wikipedia và sau đó lại tác động lại Google dịch, lỗi lại chồng lên lỗi.

Mối lo ngại thứ sáu là có quá nhiều mối tương quan. Nếu bạn nhìn 100 lần vào mối tương quan giữa hai biến số, bạn có khả năng tìm thấy khoảng 5 mối tương quan không có thật mang ý nghĩa thống kê - ngay cả khi không có mối liên kết có ý nghĩa thực tế nào giữa các biến số. Một khi sự thiếu giám sát cẩn thận, độ lớn của dữ liệu lớn có thể khuếch đại những lỗi như vậy.

Điều thứ bảy, dữ liệu lớn được hy vọng sẽ đưa ra các giải pháp khoa học cho những câu hỏi không chính xác. Trong vài tháng trở lại đây đã có hai dự án riêng biệt thử xếp hạng danh nhân dựa trên “tầm quan trọng trong lịch sử” hay “đóng góp về văn hóa” dựa trên dữ liệu từ wikipedia. Cuốn sách "Ai quan trọng hơn? Nơi những những nhân vật lịch sử được xếp hạng thật sự" thực hiện bởi các nhà khoa học máy tính Steven Skiena và kỹ sư Charles Ward và dự án khác có tên gọi Patheon của phòng thí nghiệm truyền thông MIT.

Cả hai dự án đều nỗ lực để sắp xếp mọi thứ theo đúng thứ tự - chúa Jesu, Lincoln, và Shakespeare đều là những nhân vật quan trọng - nhưng cả hai dự án trên đều mắc lỗi nghiêm trọng. Trong cuốn "Ai quan trọng hơn?" cho rằng Francis Scott Key là một nhà thơ nổi tiếng nhất ở thế kỷ 19 trong khi dự án Pantheon lại cho rằng Nostradamus là nhà văn nổi tiếng nhất ở thế kỷ 20 hơn cả Jane Austin và George Eliot. Tệ hơn là cả hai dự án đều đưa ra một mức độ chính xác khoa học dựa trên những đánh giá vốn đã mơ hồ, hoặc thậm chí vô nghĩa. Dữ liệu lớn có thể làm giảm các dữ liệu xuống thành một con số duy nhất, nhưng đừng để bị lừa bởi vẻ ngoài chính xác.

Cuối cùng, dữ liệu lớn là cách tốt nhất khi phân tích những điều rất phổ biến, nhưng lại không đúng lắm khi phân tích những dữ liệu ít phổ biến hơn. Ví dụ, các chương trình sử dụng dữ liệu lớn để giải quyết các văn bản, chẳng hạn như công cụ tìm kiếm và các chương trình dịch, chủ yếu dựa trên nhóm ba chữ cái kế nhau: trình tự của ba từ trong một hàng (giống như "liên tiếp"). Thông tin thống kê đáng tin cậy có thể được biên soạn dựa trên nhóm ba chữ cái phổ biến, vì chúng xuất hiện thường xuyên. Nhưng sẽ không tồn tại cơ sở dữ liệu đủ lớn để bao gồm tất cả các nhóm ba chữ cái mà mọi người có thể sử dụng, vì những sáng tạo liên tục của ngôn ngữ.

Để chọn một ví dụ nhiều hơn hoặc ít hơn một cách ngẫu nhiên, trong một cuốn sách điểm lại các diễn viên mà được Rob Lowe viết gần đây đã chứa chín nhóm ba chữ cái kế nhau là " dumbed-down escapist fare" mà chưa bao giờ xuất hiện bất cứ nơi nào trong tất cả các petabyte của các văn bản lập bởi Google . Để kiểm chứng những hạn chế mà dữ liệu lớn có thể có mới có, Google dịch " dumbed-down escapist fare" sang tiếng Đức và sau đó trở lại sang tiếng Anh : thành một cụm rời rạc "scaled-flight fare". Đó là một chặng đường dài từ những gì ông Lowe dự định - và từ khát vọng đối với việc dịch của dữ liệu lớn.

Đợi đã, chúng ta gần như quên một vấn đề cuối cùng : sự cường điệu . Những người ủng hộ của dữ liệu lớn coi nó như là một bước tiến mang tính cách mạng . Nhưng ngay cả những ví dụ mà họ kể ra như những thành công của dữ liệu lớn , như dự đoán của Google về dịch cúm, mặc dù hữu ích, nhưng chỉ là thứ rất nhỏ bé trong thế giới sự vật rộng lớn. Chúng ít quan trọng hơn những sáng kiến vĩ đại của thế kỷ 19 và 20 , như thuốc kháng sinh, ô tô và máy bay.

Dữ liệu lớn vẫn tồn tại. Nhưng chúng ta hãy nghĩ một cách thực tế : Đây là một nguồn lực quan trọng cho bất cứ ai cần phân tích dữ liệu , chứ không phải là giải pháp nhanh cho mọi vấn đề.

Xem Thêm

Yên Bái: Nghiên cứu di tích Lịch sử - Văn hóa vùng hồ Thác Bà
Ngày 29/10, tại huyện Lục Yên, Liên hiệp hội tỉnh phối hợp với Sở Văn hóa – Thể thao và Du lịch, UBND huyện Lục Yên và Hội Khoa học Lịch sử tỉnh đã tổ chức hội thảo Nghiên cứu di tích Lịch sử - Văn hóa vùng hồ Thác Bà phục vụ nhiệm vụ bảo tồn, phát huy giá trị và phát triển khu du lịch quốc gia hồ Thác Bà.
Hướng tới một ngành chăn nuôi an toàn, hiệu quả và bền vững
Ngày 18/10 tại thành phố Huế, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam phối hợp với Hội Chăn nuôi Việt Nam và Liên hiệp các Hội Khoa học và Kỹ thuật tỉnh Thừa Thiên Huế tổ chức hội thảo khoa học với chủ đề: Áp dụng quy trình chăn nuôi an toàn sinh học và tuần hoàn nâng cao hiệu quả sản suất trong chăn nuôi trang trại nhỏ và hộ gia đình.

Tin mới

Phú Thọ: Đề xuất xây dựng dự thảo Văn kiện Đại hội Đảng tỉnh nhiệm kỳ 2025 - 2030
Sáng 26/11, Liên hiệp hội tỉnh đã tổ chức hội thảo “Nghiên cứu, đánh giá kết quả thực hiện Nghị quyết Đại hội Đảng bộ tỉnh lần thứ XIX, nhiệm kỳ 2020 - 2025; đề xuất khâu đột phá và một số nhiệm vụ trọng tâm phục vụ xây dựng dự thảo Văn kiện ĐH Đảng bộ tỉnh Phú Thọ lần thứ XX, nhiệm kỳ 2025 - 2030” đối với đội ngũ trí thức, chuyên gia, nhà KH thuộc các trường Đại học, Cao đẳng trên địa bàn tỉnh.
Bộ TT&TT làm việc với LHHVN khảo sát sơ kết việc thực hiện Quyết định số 362/QĐ-TTG
Chiều ngày 27/11, tại trụ sở LHHVN, Đoàn công tác của Bộ TT&TT đã có buổi làm việc với LHHVN khảo sát sơ kết Quyết định số 362/QĐ-TTG ngày 03/4/2019 của Thủ tướng Chính phủ về quy hoạch phát triển và quản lý báo chí toàn quốc đến năm 2025. Thứ trưởng Bộ TT&TT Bùi Hoàng Phương và Phó Chủ tịch LHHVN Phạm Ngọc Linh chủ trì buổi làm việc.
Góp ý Dự thảo Kế hoạch của Vutsa thực hiện Nghị quyết 107-NQ/CP
Mới đây, Vusta tổ chức Hội thảo Góp ý Dự thảo Kế hoạch của Liên hiệp Hội Việt Nam thực hiện Nghị quyết 107-NQ/CP ngày 09/7/2024 nhằm thực hiện Nghị quyết số 45-NQ/TW về công tác trí thức. Ông Phạm Ngọc Linh – Phó chủ tịch Vusta và ông Nguyễn Quyết Chiến – Tổng Thư ký Vusta chủ trì hội thảo.