Liên hiệp các hội khoa học và kỹ thuật Việt Nam
Thứ tư, 16/04/2014 19:07 (GMT+7)

Tám (Không phải, chín!) vấn đề của dữ liệu lớn

Nhà báo Patrick Tucker đã khẳng định trong bài báo mới nhất về dữ liệu lớn "Tương lai trần trụi" (The Naked Future): "Chúng ta sẽ có khả năng dự đoán được khoảng tương lai rộng lớn một cách chính xác hơn bây giờ rất nhiều, kể cả những sự kiện được cho là nằm ngoài khả năng suy luận của con người". Các mối tương quan thống kê chưa bao giờ tuyệt vời như vậy.

Liệu dữ liệu lớn có thật sự tuyệt vời như nó được ca ngợi? Dữ liệu lớn, không còn nghi ngờ gì nữa, đó thật sự là một công cụ hữu dụng có ảnh hưởng quan trọng trong một số lĩnh vực nhất định. Ví dụ như trong hầu hết các chương trình máy tính sử dụng trí tuệ nhân tạo thành công trong 20 năm gần đây, từ công cụ tìm kiếm Google cho đến I.B.M. Trong show truyền hình "Jeopardy" người chiến thắng Watson, đã chiến thắng dựa vào phần lớn các cơ quan dữ liệu. Nhưng cũng chính bởi vì sự nổi tiếng và tính ứng dụng ngày càng tăng, chúng ta vẫn cần phải suy xét về những gì dữ liệu lớn có thể và không thể làm được.

Điều đầu tiên cần lưu ý là mặc dù dữ liệu lớn rất hữu dụng trong việc phát hiện các mối tương quan, đặc biệt những mối tương quan tinh tế mà việc phân tích cơ sở dữ liệu nhỏ hơn có thể sẽ bỏ qua và không thể cho chúng ta biết mối tương quan nào là có ý nghĩa. Quá trình phân tích dữ liệu lớn có thế làm được điều này. Ví dụ như từ năm 2006 đến năm 2011, tỷ lệ giết người tại Mỹ có liên quan đến thị phần của trình duyệt web Internet Explorer: cả hai đều giảm mạnh. Nhưng thật khó để hình dung là có bất kỳ mối quan hệ nhân quả nào giữa hai đối tượng này. Tương tự như vậy, từ năm 1998 đến năm 2007 số bệnh nhân bị chuẩn đoán mắc bệnh tự kỷ có mối liên quan đến doanh số bán hàng của thực phẩm hữu cơ (cả hai đều tăng mạnh) nhưng việc xác định các mối tương quan sẽ không thể cho chúng ta biết liệu chế độ ăn uống có liên quan gì đến bệnh tự kỷ hay không.

Điều thứ 2, dữ liệu lớn có thể hỗ trợ cho nghiên cứu khoa học nhưng khó có thể thành công như là một sự thay thế có quy mô lớn. Ví dụ như trong ngành sinh học phân tử, có rất nhiều thứ có thể suy ra từ cấu trúc 3 chiều của protein từ trình tự ADN cơ bản của chúng, và dữ liệu lớn là một trong nhiều công cụ được các nhà khoa học sử dụng để xử lý các vấn đề. Nhưng không nhà khoa học nào cho rằng có thể giải quyết vấn đề cấu trúc 3 chiều của protein chỉ bằng việc nạp dữ liệu đơn lẻ, dù cho hệ thống phân tích thống kê có mạnh ra sao thì vẫn luôn phải bắt đầu với một phân tích dựa trên sự hiểu biết về cả vật lý và hóa sinh.

Thứ 3, rất nhiều công cụ dựa trên nền tảng dữ liệu lớn có thể dễ dàng bị gian lận. Ví dụ, chương trình dữ liệu lớn dùng để chấm điểm bài luận của sinh viên thường dựa trên các đo lường như là độ dài của câu và sự tinh tế trong cách dùng từ, mà có sự tương quan với bài được chấm bởi con người. Nhưng một khi sinh viên hiểu được cách chương trình này vận hành, họ sẽ bắt đầu sử dụng các câu dài và các từ tối nghĩa hơn là học các viết các đoạn văn rõ ràng và mạch lạc. Kể cả công cụ tìm kiếm Google được xem như là một thành công với dữ liệu lớn cũng không thể miễn dịch với hiện tượng "Đánh bom Google" và “thư rác” , những kỹ thuật làm nâng cao xếp hạng của website khi tìm kiếm.

Thứ tư, ngay cả khi kết quả phân tích cả dữ liệu lớn không bị cố ý gian lận, chúng lại trở nên không thiết thực như cảm nhận ban đầu. Xem xét đến những dự đoán về bệnh cúm bởi Google cho thấy: năm 2009, Google đã báo cáo, một cách khoa trương, rằng bằng cách phân tích các truy vấn tìm kiếm liên quan đến bệnh cúm họ đã có thể phát hiện sự lây lan của bệnh cúm nhanh và chính xác hơn trung tâm kiểm soát và phòng ngừa dịch bệnh. Nhưng vài năm sau, dự đoán về dịch cúm củaGgoogle đã bắt đầu dao động, trong 2 năm gần đây, họ đã đưa ra những dự đoán xấu nhiều hơn là tốt.

Trong bài đăng trên tạp chí Khoa học đã giải thích, một trong những nguyên nhân dẫn đến thất bại của Google trong việc dự đoán bệnh cúm có thể là do chính các công cụ tìm kiếm của Google liên tục thay đổi ví dụ như các mô hình trong thu thập dữ liệu tại một thời điểm không cần thiết để ứng dụng cho các mô hình thu thập dữ liệu tại một thời điểm khác. Nhà thống kê Kaiser Fung đã lưu ý rằng, việc thu thập dữ liệu lớn dựa trên các truy cập vào trang web có thể khiến cho các dữ liệu thu thập theo các cách khác nhau và cho các mục đích khác nhau bị trộn lẫn – khiến cho đôi khi tạo ra các hiệu ứng không tốt. Sẽ rất mạo hiểm khi đưa ra các kết luận dựa trên những tệp dữ liệu này.

Mối quan tâm thứ năm có thể gọi là hiệu ứng tiếng vang trong phòng. Thuật ngữ này cũng bắt nguồn từ thực tế rằng có rất nhiều dữ liệu lớn đến từ các trang web. Khi mà nguồn thông tin dành cho việc phân tích dữ liệu lớn lại chính là một sản phẩm của dữ liệu lớn mà có khả năng trở thành một vòng luẩn quẩn. Xem xét các chương trình dịch thuật tương tự như Google dịch, dựa trên các cặp văn bản song song từ những ngôn ngữ khác nhau. Ví dụ, cùng một bài viết trên wikipedia bằng hai ngôn ngữ khác nhau, để phân biệt các mô hình dịch giữa các ngôn ngữ. Đây là một chiến lược hoàn toàn hợp lý, ngoại trừ một thực tế là với một số các ngôn ngữ ít phổ biến, rất nhiều bài viết trên wikipedia cũng sử dụng Google dịch. Trong trường hợp này, lỗi dịch trên Google dịch đã ảnh hưởng đến wikipedia và sau đó lại tác động lại Google dịch, lỗi lại chồng lên lỗi.

Mối lo ngại thứ sáu là có quá nhiều mối tương quan. Nếu bạn nhìn 100 lần vào mối tương quan giữa hai biến số, bạn có khả năng tìm thấy khoảng 5 mối tương quan không có thật mang ý nghĩa thống kê - ngay cả khi không có mối liên kết có ý nghĩa thực tế nào giữa các biến số. Một khi sự thiếu giám sát cẩn thận, độ lớn của dữ liệu lớn có thể khuếch đại những lỗi như vậy.

Điều thứ bảy, dữ liệu lớn được hy vọng sẽ đưa ra các giải pháp khoa học cho những câu hỏi không chính xác. Trong vài tháng trở lại đây đã có hai dự án riêng biệt thử xếp hạng danh nhân dựa trên “tầm quan trọng trong lịch sử” hay “đóng góp về văn hóa” dựa trên dữ liệu từ wikipedia. Cuốn sách "Ai quan trọng hơn? Nơi những những nhân vật lịch sử được xếp hạng thật sự" thực hiện bởi các nhà khoa học máy tính Steven Skiena và kỹ sư Charles Ward và dự án khác có tên gọi Patheon của phòng thí nghiệm truyền thông MIT.

Cả hai dự án đều nỗ lực để sắp xếp mọi thứ theo đúng thứ tự - chúa Jesu, Lincoln, và Shakespeare đều là những nhân vật quan trọng - nhưng cả hai dự án trên đều mắc lỗi nghiêm trọng. Trong cuốn "Ai quan trọng hơn?" cho rằng Francis Scott Key là một nhà thơ nổi tiếng nhất ở thế kỷ 19 trong khi dự án Pantheon lại cho rằng Nostradamus là nhà văn nổi tiếng nhất ở thế kỷ 20 hơn cả Jane Austin và George Eliot. Tệ hơn là cả hai dự án đều đưa ra một mức độ chính xác khoa học dựa trên những đánh giá vốn đã mơ hồ, hoặc thậm chí vô nghĩa. Dữ liệu lớn có thể làm giảm các dữ liệu xuống thành một con số duy nhất, nhưng đừng để bị lừa bởi vẻ ngoài chính xác.

Cuối cùng, dữ liệu lớn là cách tốt nhất khi phân tích những điều rất phổ biến, nhưng lại không đúng lắm khi phân tích những dữ liệu ít phổ biến hơn. Ví dụ, các chương trình sử dụng dữ liệu lớn để giải quyết các văn bản, chẳng hạn như công cụ tìm kiếm và các chương trình dịch, chủ yếu dựa trên nhóm ba chữ cái kế nhau: trình tự của ba từ trong một hàng (giống như "liên tiếp"). Thông tin thống kê đáng tin cậy có thể được biên soạn dựa trên nhóm ba chữ cái phổ biến, vì chúng xuất hiện thường xuyên. Nhưng sẽ không tồn tại cơ sở dữ liệu đủ lớn để bao gồm tất cả các nhóm ba chữ cái mà mọi người có thể sử dụng, vì những sáng tạo liên tục của ngôn ngữ.

Để chọn một ví dụ nhiều hơn hoặc ít hơn một cách ngẫu nhiên, trong một cuốn sách điểm lại các diễn viên mà được Rob Lowe viết gần đây đã chứa chín nhóm ba chữ cái kế nhau là " dumbed-down escapist fare" mà chưa bao giờ xuất hiện bất cứ nơi nào trong tất cả các petabyte của các văn bản lập bởi Google . Để kiểm chứng những hạn chế mà dữ liệu lớn có thể có mới có, Google dịch " dumbed-down escapist fare" sang tiếng Đức và sau đó trở lại sang tiếng Anh : thành một cụm rời rạc "scaled-flight fare". Đó là một chặng đường dài từ những gì ông Lowe dự định - và từ khát vọng đối với việc dịch của dữ liệu lớn.

Đợi đã, chúng ta gần như quên một vấn đề cuối cùng : sự cường điệu . Những người ủng hộ của dữ liệu lớn coi nó như là một bước tiến mang tính cách mạng . Nhưng ngay cả những ví dụ mà họ kể ra như những thành công của dữ liệu lớn , như dự đoán của Google về dịch cúm, mặc dù hữu ích, nhưng chỉ là thứ rất nhỏ bé trong thế giới sự vật rộng lớn. Chúng ít quan trọng hơn những sáng kiến vĩ đại của thế kỷ 19 và 20 , như thuốc kháng sinh, ô tô và máy bay.

Dữ liệu lớn vẫn tồn tại. Nhưng chúng ta hãy nghĩ một cách thực tế : Đây là một nguồn lực quan trọng cho bất cứ ai cần phân tích dữ liệu , chứ không phải là giải pháp nhanh cho mọi vấn đề.

Xem Thêm

Thúc đẩy ứng dụng AI trong quản lý năng lượng - Giải pháp then chốt giảm phát thải nhà kính
Ngày 17/12, tại phường Bà Rịa, thành phố Hồ Chí Minh (TP.HCM), Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Sở Công Thương TP.HCM, Trung tâm Chứng nhận Chất lượng và Phát triển Doanh nghiệp và Công ty Cổ phần Tập đoàn Vira tổ chức Hội thảo khoa học “Giải pháp thúc đẩy ứng dụng AI trong quản lý, sử dụng năng lượng hiệu quả nhằm giảm phát thải khí nhà kính”.
Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách
Trong hai ngày 12-13/11, tại tỉnh Cao Bằng, Liên hiệp các Hội KH&KT Việt Nam (VUSTA) phối hợp với Trung tâm Con người và Thiên nhiên (PanNature) và Liên hiệp các Hội KH&KT tỉnh Cao Bằng tổ chức Chương trình chia sẻ “Thúc đẩy vai trò của Liên hiệp các Hội KH&KT địa phương trong bảo tồn đa dạng sinh học và thực thi chính sách”.
Thúc đẩy ứng dụng thực tiễn của vật liệu tiên tiến trong sản xuất năng lượng sạch
Ngày 24/10, tại Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Thành phố Hồ Chí Minh, Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp với Hội Khoa học Công nghệ Xúc tác và Hấp phụ Việt Nam (VNACA) tổ chức Hội thảo khoa học “Vật liệu tiên tiến ứng dụng trong sản xuất nhiên liệu tái tạo và giảm phát thải khí nhà kính”.
Dựa vào thiên nhiên để phát triển bền vững vùng núi phía Bắc
Đó là chủ đề của hội thảo "Đa dạng sinh học và giải pháp dựa vào thiên nhiên cho phát triển vùng núi phía Bắc" diễn ra trong ngày 21/10, tại Thái Nguyên do Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (Vusta) phối hợp với Trung tâm Con người và Thiên nhiên (PANNATURE) phối hợp tổ chức.
Muốn công tác quy hoạch hiệu quả, công nghệ phải là cốt lõi
Phát triển đô thị là một quá trình, đô thị hoá là tất yếu khách quan, là một động lực quan trọng cho phát triển kinh tế - xã hội nhanh và bền vững. Trong kỷ nguyên vươn mình, quá trình đô thị hoá không thể tách rời quá trình công nghiệp hoá - hiện đại hoá đất nước...
Hội thảo quốc tế về máy móc, năng lượng và số hóa lần đầu tiên được tổ chức tại Vĩnh Long
Ngày 20/9, tại Vĩnh Long đã diễn ra Hội thảo quốc tế về Máy móc, năng lượng và số hóa hướng đến phát triển bền vững (IMEDS 2025). Sự kiện do Hội Nghiên cứu Biên tập Công trình Khoa học và Công nghệ Việt Nam (VASE) - hội thành viên của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Trường Đại học Sư phạm Kỹ thuật Vĩnh Long (VLUTE) tổ chức.
Ứng dụng công nghệ số toàn diện là nhiệm vụ trọng tâm của VUSTA giai đoạn tới
Ứng dụng công nghệ số toàn diện, xây dựng hệ sinh thái số là bước đi cấp thiết nhằm nâng cao hiệu quả quản trị và phát huy sức mạnh đội ngũ trí thức của Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA). Qua đó cho thấy, VUSTA không chỉ bắt kịp xu thế công nghệ mà còn chủ động kiến tạo những giá trị mới, khẳng định vai trò tiên phong của đội ngũ trí thức trong thời đại số.

Tin mới

Đoàn Thanh niên VUSTA trao yêu thương, lan tỏa tri thức tới điểm trường Ấm Hiêu, tỉnh Thanh Hóa
Ngày 18/12, Ban Chấp hành Đoàn Thanh niên Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) tham gia Lễ khánh thành Cụm công trình thư viện và nhà vệ sinh tại điểm trường Ấm Hiêu, Trường tiểu học Cổ Lũng, tỉnh Thanh Hóa, đồng thời trao tặng sách, truyện cho các em học sinh tại Điểm trường.
Hội nghị Hội đồng Trung ương Liên hiệp Hội Việt Nam lần thứ 11, khóa VIII
Sáng ngày 19/12, Đoàn Chủ tịch Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (Liên hiệp Hội Việt Nam) tổ chức Hội nghị Hội đồng Trung ương Liên hiệp Hội Việt Nam lần thứ 11, khóa VIII (2020-2025). Hội nghị được tổ chức nhằm đánh giá kết quả hoạt động năm 2025, xác định phương hướng, nhiệm vụ công tác năm 2026; đồng thời xem xét một số nội dung quan trọng thuộc thẩm quyền của Hội đồng Trung ương.
Phó Chủ tịch VUSTA Phạm Ngọc Linh dẫn đoàn Việt Nam tham dự Diễn đàn Kỹ sư Lan Thương - Mekong 2025
Ngày 7/12, tại Tp. Côn Minh, tỉnh Vân Nam, Trung Quốc, Diễn đàn Kỹ sư Lan Thương - Mekong 2025 đã được tổ chức với chủ đề “Kỹ thuật xanh và Phát triển bền vững”. Đoàn Việt Nam do Phó Chủ tịch Liên hiệp Hội Việt Nam Phạm Ngọc Linh - làm trưởng đoàn đã tham dự Diễn đàn. Tham gia Đoàn công tác có đại diện của Hội Thủy lợi Việt Nam, Ban Khoa học và Hợp tác quốc tế, Văn phòng Liên hiệp Hội Việt Nam.
Thúc đẩy ứng dụng AI trong quản lý năng lượng - Giải pháp then chốt giảm phát thải nhà kính
Ngày 17/12, tại phường Bà Rịa, thành phố Hồ Chí Minh (TP.HCM), Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA) phối hợp cùng Sở Công Thương TP.HCM, Trung tâm Chứng nhận Chất lượng và Phát triển Doanh nghiệp và Công ty Cổ phần Tập đoàn Vira tổ chức Hội thảo khoa học “Giải pháp thúc đẩy ứng dụng AI trong quản lý, sử dụng năng lượng hiệu quả nhằm giảm phát thải khí nhà kính”.
Liên hiệp Hội Việt Nam đoạt Giải Ba Cuộc thi Chính luận về Bảo vệ nền tảng tư tưởng của Đảng
Tham gia Cuộc thi Chính luận về Bảo vệ nền tảng tư tưởng của Đảng lần thứ I, năm 2025 trong Đảng bộ MTTQ, các đoàn thể Trung ương, Liên hiệp Hội Việt Nam vinh dự có nhóm tác giả đoạt Giải Ba và Đảng uỷ Liên hiệp Hội Việt Nam là một trong 05 tổ chức Đảng được tặng Bằng khen của Ban Thường vụ Đảng ủy MTTQ, các đoàn thể Trung ương vì đã có thành tích xuất sắc trong tổ chức Cuộc thi.
Ngập úng đô thị - Thách thức và biện pháp giảm thiểu
Hội thảo “Ngập úng đô thị - Thách thức và biện pháp giảm thiểu” là diễn đàn trao đổi khoa học và thực tiễn, tập trung đánh giá toàn diện thực trạng, nguyên nhân và mức độ tác động của ngập úng đô thị, đồng thời đề xuất các giải pháp tổng hợp về quy hoạch, kỹ thuật, quản trị và chính sách…
VUSTA đón tiếp và làm việc với Đoàn công tác Hiệp hội Khoa học và Công nghệ Quảng Đông (GDAST)
Ngày 16/12, tại Trụ sở Liên hiệp các Hội Khoa học và Kỹ thuật Việt Nam (VUSTA), Phó Chủ tịch VUSTA Phạm Ngọc Linh đã chủ trì buổi tiếp và làm việc với Đoàn công tác của Hiệp hội Khoa học và Công nghệ tỉnh Quảng Đông (GDAST), nhằm trao đổi thông tin, chia sẻ kinh nghiệm và thúc đẩy hợp tác trong lĩnh vực khoa học công nghệ.
Đổi mới tư duy quy hoạch cải tạo đô thị theo hướng phát triển bền vững
Quá trình đô thị hóa gắn liền với các cuộc cách mạnh công nghiệp. Việc cải tạo đô thị ở các giai đoạn đô thị hóa đều được dẫn dắt bởi các tư tưởng quy hoạch, định hình nên mô hình đô thị sau cải tạo. Tư duy quy hoạch cải tạo đô thị nhấn mạnh sự linh hoạt, đề cao sự phát triển bền vững, bảo tồn di sản và sự tham gia của cộng đồng, chuyển từ mô hình một trung tâm sang mô hình đa trung tâm.