Thời Big Data thay đổi thế giới
Thế giới chúng ta chưa thấy nhiều yotta-byte, các ngành công nghiệp như tìm kiếm Internet, nghiên cứu gen, khí hậu, hay phân tích kinh doanh đang bắt đầu manh nha tạo những bộ dữ liệu lớn hơn petabytes (1 peta-bytes có dung lượng hơn 1 triệu gigabyte) và exabyte (1 exabyte hơn 1 tỷ gigabyte) để đáp ứng nhu cầu ngày càng cao trong công việc và quản lý. Khái niệm yottabyte phát sinh do nhu cầu này. Sự xuất hiện của hiện tượng này được gọi là Big Data (dữ liệu lớn), và chúng bắt đầu thay đổi mọi thứ từ cách thức hoạt động kinh doanh của các công ty, cách mọi người tương tác với nhau, và ngay cả trong cuộc sống đời thường của con người…
Sử dụng năng lượng hiệu quả, tiết kiệm
Theo quan niệm cũ “nếu bạn đo lường được năng lượng sử dụng thì bạn có thể quản lý được nó”. Một khi bạn đã xác định được một người hay một toà nhà sử dụng bao nhiêu năng lượng, bạn sẽ có phương thức để giảm mức tiêu thụ nó. Nhưng trong một thế giới mà một lượng lớn dữ liệu năng lượng đột nhiên tăng lên từ các cảm biến, các thiết bị và các trang web thì việc khai thác dữ liệu năng lượng lại mang một ý nghĩa hoàn toàn mới, và các công cụ dữ liệu lớn có thể trở thành một cách cơ bản để giúp chúng ta quản lý và hạn chế việc tiêu thụ năng lượng, sử dụng năng lượng một cách hiệu quả và khoa học hơn. Mạng lưới điện mới chỉ được bắt đầu them vào công nghệ thông tin cho phép máy tính, cảm biến, đồng hồ thông minh và phần mềm kết hợp thu thập và xử lý dữ liệu năng lượng để kiểm soát việc tiêu thụ, kiểm soát năng lượng sạch và sử dụng hiệu quả hơn. Đồng hồ đo thông minh có thể đọc năng lượng tiêu thụ với chu kỳ 15 phút, và chúgn thường được bố trí tại các thành phố lớn. Một khi mạng lưới điện quốc gia có sự tác động của kỹ thuật số thì đó sẽ là một sự bùng nổ về dữ liệu năng lượng. Với những thuật toán thông minh và các phần mềm tiện ích sẽ giúp con người quản lý và sử dụng hiệu quả năng lượng và chắc chắn đây sẽ là một trong những xu thế phát triển trong tương lai xã hội loài người.
Kế hoạch dữ liệu lớn của Opower
Một khởi động mới của Opower với kế hoạch sử dụng công cụ dữ liệu lớn cho việc quản lý và sử dụng tiết kiệm năng lượng. Opower là một công ty tư nhân cung cấp phần mềm như dịch vụ với các đối tác cung cấp các tiện ích đa dụng trong 22 tiểu bang ở Hoa Kỳ. Phần mềm của Opower tạo ra các bản ghi về năng lượng sử dụng cho khách hàng của họ và đưa ra những khuyến nghị làm thế nào để sử dụng năng lượng một cách hiệu quả và tiết kiệm. Các khách hàng của Opower hầu hết đã cắt giảm được việc sử dụng năng lượng hơn 2,5% nguồn năng lượng, tiết kiệm 700 triệu Kwh, tương đương với gần 5 triệu tấn khí thải gây hiệu ứng nhà kính.
Opower hiện đang quản lý 30 TB thông tin và dữ liệu đó đang lớn lên hàng ngày, bao gồm dữ liệu năng lượng từ 50 triệu khách hàng, cả dữ liệu cá nhân và công cộng trên các lĩnh vực như thời tiết, nhân khẩu, lịch sử dữ liệu đa dụng, dữ liệu địa lý và nhiều hơn nữa. Dữ liệu được lưu trữ và xử lý trong một tổ hợp của hơn 20 cơ sở dữ liệu MySQL và Hadoop. Nhờ các công cụ dữ liệu lớn như Hadoop và những phân tích mới, Opower có thể xử lý dữ liệu nhanh hơn và cung cấp kết quả tốt hơn.
Dự đoán một hiện tượng âm nhạc tiếp theo?
Bạn có biết làm cách nào để người ta có thể bán các album của một nghệ sĩ nào đó một cách nhanh nhất không? Hy là cách để tìm ra số lượng các fan hâm mộ một ca sĩ nào đó sau một biểu diễn? Nếu muốn biết điều này, hãy lượm nhặt nó từ Internet, từ các mạng xã hội, những lượt truy cập và tải về bài hát của ca sĩ đó tại các trang web dịch vụ âm nhạc trực tuyến sau buổi biểu diễn đó. Doanh số bán hàng trực tuyến có thể giúp họ hiểu được quá trình chuyển biến của một ai đó. Đó chính là một cơ hội lớn mà dữ liệu lớn đang mở ra trong kỷ nguyên số hiện nay. Alex White, CEO của Next Big Sound, vui mừng khi chia sẻ rằng các nguồn dữ liệu mới phát sinh đó lại là chìa khoá để họ mở ra cách cửa thành công và thay đổi cách thức hoạt động của cả một ngành công nghiệp. Ngành công nghiệp âm nhạc cần phải hiểu sự bùng nổ của các phương tiện truyền thông xã hội đã ảnh hưởng lớn đến doanh số bán hàng của họ, thông tin phản hồi nằm ẩn trong các khối dữ liệu lớn đó, phản ánh nhiều tin tức mà chúng ta cần phải biết cách lượm nhặt và tận dụng một cách triệt để.
Trợ lý ảo cho công ty
Dữ liệu lớn sẽ là một trợ thủ đắc lực dành cho thế hệ các doanh nghiệp thông minh nhằm đạt được những thông tin hiểu biết mới nhất một cách nhanh nhất về khách hàng của họ để xây dựng chiến lược kinh doanh và các sản phẩm mới. Dữ liệu lớn là một kho dữ liệu phi truyền thống rất hữu ích cho việc nghiên cứu thị trường, giúp các doanh nghiệp nắm bắt xu hướng thị trường một cách nhanh nhất và khả quan nhất. Những thông tin thu lượm được từ một kho dữ liệu lonứ đến từ các trang web thương mại điện tử, Blog, mạng xã hội, email… mà người dùng để lại khi lướt web cũng như nhật ký của họ sẽ là cơ sở cho chiến lược kinh doanh của các doanh nghiệp. Một công cụ được xem như một trợ lý ảo cho công ty đó là Autopilot, sản phẩm chủ lực từ Frankfurt. Hệ thống làm ột trợ lý ảo cho công việc phân loại và sắp xếp, sử dụng sự kết hợp của dữ liệu và trí thông minh nhân tạo để tiếp nhận những công việc nhàm chán và lặp đi lặp lại trong việc quản lý một cơ sở hạ tầng IT lớn. Sau khi Atuopilot được truy cập tới các dòng thông tin được đăng nhập bởi máy chủ của bạn và được thiết kế để giải quyết những vấn đề gặp phải thì nó có khả năng sử dụng những gì nó biết để đảm bảo dịch vụ của bạn chạy một cách trơn tru và liên tục. Autopilot kết nối máy chủ, kiểm tra các kết nối tớ các cơ sở dữ liệu, lấy dữ liệu, phân tích, điều chỉnh hoặc tổ chức lưu trữ cơ sở dữ liệu để giải quyết vấn đề. Sự khác biệt của công cụ này so với các hệ thống khác là không phải chỉ thực hiện quy trình công việc khi có đầu vào mà có khả năng thẩm vấn các nguồn tin, tự đưa ra những quyết định.
Xây dựng mạng xã hội hữu ích
Khi Fousquare xuất hiện lần đầu tiên nó trông giống như trò chơi thực tế để mọi người check và chia sẻ vị trí, địa điểm. Explore ra mắt hồi tháng 3 năm ngoái với bản Four-square 3.0 về cơ bản đã thay đổi mô hình sử dụng dịch vụ tìm kiếm vị trí. Thay vì là một bản đồ chỉ vị trí di chuyển cho người dùng thì Foursquare tạo ra các khuyến nghị và câu trả lời về những nơi tốt nhất mà người dùng sẽ muốn đến thăm. Foursquare đã có hơn 1,5 tỷ check-in, trong đó có 5 triệu mỗi ngày từ hơn 15 triệu người sử dụng. Cơ hơn 35 triệu địa điểm trên Foursquare, 750.000 trong số đó đã được đăng ký bởi các chủ doanh nghiệp. Thuật toán thông minh tích hợp trong Ex-plore tìm ra mọi vị trí phù hợp mà người dùng đang cần và tìm kiếm. Dũ liệu giúp Four-square hiểu được những điều đang diễn ra trong đời sống hàng ngày của khách hàng để đưa ra quyết định về những lời khuyên phù hợp cho người dùng. Đây chính là một ví dụ về dữ liệu xã hội, cả cấu trúc và phi cấu trúc, có thể được sử dụng để đưa ra những khuyến nghị cho thế giới thực.
Dữ liệu Twitter giúp theo dõi bệnh dịch tả tại Haiti
Chọn lọc thông tin từ một dữ liệu rất lớn của mạng lưới Twitter là nhiệm vụ không phải dễ dàng, với hơn 250 triệu tweet được đăng mỗi ngày. Chắt lọc trong số đó có thể thu thập được những thông tin quý giá có thể được sử dụng để theo dõi sự lây lan của bệnh tật, và xác định chính xác nạn nhân của nó. Một nghiên cứu gần đây tại đại học Harvard cho thấy rằng Twitter cho kết quả theo dõi sự lây lan bệnh dịch tả tại Haiti sau trận động đất năm 2010 nhanh hơn bất cứ phương pháp chuẩn đoán truyền thống nào từng có trước đó. Bằng cách sử dụng thông tin từ Twitter, các nhà nghiên cứu có thể xác định sự bùng phát của căn bệnh chết người này nhanh hơn hai tuần trước khi có kết quả bằng phương pháp xác định khác. Các nhà nghiên cứu đã thu thập và quét hơn 4.697 thông báo qua dịch vụ Health-Map, cùng với gần 200.000 tweet các nhân. Việc nghiên cứu dữ liệu lớn từ Twitter, nguồn tin theo thời gian thực, các nhà nghiên cứu không chỉ xác định được vị trí của các trường hợp mắc bệnh tả mà còn xác định được tốc độ phát sinh bùng nổ của bệnh dịch, là một yếu tố quan trọng giúp nhân viên y tế có biện pháp kịp thời ngăn chặn sự lây lan của căn bệnh truyền nhiễm.
Trên cơ sở này, nhân viên y tế và chính phủ có thể nghiên cứu dữ liệu lớn từ các mạng xã hội để có thể ngăn chặn những thảm hoạ xảy ra trong tương lai.
Dữ liệu từ điện thoại di động giúp phòng bệnh dịch
Một dự án được phát triển bởi Nathan Eagle, một giáo sư tại trường đại học Harvard, đã thu thập hàng triệu bản ghi dữ liệu điện thoại di động để tìm kiếm những thông tin quan trọng nhằm dự đoán sự phát sinh và bùng nổ của căn bệnh sốt rét và cho phép các nhà cung cấp dịch vụ chăm sóc sức khoẻ khám phá được những bất thường xảy ra các bệnh dịch tả ở Rwanda. Eagle cho biết “mỗi khi bạn nhận được một cuộc điện thoại hay một tin nhắn thì những sự kiện này đều tại các hàng dữ liệu trong một cơ sở dữ liệu chung. Dữ liệu được thu thập cho mục đích thanh toán, nhưng một ý nghĩa mang tính sâu sắc hơn nếu sử dụng dữ liệu này với mục đích làm cho xã hội tốt đẹp hơn”. Eagle ước tính rằng có hơn 5 petabyte dữ liệu được tạo ra mỗi ngày bằng các thuê bao điện thoại di động trên toàn thế giới, mặc dù ông chỉ được phép truy cập một phần nhỏ. Ông được làm việc với các nhà mạng, các chính phủ, các tổ chức phát triển, và cơ quan y tế, phúc lợi cộng đồng trên khắp thế giới để khai thác các bản ghi dữ liệu thanh toán điện thoại di động nhằm giải quyết những vấn đề xã hội trên thế giới. Bằng cách giải nén những dữ liệu ẩn danh trong hàng triệu thuê bao di động tại các thị trường đang phát triển và phát triển, Eagle và nhóm nghiên cứu có thể tạo ra một cơ sở dữ liệu thông tin lớn. Nhóm của ông đã xây dựng phân tích trên các công cụ nguồn mở như Python và chạy trên một máy tính có bộ nhớ RAM 1Tb. Với thuật toán và tài nguyên của máy tính đủ cho phép nhóm ngoại suy các mô hình chuyển biến của dữ liệu. Ví dụ như sự đột ngột bất thường trong mô hình di chuyển từ ngoài sử dụng điện thoại di động, đặc biệt là các khu vực nông thôn có thể sử dụng để phát hiện dịch bệnh. Bằng cách xem con người như những phần tử, có xu hướng dao động trong một phạm vi ranh giới nhất định mà ông có thể dự đoán được. Vì vậy, bình thường, cả một khối dữ liệu lớn được khoanh vùng sẽ chỉ dao động và biến đổi trong một phạm vi ranh giới nhất định mà ông có thể dự đoán được. Vì vậy, bình thường, cả một khối dữ liệu lớn được khoanh vùng sẽ chỉ dao động và biến đổi trong phạm vi cho phép. Nhưng nếu có một đột biến nào đó, khiến cho lưu lượng tăng lên đột biến hoặc thu hẹp một cách đáng kể thì chắc chắn khu vực đó đang có vấn đề mà ảnh hưởng đến hầu hết mọi người dân sống ở đó. Điều quan trọng là phải xác định được điều gì đã xảy ra. Ví dụ, trong một ngôi làng, nếu nhận thấy phạm vi chuyển động của các cư dân ở đó đột ngột thu hẹp lại thì có thể dự đoán rằng dịch bệnh ở đó đã bùng phát và người dân sẽ ít di chuyển để tránh lây nhiễm bệnh. Vì vậy, lần sau khi bạn nhận được hoá đơn thanh toán tiền điện di động với những dữ liệu cuộc gọi của mình thì cũng phải biết rằng các nhà khoa học như Eagle đang sử dụng những dữ liệu đó để làm cho xã hội tốt hơn.
Big Data là gì?
Trong công nghệ thông tin, thuật ngữ Big Data (dữ liệu lớn) chỉ những tập hợp dữ liệu phát triển nhanh chóng và rộng khắp dưới nhiều hình thức khác nhau, làm cho chúng vượt quá khả năng xử lý của những hệ thống cơ sở dữ liệu truyền thống. Mỗi ngày, chúng ta tạo ra 2,5 quintillion (1030) bytes dữ liệu. Khối lượng dữ liệu mới tạo ra nhiều và nhanh đến mức mà hai năm gần đây nhất chiếm đến 90% khối lượng dữ liệu trên thế giới hiện nay. Những dữ liệu này tới từ mọi nơi – ví dụ như từ những chiếc cảm biến để thu thập thông tin thời tiết, những thông tin được cập nhật trên các trang web mạng xã hội, những bức ảnh và video kỹ thuật số được đưa lên mạng, dữ liệu giao dịch của các hoạt động mua sắm trên mạng… dưới mọi hình thức khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc). Đó chính là dữ liệu lớn. Dữ liệu lớn có ba đặc trưng cơ bản: dung lượng lớn, vận tốc lớn và tính đa dạng.
Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp; hơn thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược mới, để bảo đảm rằng công việc kinh doanh bền vững, có hiệu quả hơn và cũng là cơ hội để tìm ra câu trả lời cho những vấn đề mà trước đây chưa có lời giải đáp.








