GigaOM: Jo đã so sánh Big Data với sự phổ biến của điệu nhảy Gangnam, mà tôi vừa mới kiểm tra vào sáng nay là 1,6 tỷ lượt xem, tức là 1/4 dân số thế giới. Vậy liệu rằng Big Data có tiếp tục
gia tăng theo cấp số nhân trong năm tới để trở thành một từ "thời thượng" không? Và bằng cách nào?
Jo Maitland: Vâng, sẽ chẳng có gì là ngạc nhiên khi Big Data sẽ tiếp tục phát triển và theo nhiều dự đoán thì đến cuối thập kỷ này lượng Big Data sẽ lớn gấp 50 lần so với bây giờ, được sản sinh ra từ mobile, GPS, mạng xã hội. Nhưng sự tăng nhanh về số lượng đem lại một thử thách trong việc sử dụng chúng một cách hiệu quả.
George Gilbert: Tổng lượng dữ liệu sản sinh ra mỗi ngày là βbyte nhưng trong thực tế thì chúng ta chưa có cách nào để xử lý chúng. Để giải quyết vấn đề này cần đến dung lượng của CPU và mạng xã hội lớn hơn, trong chi phí cho phép giống như chúng ta đã xoay sở trong những thập kỉ vừa qua, với Bandwidth, Bollonet đòi hỏi hàng tháng để có thể xử lý được. Có thể nói, những ứng dụng dữ liệu trung tâm trong nhiều năm qua là Bollonet, AM Storage và mọi thứ đang dần thay đổi.
Xây dựng những ứng dụng chuyên môn sâu cho Big Data
GigaOM: Chúng ta đang bàn về những ứng dụng Big Data có giá thành hợp lý, và dù là còn khá sớm nhưng hai người nghĩ thế nào về cơ hội cho những start-ups trong lĩnh vực ứng dụng chuyên sâu cho Big Data, ví dụ như trong dịch vụ chăm sóc sức khỏe hay những nhà đầu tư khác trong việc chuyển Big Data từ diện rộng sang chuyên sâu.
Jo Maitland: Tôi cũng nghĩ rằng vẫn còn khá sớm đối với thị trường này, khi mà những bộ phận doanh nghiệp truyền thống vẫn còn ngỡ ngàng khi nghe đến nó. Trong một buổi hội thảo về công nghệ, tôi có đặt ra câu hỏi là “Ai đã biết về Hadoop” và thật ngạc nhiên là có quá nhiều cánh tay giơ lên.Từ góc nhìn về hạ tầng kĩ thuật, tôi nghĩ rằng Hadoop giúp chúng ta nhận ra tiềm năng nền tảng của Big Data, ngày càng nhiều những sản phẩm của họ được bán ra thị trường. Làm cách nào để tận dụng được nguồn Big Data rộng lớn là một trong những điều thú vị trong nhiều năm tới.
George Gilbert: Đúng vậy. Và những doanh nghiệp truyền thống như Greenplum đang đưa nhiều ứng dụng của Hadoop vào những sản phẩm của mình, để rút ngắn thời gian hay sử dụng map producing để đưa ra những giải pháp thay thế tối ưu.
Jo Maitland: Đó là chức năng của những ứng dụng này. Ngày càng nổi lên nhiều những công ty nhắm vào thị trường ứng dụng chuyên sâu, ví dụ như dự đoán hành vi người tiêu dùng trước khi họ thực sự hành động, hay như trong dịch vụ y tế, nó giúp ta biết được khi nào một người đang chuẩn bị bệnh và mọi thứ đã sẵn sàng trước khi người đó đặt chân đến bệnh viện. Chúng ta đang dần thấy được sự chuyên sâu theo chiều dọc của Big Data. Những ngành công nghiệp truyền thống cần phải nhận thấy được tầm quan trọng của công nghệ và áp dụng nó.
GigaOM: Một công ty khác có thể kể đến là The Utility, đó không phải là một công ty về IT nhưng đang chuyển mình theo hướng đó. Chúng ta vừa nói về một con số rất lớn, hàng terabyte Big Data và bây giờ Utility đang có một nhà kho dữ liệu (data warehouse). Mọi người bắt đầu đặt câu hỏi rằng liệu có thể dùng dữ liệu để hiệu quả hóa việc sử dụng năng lượng? Ta có thể hợp tác với những công ty thiết bị như công ty sản xuất máy điều nhiệt chẳng hạn, để tạo ra một loại máy điều nhiệt thông minh?
George Gilbert: Dịch vụ dữ liệu chuyên sâu phụ thuộc rất nhiều vào lĩnh vực, nó là kết hợp của dịch vụ chuyên nghiệp gắn với đặc trưng riêng của khách hàng (thường là những công ty) và đòi hỏi rất nhiều dữ liệu từ nhiều nguồn trong và ngoài. Đặc trưng của những công ty truyền thống đã gặp trở ngại khi chuyển từ dịch vụ đơn thuần sang kết hợp với những phân tích tương lai. Đó không chỉ đơn giản là lắp một chiếc máy điều nhiệt thông minh mà là khi ta lắp đặt tất cả những thiết bị tiêu thụ năng lượng khác và ta có được những phân tích để xây dựng được một căn nhà bức xạ nhiệt, nhờ đó ta biết được cần bao lâu để sưởi ấm ngôi nhà đó đến một nhiệt độ nhất định dựa vào nhiệt độ ngoài trời vào một thời điểm nào đó. Và tôi nghĩ sẽ rất khó khăn với những công ty ứng dụng hiện tại khi chuyển hướng sang những ứng dụng này bởi vì chúng không nằm trong đặc trưng của họ, rất chuyên biệt và mang tính tương lai.
Jo Maitland: Tôi lại nghĩ là những công ty ấy hiểu rất rõ và đang sử dụng công nghệ để tập trung hóa dữ liệu bằng việc sử dụng nền tảng Big Data như Hadoop. Tôi đang quan tâm đến việc Big Data đã và đang ảnh hưởng đến các doanh nghiệp như thế nào và bằng cách nào nó tạo ra những dịch vụ khách hàng tốt hơn?
George Gilbert: Nhiều công cụ dự đoán có thể ứng dụng vào dịch vụ tài chính hay chăm sóc khách hàng, nhưng chúng cần phải được chuyên môn hóa theo từng lĩnh vực. Nói cách khác, những công nghệ tưởng chừng là chung chung này đòi hỏi khá nhiều công sức để khiến nó phù hợp với từng ngành nghề cụ thể. Ví dụ như trong giao dịch, chúng ta xử lý quá trình từ nhận đơn hàng đến khi thanh toán, nghĩa là khi một đơn hàng được đặt, ta phải phân loại, chuyển hóa đơn rồi nhận thanh toán. Dù đó là một công ty hóa chất phải làm việc với những công thức phức tạp hay một nhà phân phối thì thì quá trình đó cũng không có gì là quá khác biệt. Nhưng với những công ty ứng dụng chuyên sâu và phân tích dự đoán, như Oracle hay SAP, thì lại hoàn toàn khác, vì như tôi đã nói trước đó, bản chất của chúng nửa là công ty ứng dụng, nửa lại là công ty tư vấn.
GigaOM: Big Data giúp tiết kiệm chi phí rất nhiều bằng cách tối ưu hóa marketing, ngăn chặn việc mất khách hay làm thế nào để thu hút khách hàng. Một số công ty khoa học đã ứng dụng cleantech và tính bền vững vào những sản phẩm của họ như Apple, cho ra đời bộ điều chỉnh nhiệt gia dụng Nest Thermostat, có thể tự động bật hay tắt tùy vào hành động của bạn, nơi bạn đang đứng, độ ẩm ngoài trời. Tôi muốn hỏi một câu hỏi nhỏ rằng khi nói về việc khai phá dữ liệu truyền thống, tức là ta có một lượng dữ liệu và đưa ra những phân tích dựa trên đó, nhưng nếu nói riêng về một số lĩnh vực như an ninh chẳng hạn, nó cần những phân tích tức thời. Và điểu gì sẽ xảy ra nếu những phân tích đó phải diễn ra ngay lập tức?
Jo Maitland: Hadoop đang trong quá trình cải thiện khả năng phân tích dữ liệu tức thời. Hiện tại, họ đã đi được nửa chặng đường, cho phép những tính toán diễn ra nhanh hơn, hàng phút, hàng giờ hay hàng ngày để có được kết quả. Và tôi nghĩ đó sẽ là một dịch vụ tuyệt vời. Mọi người muốn có câu trả lời nhanh chóng, nhưng chúng ta có thể đưa ra câu trả lời trong một tiếng chứ không nhất thiết phải là trong vài giây. Trong một số trường hợp như ngành tài chính hay an ninh chính phủ đòi hỏi câu trả lời ngay tức thời nhưng trong những lĩnh vực khác thì một tiếng là có thể chấp nhận được. Nghĩa là nó chỉ cần thiết đối với một số ngành chứ không phải toàn bộ.
George Gilbert: Điều tôi muốn bổ sung là có một sự thỏa hiệp giữa lượng dữ liệu cần cho những phân tích và sự nhanh chóng của nó. Và tôi nghĩ chúng ta sẽ có những ứng dụng Big Data đáp ứng được cả hai đòi hỏi đó.
Dịch vụ Nhà kho dữ liệu (Data Warehouse): Amazon có thể đe dọa những đối thủ nặng ký?
GigaOM: Vào cuối tháng 11 năm ngoái, Amazon tổ chức buổi hội thảo về điện toán đám mây (Data Computing). Oracle, IBM - những công ty lớn truyền thống theo kiểu client - server về nhà kho dữ liệu lớn - sẽ phải làm gì và tại sao chúng ta nên chuyển nhà kho dữ liệu sang đám mây bởi rõ ràng chúng đòi hỏi chi phí ít hơn. Khi có thể tìm ra câu trả lời online thì sẽ chẳng cần đến những giải pháp offline nữa vì nếu ta có dữ liệu trong đám mây thì rõ ràng câu trả lời sẽ ở đó. Hai người đánh giá thế nào về Amazon trong lĩnh vực này?
Jo Maitland: Những thứ Amazon đưa ra nhắm thẳng vào vấn đề giá cả, chi phí được giảm đi rõ rệt khi ta chuyển dữ liệu vào đám mây. Nhưng thử thách là phải có công nghệ phức tạp để có thể chuyển dữ liệu giữa những hệ thống khác nhau. Đã phải tốn gần hai thập kỷ chúng ta mới hoàn toàn tin tưởng vào công nghệ hiện có. So với những gì ta đã và đang làm thì nghe có vẻ thật đơn giản nhưng vẫn cần nhiều thời gian để việc chuyển dữ liệu vào đám mây trở nên thực sự dễ dàng. Đó là một trong những rào cản hiện tại.
George Gilbert: Sự đe dọa về giá cả có thể là vấn đề nghiêm trọng về lâu dài, ít nhất là đối với những công ty truyền thống như IBM, Oracle, Microsoft bởi mô hình giá của họ dựa vào những ứng dụng client – server truyền thống. Những công ty này đứng trước sự khó xử, liệu họ có nên đưa ra mức giá thấp hơn để có nhiều khách hàng mới và những ứng dụng mới, cung cấp những dịch vụ phân tích dữ liệu hay nếu họ làm vậy tức là họ giảm giá những dịch vụ trọng tâm với cơ sở dữ liệu cho những khách hàng truyền thống.
Jo Maitland: Và có vẻ như Amware đang chứng minh được những gì đang xảy ra bằng việc đưa ra những ứng dụng mới để hoạt động trong đám mây với mức giá rẻ hơn và cùng lúc đó họ cũng tập trung vào việc kinh doanh chính dựa trên những ứng dụng client - server. EMC và VMweb cũng đưa ra Cloud Foundry chạy trong mô hình đám mây. Dù vẫn còn khá sớm nhưng có thể nói đó là những bước chuyển dần đến tương lai.
Những ứng viên IPO hứa hẹn
GigaOm: Vẫn còn là một thị trường mới mẻ, nhưng hai người có dự đoán nào cho những ứng viên IPO?
Jo Maitland: Tôi nghĩ mọi người đang trông chờ vào Caldera của Hadoop. Plunk cũng vừa được tung ra thị trường vào năm ngoái nhưng đó là một ứng dụng Big Data rất chuyên biệt trong những phân tích hệ thống thông minh IT.
George Gilbert: Một điều cần phải nghĩ đến khi nói về IPOs là chúng ta đang thấy họ chuyển mình. Phần mềm miễn phí nhưng ta phải trả phí cho dịch vụ và ngày càng nhiều những phần mềm hay mã nguồn mở cạnh tranh với những phần mềm hỗ trợ mã nguồn mở. Một cách để sử dụng nguồn tiền hiệu quả hơn thường gắn liền với thiết bị như Oracle đang áp dụng.
Dự đoán năm tới: khủng hoảng cho những startups NoSQL. Marklogic ra thị trường và thử thách cho Oracle?
GigaOM: Một câu hỏi khác mà tôi khá quan tâm là, ngoại trừ những công ty dịch vụ như IPO, hai người có nghĩ rằng những công ty khác sẽ bị thôn tính bởi những công ty IT lớn hơn.
Jo Maitland: Tôi cũng nghĩ vậy, trong thực tế thì họ đã đưa ra những lời đề nghị đó, những công ty mà chúng ta biết như Hadoop chẳng hạn. Họ đang rất thoải mái với nguồn tài chính vững chắc và tự tin mở rộng thị trường.
GigaOM: Thế còn những dự đoán bất ngờ cho năm nay?
Jo Maitland: Chúng ta đã nói nhiều về những startups và bây giờ tôi có thể đưa ra dự đoán cho những công ty lớn. Những công ty NoSQL đã khá đông đúc và đến năm 2013 những startups trong lĩnh vực này sẽ gặp khủng hoảng, đơn giản vì thị trường không thể ủng hộ hết các công ty dù là không gian Big Data vẫn khá lớn. Khủng hoảng có thể nghiêm trọng và tôi nghĩ rằng sớm muộn gì chúng ta sẽ thấy những công ty trong năm nay bị cuốn trôi sang một bên. Và dự đoán của tôi có thể với Marklogic, là một Dark Core thực sự trong không gian Nosql mà năm ngoái được quản lý bởi Gary Bloom, và sẽ không có gì là ngạc nhiên nếu họ cố gắng vượt mặt Caldera và ra thị trường vào năm nay.
George Gilbert: Dự đoán của tôi là Oracle sẽ phải đối mặt với sức ép để đưa ra giá cả hợp lý cho thị thường. Họ đưa Cloudera-based Big Data appliance ra thị trường vào tháng một với mức giá là $450,000 cộng với $54,000 cho việc bảo trì ổ cứng và $36,000 để bảo trì hệ thống. Dù mức giá đó là thấp hơn so với dự đoán của các chuyên gia, vẫn là khá đắt đỏ.