tải xuống:

Dữ Liệu Lớn

Màu sơn nào có thể cho bạn biết một chiếc xe đã qua sử dụng vẫn còn trong tình trạng tốt? Làm thế nào các công chức ở thành phố New York có thể xác định các hố ga nguy hiểm nhất trước khi chúng phát nổ? Và làm thế nào những cuộc tìm kiếm của Google dự đoán được sự lây lan của dịch cúm H1N1?Chìa khóa để trả lời những câu hỏi này, và nhiều câu hỏi khác, là dữ liệu lớn. "Dữ liệu lớn" đề cập đến khả năng đang phát triển của chúng ta để nắm giữ các bộ sưu tập lớn thông tin, phân tích, và rút ra những kết luận đôi khi sâu sắc đáng ngạc nhiên.

Lĩnh vực khoa học đang nổi lên này có thể chuyển vô số hiện tượng - từ giá vé máy bay đến các văn bản của hàng triệu cuốn sách - thành dạng có thể tìm kiếm được, và sử dụng sức mạnh tính toán ngày càng tăng của chúng ta để khám phá những điều chúng ta chưa bao giờ có thể nhìn thấy trước. Trong một cuộc cách mạng ngang tầm với Internet hoặc thậm chí in ấn, dữ liệu lớn sẽ thay đổi cách chúng ta nghĩ về kinh doanh, y tế, chính trị, giáo dục, và sự đổi mới trong những năm tới. Nó cũng đặt ra những mối đe dọa mới, từ sự kết thúc không thể tránh khỏi của sự riêng tư cho đến khả năng bị trừng phạt vì những thứ chúng ta thậm chí còn chưa làm, dựa trên khả năng của dữ liệu lớn có thể dự đoán được hành vi tương lai của chúng ta.Trong tác phẩm thông tuệ tuyệt vời và gây nhiều ngạc nhiên này, hai chuyên gia hàng đầu giải thích dữ liệu lớn là những gì, nó sẽ làm thay đổi cuộc sống của chúng ta như thế nào, và những gì chúng ta có thể làm để bảo vệ chính mình khỏi các mối nguy hiểm của nó. Dữ liệu lớn là cuốn sách lớn

***

Cả hai chúng tôi đã may mắn được làm việc và học hỏi từ một cây đại thụ trong lĩnh vực mạng thông tin và đổi mới, Lewis M. Branscomb. Trí tuệ, tài hùng biện, năng lượng, tính chuyên nghiệp, sự hóm hỉnh, và óc tò mò vô tận của ông luôn tiếp tục truyền cảm hứng cho chúng tôi. Và với người đối tác tương đồng và khôn ngoan của ông, Connie Mullin, chúng tôi phải xin lỗi vì không lưu ý đến đề nghị của bà để đặt tên cuốn sách là “Siêu dữ liệu”.

Momin Malik là một trợ lý nghiên cứu tuyệt vời với trí tuệ và sự cần cù đặc biệt. Chúng tôi có hân hạnh được đại diện bởi Lisa Adams và David Miller của Tổ chức Garamond, một đại diện tuyệt vời trong mọi khía cạnh. Eamon Dolan, biên tập viên của chúng tôi, là đại diện cho lớp các biên tập viên quý hiếm, những người có cảm giác gần như hoàn hảo về việc làm thế nào để chỉnh sửa văn bản và thách thức suy nghĩ của chúng tôi, để kết quả tốt hơn nhiều so với chúng tôi có thể hy vọng. Chúng tôi cảm ơn tất cả mọi người tại Houghton Mifflin Harcourt, đặc biệt là Beth Burleigh Fuller và Ben Hyman. Ngoài ra còn có Camille Smith về việc biên tập bản thảo rất chuyên nghiệp của bà. Chúng tôi rất biết ơn James Fransham của The Economist về công việc kiểm tra tư liệu xuất sắc và những lời phê bình thông minh của ông đối với bản thảo.

Chúng tôi đặc biệt biết ơn tất cả những nhà chuyên môn dữ-liệu-lớn đã dành thời gian giải thích công việc của họ, đặc biệt là Oren Etzioni, Cynthia Rudin, Carolyn McGregor, và Mike Flowers.

***

Những lời cảm ơn cá nhân của Viktor: Tôi cảm ơn Philip Evans, người luôn luôn suy nghĩ trước hai bước và thể hiện ý tưởng của mình với độ chính xác và tài hùng biện, về các cuộc trao đổi kéo dài hơn một thập kỷ. Tôi cũng biết ơn đồng nghiệp cũ David Lazer của tôi, một nhà hàn lâm dữ-liệu-lớn từ rất sớm và rất giỏi, mà rất nhiều lần tôi đã nhờ ông tư vấn.

Tôi cảm ơn những người tham gia Đối thoại Dữ liệu Kỹ thuật số Oxford 2011 (tập trung vào dữ liệu lớn), và đặc biệt là đồng chủ tịch Fred Cate, về các cuộc thảo luận vô cùng giá trị.

Viện Internet Oxford, nơi tôi làm việc, đã mang đến môi trường thuận lợi cho cuốn sách này, với rất nhiều đồng nghiệp của tôi tham gia vào nghiên cứu dữ-liệu-lớn. Tôi không thể nghĩ ra một nơi nào tốt hơn để viết nó. Tôi cũng muốn tỏ lòng biết ơn sự hỗ trợ của trường Keble College. Nếu không có sự hỗ trợ đó, tôi đã không được quyền truy cập vào một số trong những nguồn tham khảo quan trọng được sử dụng trong cuốn sách.

Gia đình luôn luôn phải chịu thiệt thòi lớn nhất khi có người viết một cuốn sách. Đó không chỉ là nhiều giờ tôi đã ngồi trước màn hình máy tính, vắng mặt để làm việc ở văn phòng, mà còn là nhiều, rất nhiều giờ tuy thân xác hiện hữu, nhưng lại bị chôn vùi trong suy nghĩ. Tôi cầu xin sự tha thứ từ vợ tôi Birgit và đứa con nhỏ Viktor của tôi. Tôi hứa sẽ cố gắng nhiều hơn.

Những lời cảm ơn cá nhân của Kenn: Tôi biết ơn nhiều các nhà khoa học dữ liệu lớn đã giúp đỡ, đặc biệt là Jeff Hammerbacher, Amr Awadallah, DJ Patil, Michael Driscoll, Michael Freed, và nhiều đồng nghiệp tại Google trong nhiều năm (bao gồm cả Hal Varian, Jeremy Ginsberg, Peter Norvig, và Udi Manber, cùng những người khác, và những cuộc trò chuyện ngắn vô giá với Eric Schmidt và Larry Page).

Suy nghĩ của tôi đã trở nên phong phú nhờ Tim O’Reilly, một nhà bác học của thời đại Internet, và bởi Marc Benioff của Salesforce.com, một người thầy. Những hiểu biết sâu sắc của Matthew Hindman luôn luôn là vô giá. James Guszcza của Deloitte giúp ích cho tôi rất nhiều, và Geoff Hyatt, một người bạn cũ đang kinh doanh dữ liệu chuỗi cũng vậy. Xin gửi lời cảm ơn đặc biệt đến Pete Warden, vừa là một triết gia vừa là một nhà chuyên môn về dữ liệu lớn.

Nhiều bạn bè đã cung cấp những ý tưởng và tư vấn, bao gồm John Turner, Angelika Wolf, Niko Waesche, Katia Verresen, David Wishart, Anna Petherick, Blaine Harden và Jessica Kowal. Những người truyền cảm hứng cho các chủ đề trong cuốn sách bao gồm Blaise Aguera y Arcas, Eric Horvitz, David Auerbach, Gil Elbaz, Tyler Bell, Andrew Wyckoff và nhiều người khác tại OECD (Tổ chức Hợp tác Kinh tế và Phát triển), Stephen Brobst và đội ngũ tại Teradata, Anthony Goldbloom và Jeremy Howard ở Kaggle, Edd Dumbill, Roger Magoulas và đội ngũ tại O’Reilly Media, và Edward Lazowska. James Cortada đã giúp đỡ nhiều. Cũng xin cảm ơn Ping Li của Accel Partners và Roger Ehrenberg của IA Ventures.

Tại The Economist, các đồng nghiệp của tôi đã mang đến những ý tưởng và sự hỗ trợ tuyệt vời. Tôi đặc biệt cảm ơn các biên tập viên của tôi, Tom Standage, Daniel Franklin, và John Micklethwait, cũng như Barbara Beck, người đã biên tập báo cáo đặc biệt “Dữ liệu, Dữ liệu ở Mọi nơi”, nó là khởi điểm của cuốn sách này. Henry Tricks và Dominic Zeigler, những đồng nghiệp của tôi ở Tokyo, là những hình mẫu luôn luôn tìm ra điều mới mẻ và diễn đạt nó một cách tuyệt vời. Oliver Morton đã mang đến trí tuệ sắc sảo của mình khi cần thiết nhất.

Hội thảo Toàn cầu Salzburg ở Áo mang đến sự kết hợp hoàn hảo của sự nghỉ ngơi bình dị và sự tìm tòi trí thức đã giúp tôi viết và suy nghĩ. Một hội thảo bàn tròn ở Viện Aspen trong tháng 7 năm 2011 đã mang lại nhiều ý tưởng, mà tôi phải cảm ơn những người tham gia và người tổ chức, Charlie Firestone. Ngoài ra, xin gửi lời cảm ơn của tôi đến Teri Elniski vì sự hỗ trợ to lớn của bà.

Frances Cairncross, Hiệu trưởng Trường Exeter, Oxford, đã cho tôi một nơi yên tĩnh để trú ngụ, cùng sự khích lệ lớn lao.

Sự biết ơn sâu sắc nhất của tôi là giành cho gia đình tôi, những người đồng hành với tôi - hay thường xuyên hơn, với sự vắng mặt của tôi. Cha mẹ, chị em, và những người thân khác của tôi đều xứng đáng được cảm ơn, nhưng tôi dành hầu hết lòng biết ơn của mình cho vợ tôi, Heather, và những đứa con của chúng tôi, Charlotte và Kaz. Không có sự hỗ trợ, khuyến khích và những ý tưởng của họ thì cuốn sách này đã không thể ra đời.

Cả hai chúng tôi xin cảm ơn rất nhiều người đã thảo luận về chủ đề dữ liệu lớn với chúng tôi, rất lâu trước khi thuật ngữ này thậm chí được phổ biến rộng rãi. Đặc biệt, chúng tôi cảm ơn những người tham gia trong những năm qua tại Hội nghị Rueschlikon về Chính sách Thông tin, do Viktor phối hợp tổ chức và nơi Kenn là báo cáo viên.

Chúng tôi đặc biệt cảm ơn Joseph Alhadeff, Bernard Benhamou, John Seely Brown, Herbert Burkert (người giới thiệu chúng tôi với Commodore Maury), Peter Cullen, Ed Felten, Urs Gasser, Joi Ito, Jeff Jonas, Nicklas Lundblad, Douglas Merrill, Rick Murray, Cory Ondrejka, và Paul Schwartz.

VIKTOR MAYER-SCHӦNBERGER

KENNETH CUKIER

Oxford / London, tháng 8 năm 2012

Mời các bạn đón đọc Dữ Liệu Lớn của hai tác giả Viktor Mayer-Schonberger & Kenneth Cukier.