《大資料時代》讀書報告

文思社 人氣:1.7W

《大資料時代》是英國維克托·邁爾-舍恩伯格教授的著作,被公認為是國內外大資料研究的先河之作。作者通過枚舉了上百個例子,對大資料的方方面面進行了系統、詳細解說,讓每一名讀者,即使是外行也能很容易理解,直觀感受到大資料給社會和生活帶來的改變。

《大資料時代》讀書報告

在本書中,對於大資料時代,作者主要提出了三個核心觀點: 1、要全體不要抽樣。分析與某事物相關的所有資料,而不是依靠分析少量的資料樣本。2、要效率不要絕對精確。我們樂於接受資料的紛繁複雜,而不再追求精確性。3、要相關不要因果。我們不再探求難以捉摸的因果關係,轉而關注事物的相關關係。

這三個觀點在某種程度上顛覆了我們的傳統思想。

要全體不要抽樣

傳統的統計學方法是解決如何通過選取少量樣本,通過對樣本的分析,然後推斷整體的趨勢和規律。而大資料時代告訴我們“樣本=全體”,在很多時候,我們不再需要費心去考慮樣本抽樣、資料過濾等問題。我們利用大量資料,甚至是所有資料,然後用演算法去計算分析,從而更精準的找到各個因素之間的相關關係(不是因果關係),以發現數據之間的規律。

要效率不要絕對精確:

在傳統的統計學中,由於抽樣的限制,研究往往會對精確度做很嚴格的要求,譬如置信區間的概念。而大資料時代會把這些條件放的更寬鬆。我們要學會在精度和效率之前做取捨,要能夠容忍錯誤,學會在瞬息萬變的資訊中掌握趨勢,為下一刻的決策提供依據,這就夠了。正如作者所說:“接受資料的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。”

要相關不要因果:

這個觀點也區別於我們傳統的教育理念。我們習慣於“打破砂鍋問到底”、“舉一反三”式的教育方式。當我們找到了自以為是的答案時,其實可能只是冰山一角,探索事物背後本質的動機不能停止。但大資料時代告訴我們要放棄對因果關係的渴求,取而代之關注相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。

上述作者提出的三個觀點對於大資料的發展具有深遠的指導意義。我也深信這三個觀點在未來也將長久地改變著我們的社會和生活。對於大資料,接下來我也想談一談個人的理解和認識。

大資料時代,統計學依然是資料分析的靈魂。大資料時代提出的觀點是“樣本=全體”,因此,有一部分人甚至丟擲了大資料時代統計無用的觀點。他們認為資料中包含了所有的意義,只要計算能力足夠強大,就不需要什麼理論。但是他們似乎忘了,資料≠資訊。一方面,大資料採集的資料是原油而非汽油,不能夠直接拿來使用,另一方面,大資料中“全”的概念本身就難以界定。“全”在某種意義上也是一種邊界。但如何確定這種邊界進而進行資料的全面收集,本身就是一件困難的事情。因此,在大資料時代,資料分析的很多根本性問題和小資料時代並沒有本質區別。它在某種程度上是樣本的無限放大。

 大資料的根基是“資料”。資料是大資料發展的前提。如果沒有有效的資料,大資料技術也只是空中樓閣。因此,一方面,如何積累豐富的資料資源,是我們急需解決的問題,另一方面,對於已有的資料資源,如何有效地利用,提高資料標準化、準確性、完整性水平,也需要我們思考。就目前來看,大資料的未來更加關注的是“社會化大資料”,即人和人的關係、人和資料之間的關係。通過對社會化資料分析,使得我們能夠對人、社會和商業有更加深入的理解。這也解釋了為什麼在美國,很多人認為Facebook的價值在某種程度上要大於谷歌。因此,企業在日常執行中,要注重積累這方面的資料資源,同時要配套相應的資料採集標準和方法,最大程度提高資料利用價值。

大資料的關鍵是處理。大資料的核心價值是預測。但大資料的特點對資料分析的確提出了全新挑戰。面對海量的資料,如何尋找快速有效的方法進行分析挖掘,為我們的決策提供依據也是擺在我們面前的一個難題。對此問題,一方面我們可以結合傳統統計方法,對結構複雜、來源多樣的資料建立有效統計模型,先行對資料進行加工處理。另一方面,需要開發先進的軟體平臺和演算法,例如目前已有的Hadoop、MapReduce等,儘可能用低成本和擴拓展的方式處理大資料。

    總而言之,大資料很精彩。對於企業來講,一方面需要挖掘更多創造資料的渠道,另一方面要提升資料處理挖掘的能力,最為關鍵的是找到資料和應用的結合點,這樣才能乘著大資料東風,讓企業發展更上一個臺階。

TAG標籤:讀書 報告