發(fā)布時間: 2016年03月29日
當前,全國各地都在建設(shè)大數(shù)據(jù)中心,有些偏僻的山區(qū)都建立了容量達2PB(拍字節(jié))以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。其背后的問題是,這些系統(tǒng)的成本都非常高。
數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本、盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存、要保存多長時間,應(yīng)當根據(jù)可能的價值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計算機系統(tǒng)要求能耗降低到原來的千分之一,計劃到2024年才能研制出來。因此,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng),能耗極高。
一味追求數(shù)據(jù)規(guī)模不僅會造成浪費,而且效果未必很好。多個來源“小數(shù)據(jù)”的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的“大價值”。因此,應(yīng)在數(shù)據(jù)的融合技術(shù)上多下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB(太字節(jié))已經(jīng)是很大的規(guī)模。
此外,大數(shù)據(jù)主要難點不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時回應(yīng)和原始數(shù)據(jù)真假難辨?,F(xiàn)有數(shù)據(jù)庫軟件無力應(yīng)對非結(jié)構(gòu)化數(shù)據(jù),所以要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標準化和數(shù)據(jù)的互操作。數(shù)據(jù)質(zhì)量不高是大數(shù)據(jù)的特點之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。比如,腦科學研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價值的結(jié)果。
可見,發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
實際上,發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗技術(shù)的唯一標準是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅持應(yīng)用牽引的技術(shù)路線。所謂技術(shù)有限、應(yīng)用無限,各地發(fā)展云計算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
目前流行的大數(shù)據(jù)定義是“當前技術(shù)無法處理的數(shù)據(jù)集合”,這種針對未知技術(shù)的定義強調(diào)大數(shù)據(jù)不同于數(shù)據(jù)庫等傳統(tǒng)技術(shù)能對付的小數(shù)據(jù),有利于推動基礎(chǔ)研究、激勵探索新技術(shù),但可能引導大家只重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計學家們花了200多年,總結(jié)出認知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會隨著數(shù)據(jù)量的增大而自動填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。Google公司的流感預測這兩年失靈,就是由于搜索推薦等人為的干預造成統(tǒng)計誤差。
因此,我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實現(xiàn)信息化的策略一樣:目標要遠大、起步要精準、發(fā)展要快速。