李國杰院士:大數(shù)據(jù)成為信息科技新關(guān)注點
最近,在信息科技領(lǐng)域,繼云計算之后,“大數(shù)據(jù)”一詞成為媒體爭相追逐的焦點。對此,中國工程院院士、中科院計算技術(shù)研究所首席科學家李國杰接受《中國科學報》記者采訪時說:“科技界應(yīng)高度關(guān)注大數(shù)據(jù)研究這一新的發(fā)展方向,從大數(shù)據(jù)應(yīng)用中發(fā)現(xiàn)挑戰(zhàn)性的科學問題,推動以大數(shù)據(jù)為基礎(chǔ)的第四科學范式,促進形成新型交叉學科:網(wǎng)絡(luò)數(shù)據(jù)科學。”
信息社會的變化
“60年前數(shù)字計算機使得信息可讀,20年前因特網(wǎng)使得信息可獲得,10年前搜索引擎爬蟲將互聯(lián)網(wǎng)變成一個數(shù)據(jù)庫,現(xiàn)在Google及類似公司處理海量語料庫如同一個人類社會實驗室。”在近日召開的香山科學會議第424次學術(shù)討論會上,李國杰引用美國《連線》雜志主編安德森的一段話作為他演講的開場白。維基百科定義:“大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。”“大數(shù)據(jù)”具有數(shù)據(jù)量大、種類多和速度快等特點,涉及互聯(lián)網(wǎng)、經(jīng)濟、生物、醫(yī)學、天文、氣象、物理等眾多領(lǐng)域。
國際數(shù)據(jù)公司(IDC)的數(shù)字宇宙研究報告稱,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB,并預(yù)測到2020年,全球?qū)碛?5ZB的數(shù)據(jù)量。
“數(shù)據(jù)成本下降促使數(shù)據(jù)量急劇增長,而新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)使數(shù)據(jù)類型增多,” 李國杰告訴記者,“各種非結(jié)構(gòu)化的數(shù)據(jù)又增加了大數(shù)據(jù)的復(fù)雜性。”
2012年3月29日,美國政府撥款2億美元啟動“大數(shù)據(jù)研究和發(fā)展倡議”計劃。李國杰認為,這是一個標志性事件,說明繼集成電路和互聯(lián)網(wǎng)之后,大數(shù)據(jù)已成為信息科技關(guān)注的重點。
重視大數(shù)據(jù)提出的技術(shù)挑戰(zhàn)
針對美國有關(guān)大數(shù)據(jù)研究的計劃,李國杰對記者說,這項大數(shù)據(jù)計劃最為重視的是數(shù)據(jù)工程而非數(shù)據(jù)科學,主要考慮大數(shù)據(jù)分析算法和系統(tǒng)的效率。對我國而言,大數(shù)據(jù)工程的技術(shù)挑戰(zhàn)也應(yīng)當?shù)玫街匾暋?nbsp;幾百年來,科學研究一直在做“從薄到厚”的事情,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”。李國杰認為,現(xiàn)在要做的則是“從厚到薄”,要把“大數(shù)據(jù)”變成“小數(shù)據(jù)”。“許多數(shù)據(jù)是重復(fù)的或者沒有價值的,未來,我們的任務(wù)不是獲取越來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精。”他說。
他進一步指出,現(xiàn)有數(shù)據(jù)中心技術(shù)難以滿足大數(shù)據(jù)的應(yīng)用需求,整個IT架構(gòu)的革命性重構(gòu)勢在必行。首先,存儲能力的增長遠遠趕不上數(shù)據(jù)的增長,設(shè)計最合理的分層存儲架構(gòu)已成為信息系統(tǒng)的關(guān)鍵。其次,數(shù)據(jù)的移動已成為信息系統(tǒng)最大的開銷,信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn)。此外,高擴展高可用的數(shù)據(jù)分析技術(shù)、新的數(shù)據(jù)表示方法、高通量計算機等都是亟待解決的技術(shù)問題。
基本科學問題仍未達成共識
盡管學術(shù)界已注意到大數(shù)據(jù)帶來的科學挑戰(zhàn),但對一些基本的科學問題仍未形成共識。 許多學者認為,計算機科學是關(guān)于算法的科學,數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學。有些學者試圖將“數(shù)據(jù)”當成一個“自然體”來研究,即“數(shù)據(jù)界”。
然而,在李國杰看來,脫離各個領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”的共性問題還不清楚。
他認為,不同于數(shù)據(jù)挖掘和統(tǒng)計學,從事大數(shù)據(jù)研究的學者應(yīng)當更重視統(tǒng)計分布背后的知識和規(guī)律。
“大數(shù)據(jù)”的復(fù)雜性主要來自個體之間的聯(lián)系。“數(shù)據(jù)背后是網(wǎng)絡(luò),網(wǎng)絡(luò)背后是人,研究網(wǎng)絡(luò)數(shù)據(jù)實際上是研究人組成的社會網(wǎng)絡(luò)。”李國杰指出,“‘網(wǎng)絡(luò)數(shù)據(jù)科學’應(yīng)是從整體上研究社會的一門科學,其重點是研究數(shù)據(jù)背后的社會網(wǎng)絡(luò)。”
因此,大數(shù)據(jù)已成為聯(lián)系人類社會、物理世界和信息空間的紐帶,需要構(gòu)建融合人、機、物三元世界的統(tǒng)一的信息系統(tǒng)。
李國杰呼吁,大數(shù)據(jù)研究正在形成熱潮,學術(shù)界需保持清醒。“首先要明確大數(shù)據(jù)研究最有價值的應(yīng)用領(lǐng)域,理清楚數(shù)據(jù)科學的邊界和研究對象。只有明確了要研究的科學問題,網(wǎng)絡(luò)數(shù)據(jù)科學才會走上良性發(fā)展的軌道。”