大數據
  喻國明
  關於大數據分析,現實的情況是,說得人很多,鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因無外乎有二:一是對於大數據分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數據分析中的某些重大要件或技術還不成熟。
  比如,提到大數據的大,一般人認為指的是它數據規模的海量——隨著人類在數據記錄、獲取及傳輸方面的技術革命,造成了數據獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態度或行為的、數據有限的小數據已然變成了一個巨大的、海量規模的數據包。這其實是一種不得要領、似是而非的認識。其實,前大數據時代也有海量的數據集,但由於其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大數據的真正價值不在於它的大,而在於它的全——空間維度上的多角度、多層次信息的交叉復現;時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現。
  《大數據時代》一書中所引述的,一個孕婦的口味及消費模式等是有一定規律的,單一一條信息並不足以判定你的狀態,但關於你的不同來源的數據集合一旦與孕婦特型(如果我們掌握了這個分析模型的話)高度相關,人們便很容易對你的真實狀態進行一種準確的判斷而不管你自己承認或者不承認。
  再舉個例子,面對今天社會輿情態勢,常常有人感慨:“造謠的成本很低,闢謠的成本卻很高”,抱怨現在的網絡給造謠者造謠傳謠帶來的極大便利以及人民群眾過於輕信謠言。如果我們用某個事件的數據、單一的和靜態截面上的數據去觀察和分析這個問題的時候,真的可能得出上述這樣一種結論。但是,如果我們從社會傳播的總體信息構造上去分析的時候,我們會發現,流言或謠言的猖獗不正在於一些掌握了社會信息傳播主渠道的部門的不作為、甚至矇蔽真相所造成的嗎?因此,大數據分析的價值和意義就在於,透過多維度多層次的數據,以及歷時態的關聯數據,找到問題的癥結,直抵事實的真相。
  因此,大數據分析在方法論上需要解決的課題首先就在於:如何透過多層次、多維度的數據集實現對於某一個人、某一件事或某一種社會狀態的現實態勢的聚焦,即真相再現;其中的難點就在於,我們需要洞察哪些維度是描述一個人、一件事以及一種社會狀態存在狀態的最為關鍵性的維度,並且這些維度之間的關聯方式是怎樣的,等等。其次,如何在時間序列上離散的、貌似各不相關的數據集合中,找到一種或多種與人的活動、事件的發展以及社會的運作有機聯繫的連續性數據的分析邏輯。其中的難點就在於,我們對於離散的、貌似各不相關數據如何進行屬性標簽化的分類。概言之,不同類屬的數據集的功能聚合模型(用於特定的分析對象)以及數據的標簽化技術,是大數據分析的技術關鍵。
  除此之外,就現實而言,有質量的大數據源常常掌握在少數權威機構、信息服務商手中,如何開放這種大數據源的使用,事關社會的發展和人民生活的福祉,筆者認為,應該從制度和機制上給予保障。
  (作者系中國人民大學新聞學院副院長、中國人民大學新聞與社會發展研究中心副主任、國家二級教授、中國傳媒經濟與管理研究會會長)
 
(編輯:SN009)
創作者介紹

狗公園

ixqzzc 發表在 痞客邦 PIXNET 留言(0) 人氣()