互聯網、移動互聯網、物聯網產生的海量數據將人類引入大數據時代,三大網絡每分每秒都在生成、采集人類的行為數據。這對于社會科學的研究(尤其是實證研究),無疑是一件令人驚喜的事情。它所獲取的海量數據,用傳統的方法(如問卷調查)是無法做到的。例如,社交平臺臉書(facebook)每日產生100億條信息、450億次點贊,有3.5億張新圖片被上傳[1],其數據倉庫存儲了超過300PB的數據,并且以每日新增600TB的速度增長[2];早在2013年,搜索引擎服務提供商——百度就稱其每天處理100PB以上的數據,每天響應的請求數量在百億級,產生的搜索日志數量達到1TB。[3]
豐富的網絡數據資源加上新的數據處理技術,使基于大數據的知識發現迅速成為社會科學中計算的核心內容。社會科學家們紛紛運用網絡大數據進行創新性研究。例如,運用臉書、推特、微博等數據來探尋人類行為的規律、社會心態的變化,等等。一時間,此類研究所使用數據的體量是否巨大、所運用的數據處理技術是否新穎等問題成為大家關注的焦點。丹·博伊德與凱特·克勞福德指出:“(大家)圍繞針對推特研究的討論,集中于可供使用的推特數據的體量這一問題上?!保?]所以,雖然大數據的優勢很明顯,但其是否能夠完美地滿足社會科學研究所需數據的要求,卻少有人對之深入思考。
一、大數據:社會科學研究的全數據模式時代到來了嗎?
2012年,維克托·邁爾-舍恩伯格、肯尼斯·庫克耶合著的《大數據時代:生活、工作與思維的大變革》提出,大數據時代的一個思維變革,是要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。過去,由于收集和分析數據受客觀條件的限制,所以采用了隨機采樣的方法,但這只是一條捷徑,是在難以收集和分析全部數據情況下的選擇,它本身存在許多缺陷。而在大數據時代,在很多領域,從收集部分數據到收集盡可能多的數據的情況已經發生。如果可能的話,我們會收集所有的數據,即“樣本=總體”。[5](P37)對于舍恩伯格和庫克耶所講的話,有兩點需要注意:一是“在很多領域”而非“在所有領域”;二是目前還只是一種可能性,而非完全做到。因此,其合理的結論只能是:在很多領域,如果可能的話,我們要分析與某事物相關的所有數據,而不是依靠少量的數據樣本。但是,舍恩伯格和庫克耶接下來作了一個樂觀的估計:“在大數據時代進行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數據的主要方式。慢慢地,我們會完全拋棄樣本分析?!保?](P43)或許正是基于這種樂觀的估計,他們將大數據定義為:“不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。”[5](P39)顯而易見,舍恩伯格和庫克耶的邏輯是不嚴密的,既然還只是“在很多領域”與“如果可能”的情況下,能夠做到“樣本=總體”,那么,在一些還不可能收集相關的所有數據的領域,是否就意味著不論其獲得的數據的體量有多大,數據的模式結構有多復雜,數據的動態增加有多快,都不能算是大數據?事實上,被舍恩伯格和庫克耶確定為大數據的谷歌搜索數據,也不是收集到嚴格意義上的所有數據,因為谷歌雖然在搜索市場占有率第一,但依然有用戶在使用微軟“必應”①等搜索引擎。那么,谷歌搜索數據也不能算作大數據嗎?所以,舍恩伯格和庫克耶的定義無疑會引起大數據概念的混亂,但百度百科、360百科、互動百科皆收錄了他的定義,正持續產生廣泛的影響。
舍恩伯格和庫克耶認為:“社會科學是被‘樣本=總體’撼動得最厲害的學科。隨著大數據分析取代了樣本分析,社會科學不再單純依賴于分析經驗數據。這門學科過去曾非常依賴樣本分析、研究和調查問卷。而現在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現出的關系,還是通過推特信息表現出的感情。更重要的是,現在我們也不再依賴抽樣調查了?!保?](P42)這樣的表述,讓人不得不理解其言下之意是,在社會科學領域,我們已經完全能夠(至少是即將完全能夠)收集、分析與某事物相關的所有數據,而不是依靠少量的數據樣本。所以,盡管《大數據時代:生活、工作與思維的大變革》只是一本普通的暢銷書,并非嚴謹的學術著作,但依然成為很多社會科學研究者的心靈雞湯。筆者發現,近幾年社會科學界對大數據的概念存在以下幾種誤解。
1.隨著大數據時代的到來,“一切皆可數據化”,社會科學可以獲得研究所需的“總體數據”,全數據模式正在開啟。
2.由于大數據是“樣本=總體”或至少是“樣本接近于總體”的數據,因此,它不存在采樣偏差和數據代表性問題。傳統的問卷調查法將被大數據的獲取方法徹底取代。
3.信息技術的進步使計算能力得到巨大提升,因此對“所有數據”的分析將成為主導性甚至唯一的方法。
然而,事實果真如此嗎?社會科學研究的全數據模式時代真的已經全面到來了嗎?抽樣調查真的會像汽車時代的馬匹一樣退出歷史舞臺嗎?
二、挫折與反思:大數據研究的失敗案例說明了什么?
大數據驅動下的社會科學研究取得了一系列令人眼界大開的成果,但同樣也有足以促人反思的問題。一個典型案例是對英國脫歐的預測。
2016年英國脫歐公投是一件關系重大的選擇,因此,有許多機構或運用傳統方法或基于大數據的獲取與分析,對公眾態度進行研究,以預測投票結果。
采用傳統民意調查方法的研究,基本都預測投票結果將是留歐。例如,2016年初,英國市場和民意調查機構依普索·莫瑞(Ipsos Mori)對抽取的514名英國成年人進行的電話調查顯示,有50%的受訪者支持留歐,有38%受訪者支持脫歐,有12%的人搖擺不定[6];英國政治學會針對包括學者、新聞記者、民意測驗專家等在內的專家群體進行了在線問卷調查,共計發放電子問卷2,031份,回收596份。有87%的受訪學者支持留歐,而支持留歐的新聞記者的比例更是達到97%,專家群體對投票結果的預測是55%的選民將投票留歐。[7]也就是說,不論是針對普通人,還是針對專家群體的抽樣調查,其結果都指向留歐。但是,實際投票結果卻是留歐與脫歐的得票率分別為48.1%與51.9%,宣告傳統民意調查方法預測失敗,那么失敗的原因何在呢?
從投票結束之后公布的支持留歐者與支持脫歐者的年齡與階層構成來看,前者主要是年輕人、精英或者白領階層;后者主要是中老年人以及普通勞工等藍領階層。圍繞經濟民生這一核心議題,前者認為,隨著歐盟擴張而大量涌入的“窮親戚”——東歐移民——能夠帶來人口紅利,降低生產成本,從而帶動GDP上升;而后者則認為移民會擠占就業機會,瓜分社會福利。在經濟停滯不前的大背景下,就業與社會福利的蛋糕本就不大,移民的到來威脅到他們的切身利益。使用傳統方法之所以預測失準,主要原因是未能充分接觸藍領階層而導致了采樣偏差,使調查樣本不能很好地代表投票群體。而要避免這種采樣偏差是相當困難的,因為這意味著要在調查問卷發放前就要準確判斷出不同人群的投票率。既然傳統方法在這項研究中難以避免采樣偏差,那么,大數據的獲取與分析能否有效彌補傳統方法的缺陷呢?
有學者利用大數據分析預測框架對英國脫歐公投的結果進行了預判。研究采用TRUST法(topic retrieved,uncovered and structurally tested)。具體做法是:對新聞報道進行文本挖掘與分析,析出與英國脫歐相關的主題詞,譬如經濟、安全、移民等,再運用谷歌對基于這些主題詞的網絡檢索行為進行跟蹤,同時結合主流民意調查機構的數據進行統計分析,最終得出留歐和脫歐陣營的得票區間分別為50.1%~53.6%與46.4%~49.7%,平均得票率分別為52%與48%。[8]該預測與運用傳統方法進行的預測出現了相似的偏差,緣由為何呢?
首先,海量的在線新聞和谷歌搜索數據雖然是大數據,但對于該項分析研究而言,它不是關于研究對象的“總體數據”。該研究的對象是可能參加投票的英國公民,但這一群體并不都是網民,非網民群體在研究中必然被排除在外。
其次,互聯網作為一種新興媒體,其政治效能越來越被社會精英群體所認識和重視,他們中很多人必然利用互聯網制造符合自己主張(留歐)的輿論態勢;同時,作為互聯網原住民的年輕人(尤其是大學生)更習慣于利用網絡獲取信息,更喜歡參與網絡造勢,這使得網絡新聞中留歐的聲音往往是主流,搜索指數也會偏向留歐。而不少中老年人、藍領階層往往線上沉默,線下活躍,他們較少受網絡新聞、意見領袖的影響,也較少在互聯網上留下行為蹤跡,但這一群體中很多人投票意向篤定。這便導致了留歐在網絡中的聲勢雖大但卻在投票中失利的結果。
可見,此研究采集的在線新聞與搜索數據只能很好地代表活躍網民,而不能代表有投票意愿的英國公民。在脫歐預測失敗之后,基于大數據分析的美國大選投票結果預測也以失敗告終。已有研究指出,預測失敗的重要原因之一是其落入了“代表性陷阱”。雖然網絡搜索數據、社交媒體數據等都是典型的大數據,若基于此而預測大選結果,卻絕對不是所謂的“樣本=總體”,因為網民≠選民;即便在網民中,不同的偏好、特性、體驗、使用習慣等因素同樣會削弱數據的代表性。[9]
從上述案例可以看出,雖然大數據時代可以使我們獲得比以往更多的信息資料,但并不能保證社會科學就可以開展全數據模式的研究。
三、鴻溝難填:信息時代的數字不平等
“總體數據”“全數據模式”是相對于具體的研究對象和研究問題而言的,舍恩伯格和庫克耶的相關論述混淆了這些概念。他們舉一案例解釋:“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動。于是他們調查了四個月內所有的移動通信記錄——當然是匿名的,這些記錄是由一個為全美1/5的人口提供服務的無線運營商提供的。這是第一次在全社會層面用接近于‘樣本=總體’的數據資料進行的網絡分析?!保?](P42)在此案例中,研究對象是人,研究問題是人與人之間的互動,而移動通信僅僅是眾多互動方式的一部分,因此,作者所說的移動通信記錄絕不能視為人與人之間互動的總體數據;美國并不止這一家無線運營商,全美也并非只有1/5人口使用移動通信,因此,一家無線運營商提供的記錄絕不能視為美國人移動通信的總體數據;更何況,只調查了四個月內的所有移動通信記錄,其實連全美1/5人口移動通信互動的總體數據都算不上,怎么能把它當作總體樣本呢?此案例中只表明已經收集到的數據的全部,但相對于研究對象和研究問題而言,這些數據仍然是一個樣本——達到了大數據體量的樣本。
“可以收集過去無法收集到的信息”不等于“可以收集到社會科學研究需要的所有信息”,輕率地認定社會科學研究“現在不再依賴抽樣調查了”的結論,是不嚴謹的。事實上,在很多情況下,可資社會科學研究的大數據并非“總體數據”,因而同樣存在數據代表性問題。而在互聯網普及過程中出現的網絡分化,則讓這種狀況在可預見的未來不可能從根本上得到改變。網絡分化是指不同的社會群體能夠享受到的互聯網資源是不同的,在互聯網的使用中獲益程度之異同,是一種新形式的社會不平等。[10]
全球網絡指數(global web index,GWI)的報告顯示,截至2017年1月,作為世界第一大經濟體、互聯網發源地的美國,其互聯網用戶占整體人口的比例為86%。[11]但從全球范圍來看,其他國家和地區則遠遠達不到如此高的覆蓋率。全球人口約74.76億,而互聯網用戶為37.73億。[11]全球互聯網普及率剛剛過半。
從我國的情況看,由于經濟發展不平衡,在互聯網的普及方面,存在顯著的地區差異、城鄉差異。《第41次中國互聯網絡發展狀況統計報告》顯示,截至2017年12月,中國網民的規模達7.72億,互聯網普及率為55.8%,但非網民規模仍然高達6.11億。[12]在中國網民中,農村網民占比27.0%,規模為2.09億。雖然近幾年農村的互聯網的發展速度較快,其普及率上升至35.4%,但仍低于城鎮35.6個百分點。[12]
經濟發展的不平衡不僅導致城鄉之間的差異,還造成了明顯的地域差異?;ヂ摼W普及率從東部沿海發達地區向中西部欠發達地域呈梯次遞減趨勢。這些差異造成了“數字鴻溝”的存在,而填平“鴻溝”并非朝夕之事。由于“數字鴻溝”的存在,使針對不同研究對象、不同研究問題的社會科學研究在使用網絡大數據時,會面臨不同程度的數據代表性問題。例如,如果想要研究“知識北漂”關注什么,從社交媒體上獲取具有較好代表性的數據是完全可能的;而如果是研究貧困山區的留守老人和留守兒童的心理狀態,那還是采用傳統的“田野調查”方法為宜。
除了網民與非網民之別,網民結構與人口結構的差異也存在數據代表性問題。從我國的情況看,僅網民的性別結構與實際人口性別比例基本相符,而年齡結構、職業結構等都存在不小的差距。在網民群體中,年齡在20~39歲的占53.5%;從職業來看,學生占到了25.4%。[12]這顯然與人口統計的特征不符,必然會導致網絡大數據的結構性偏差,在社會科學研究中應予以充分注意。例如,在互聯網輿情研究中,必須認識到這一事實,即從社交媒體所獲取的數據不能很好地代表50歲以上的人群。
四、用戶偏好:數據生成的不均衡
即便隨著社會的進步,互聯網最終實現了全球范圍內的高度普及,網絡大數據的代表性依然是社會科學研究中必須認真考察的問題,因為互聯網用戶的異質性,必然導致他們在使用頻率、需求程度、技能水平、信息素養等方面存在不同程度的差異;同時,由于社會分工、知識結構、興趣愛好等方面的不同,決定了互聯網用戶不同的使用偏好。
有學者對2000年美國綜合社會調查(GSS)的數據進行分析后,發現在美國互聯網用戶中,受教育程度高、收入高、認知測試成績優異者更傾向于利用互聯網“累積資本”,而非單單為了娛樂。[13]對瑞士1997-2000年互聯網數據的研究也顯示,受教育程度高、收入高的用戶往往通過互聯網獲取有價值的信息,而社會經濟地位較低者則更多地把互聯網用于娛樂。[14]在中國的互聯網應用層面,城鄉網民在商務交易、支付、新聞資訊等使用率方面差異顯著。[12]
互聯網上有多種多樣的信息工具和平臺,但任何工具、平臺都不可能囊括全部用戶,它們都有自己的目標群體,這就意味著任何一種工具、平臺都是一個特定的數據子集。以在線社交平臺為例,據在線市場營銷咨詢機構智慧洞見(smartinsights.com)發布的《2017年全球社交媒體研究概要》顯示,截至2017年1月,臉書(facebook)已擁有18.71億活躍用戶,穩居全球社交媒體排行榜第一,有79%的美國成年網民使用它;臉書旗下的瓦次普(whats app)、臉書即時通(facebook messenger)分列第二、第三。[11]18.71億活躍用戶已經是一個相當驚人的數字,但也只占到全球網民的一半左右,某些國家的用戶,例如中國用戶,還特別少。
至于風靡我國的微信,社交用戶管理平臺奇智睿思(curiosity)根據騰訊所發布的數據制作的《2015微信用戶數據報告》顯示,截至2015年第一季度末,微信月活躍用戶達5.49億,范圍覆蓋200多個國家,使用語言超過20種[15];《2017微信用戶&生態研究報告》顯示,截至2016年12月,微信國內版與國際版(wechat)共有月活躍用戶數8.89億。[16]其中,中國用戶占有相當大的比例。
雖然臉書與微信的普及程度都很高,但二者能夠代表的用戶人群顯然不同。正如伊斯特·豪爾吉陶伊所言,“當大數據分析指向某特定社交網站或者服務項目時,該研究所能夠展現的僅僅是決定加入并已開始使用相應網站或者服務項目的群體的行為與觀點”,而“如果數據集中包含成千上萬的用戶的信息,就認定研究之結論可推而廣之,這可能是錯誤的,這取決于方法體系而非數據體量”。[17]
有些用戶群體(如成長于傳統媒體時代的中老年人),在網絡世界里的活躍度有限,他們往往是凱特·克勞福德所定義的“傾聽者”[18],主要瀏覽頁面,不更新狀態、不點贊、少與他人互動,存在感較弱。2011年,推特披露,約有40%的用戶登錄推特,目的只為傾聽。[19]
即便是活躍的用戶,其關注點亦相當分散,這包含兩層含義。其一,信息與某群體相關度越高,該群體的關注度就越高,在網絡中的反應更為強烈。例如2016年的問題疫苗事件,關注者最多的是年輕的母親。其二,興趣偏好不同的群體,關注的網站、平臺有所不同。德里克·魯茨與尤爾根·普費弗的研究表明,照片墻(instagram)主要受18~29歲的成人、非洲裔美國人、拉美后裔、婦女、城鎮居民的青睞;而品趣(pinterest)則更受25~34歲、年收入平均10萬美元的女性的歡迎。[20]全球網絡索引(global web index)2014年的數據顯示,閱后即焚(snapchat)最受年輕人的偏愛,其用戶群體中16~24歲者占57%,微信與湯博樂(tumblr)的這一數據分別為42%、39%,而在臉書和推特的用戶群體中,16~24歲、25~34歲、35~44歲者的比例均在25%左右,45~54歲、55~64歲者的占比相對略低。[11]《2015微信用戶數據報告》表明,微信用戶以男性為主,男性與女性用戶的占比分別為64.3%、35.7%,男女比例為1.8∶1。[15]
因此,與傳統的抽樣調查不同,基于社交媒體大數據的研究面對的是自我選擇樣本,即用戶自我決定是否成為樣本,這種樣本在很多情況下存在系統性偏差。[9]除此之外,垃圾賬戶現象亦值得注意。有些人擁有多個賬戶;有的賬戶是所謂的“機器賬戶”,這些賬戶由代碼控制,可自動發消息,常被用來發送廣告、交友等垃圾信息,其數據生成量一般很大,這些噪音也會對網絡大數據的代表性有所影響。
五、總結與展望
大數據時代,互聯網、移動互聯網、物聯網產生的海量數據為解決更多、更細的社會問題提供了可能。然而,認定大數據就是“總體數據”,認為目前社會科學研究可以全面開啟“全數據模式”時代的觀點,尚缺乏嚴謹的科學依據。一個明顯的事實是,經濟社會發展的不平衡現象將相當數量的人擋在了信息社會的大門之外,數字鴻溝的客觀存在使互聯網缺失了約半數人群的電子蹤跡;社會的結構性不平等、用戶群體的異質性、社會分工等因素導致數據生成方面的不均衡,等等,這些事實都還存在。因此,將網絡大數據用于社會科學研究,在很多情況下無法實現“樣本=總體”的目標,這是數據代表性問題無法回避的事實。正如丹·博伊德和凱特·克勞福德所說:“拋開特定數據集的代表性,只談其體量的大小毫無意義?!保?]
在大數據時代,社會科學傳統的抽樣調查方法并未終結。2017年4月24日,數據運營領域的翹楚——騰訊公司,其旗下的“企鵝智酷”公布了《2017微信用戶&生態研究報告》,亦專門針對用戶數據采樣進行了說明?!秷蟾妗贩Q,通過企鵝智酷網絡調研平臺采集到用戶調研樣本共19,511份,通過中國信息通信研究院采集到的用戶樣本為1,100份,采集到公眾號運營者樣本為9,018份。[16]甚至最具權威的中國互聯網絡信息中心,其歷次的《中國互聯網絡發展狀況統計報告》仍然采用計算機輔助、電話訪問的方法獲取抽樣數據。[12]這些情況說明,依目前的信息采集條件,所獲取的資料信息仍然是有限的,只能代表某些領域或某些方面。
其實,對于多數社會科學研究而言,網絡大數據并非完美的數據?!叭珨祿J健笔窍鄬τ诰唧w的研究任務而言的。例如,吉拉德·羅坦與艾爾哈特·格拉夫領銜的團隊對2011年突尼斯與埃及革命期間激進分子、博主、新聞記者、主流媒體及其他參與者在推特上的信息流進行了研究。他們使用了兩個相應的能夠覆蓋兩場革命時間段的推特數據集,整理出常在推特上的發聲者并將其歸類,然后具體分析這些信息是如何產生并在推特用戶網絡中擴散的。這是典型的對在特定時間段發生的特定事件中特定群體的網絡行為的研究,就此類研究而言,樣本具有很好的代表性。而就除此之外的多數情況而言,針對具體的研究任務,所能使用的大數據往往存在系統性偏差,如果不能矯正這些偏差(至少這在當前是極為困難的),那么,基于大數據的分析與預測就談不上多大的可靠性。[9]因此,研究者對此應有清醒的認識,尤其在運用某特定平臺的數據進行推理時,應了解研究的適用范圍,避開“代表性陷阱”的干擾。正如伊斯特·豪爾吉陶伊說:“大并不總意味著更好;當涉及數據集的時候,體量并非那么重要,大數據并不對偏誤免疫;在研究過程中,無論數據的大小,要根據其取樣框架來審慎推導結論?!?/p>
-
數據處理
+關注
關注
0文章
613瀏覽量
28603 -
大數據
+關注
關注
64文章
8904瀏覽量
137630
發布評論請先 登錄
相關推薦
評論