色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

社會(huì)計(jì)算結(jié)合大數(shù)據(jù)與人工智能算法解決社會(huì)問題

AI智勝未來 ? 來源:社會(huì)學(xué)研究雜志 ? 作者:周濤、高馨等 ? 2022-11-25 11:39 ? 次閱讀

社會(huì)計(jì)算(social computing)的方法論以社會(huì)科學(xué)理論為導(dǎo)引,并結(jié)合大數(shù)據(jù)與人工智能算法解決社會(huì)問題。本文從大量文獻(xiàn)中提煉出融合大數(shù)據(jù)與社會(huì)科學(xué)理論的五種研究類型:基于大數(shù)據(jù)的探索性研究、基于大數(shù)據(jù)的驗(yàn)證性研究、大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究、基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究和基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究。本文針對(duì)上述五種研究進(jìn)行了典型研究示例和若干相關(guān)研究成果展示。

一引言

社會(huì)科學(xué)家一般多關(guān)注因果和解釋性問題,計(jì)算機(jī)學(xué)家旨在提升預(yù)測(cè)模型準(zhǔn)確率。而隨著社會(huì)計(jì)算、計(jì)算社會(huì)學(xué)、計(jì)算社會(huì)科學(xué)等交叉學(xué)科的興起,關(guān)于“預(yù)測(cè)性和可解釋性不再是權(quán)衡和競(jìng)爭(zhēng),而是可以相互補(bǔ)充”的呼吁逐漸得到重視。2021年,霍夫曼(Jake Hofman)與瓦茨(Duncan Watts)等人在《自然》雜志上發(fā)文,依據(jù)可解釋性和預(yù)測(cè)性將計(jì)算社會(huì)科學(xué)的研究方法劃分到四個(gè)象限中:(1)描述性統(tǒng)計(jì);(2)因果研究;(3)預(yù)測(cè)模型與預(yù)測(cè)因子分析;(4)因果與預(yù)測(cè)整合的研究(Hofman et al.,2021)。其中,第一象限與第三象限是數(shù)據(jù)驅(qū)動(dòng)的探索性研究,第二象限是理論驅(qū)動(dòng)的驗(yàn)證性研究,第四象限則是探索性和驗(yàn)證性結(jié)合的研究。本文以電子印跡大數(shù)據(jù)、整合的大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)、大型互聯(lián)網(wǎng)實(shí)驗(yàn)數(shù)據(jù)這三種數(shù)據(jù)來源為基礎(chǔ),結(jié)合單獨(dú)或者整合的探索性和驗(yàn)證性研究方法,為這一領(lǐng)域的方法論做出系統(tǒng)的梳理和詳細(xì)的案例展示。

大數(shù)據(jù)及其分析方法的出現(xiàn)推動(dòng)了社會(huì)科學(xué)研究新范式的涌現(xiàn)。傳統(tǒng)社會(huì)科學(xué)定量研究中,問卷數(shù)據(jù)存在樣本規(guī)模小(蘭德爾、馬科夫斯基,2006)、失真(Fisher,1993)和系統(tǒng)誤差等問題。而獲得更準(zhǔn)確且更大規(guī)模的數(shù)據(jù),如經(jīng)濟(jì)社會(huì)普查數(shù)據(jù)的成本極高,同時(shí),這類數(shù)據(jù)通常時(shí)效性也較差(高見、周濤,2016;Einav & Levin,2014)。

大量非結(jié)構(gòu)化電子印跡數(shù)據(jù)(如網(wǎng)頁搜索、社交網(wǎng)絡(luò)互動(dòng)內(nèi)容、衛(wèi)星遙感、視頻圖像、移動(dòng)通信、社交媒體等)的記錄和積累為社會(huì)科學(xué)研究者帶來了前所未有的重大機(jī)會(huì)和挑戰(zhàn)(舍恩伯格、庫(kù)克耶,2013)。一方面,這些非結(jié)構(gòu)化數(shù)據(jù)具有規(guī)模更大、實(shí)時(shí)性更強(qiáng)、精度更高的特點(diǎn)。因此,非結(jié)構(gòu)化大數(shù)據(jù)的使用既可以降低小樣本數(shù)據(jù)的稀疏性和偏差度,又可以增加社會(huì)現(xiàn)象動(dòng)態(tài)發(fā)展過程的可見度,更好地描述社會(huì)經(jīng)濟(jì)發(fā)展態(tài)勢(shì)。另一方面,理解和分析這類海量的非結(jié)構(gòu)化數(shù)據(jù),需要前沿的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)力學(xué)方法,這對(duì)以統(tǒng)計(jì)分析為主要工具的傳統(tǒng)社會(huì)科學(xué)研究者提出了挑戰(zhàn)。

近年來,大批計(jì)算機(jī)科學(xué)家和物理學(xué)家與社會(huì)科學(xué)家形成深度合作,旨在共同應(yīng)對(duì)社會(huì)治理和預(yù)測(cè)問題,積極應(yīng)對(duì)上述傳統(tǒng)統(tǒng)計(jì)分析方法面臨的挑戰(zhàn)并提供了一些解決方案。這些具有交叉學(xué)科性質(zhì)的學(xué)者一同提出了若干新的研究分支,包括計(jì)算社會(huì)科學(xué)(Lazer et al.,2009;Shah et al.,2015)、計(jì)算社會(huì)經(jīng)濟(jì)學(xué)(Gao et al.,2019;Zhou,2021)、社會(huì)計(jì)算(Wang et al.,2007;孟小峰等,2013;Evans et al.,2020;Evans,2020),等等。盡管這些研究分支的提法各有不同,但這些涌現(xiàn)出來的新研究分支具有明顯的共性,即都是基于大數(shù)據(jù),運(yùn)用統(tǒng)計(jì)力學(xué)、動(dòng)態(tài)建模和人工智能等方法和技術(shù),來獲得對(duì)社會(huì)現(xiàn)象和規(guī)律更精準(zhǔn)的刻畫,并提出科學(xué)解釋。需要注意的是,與傳統(tǒng)社會(huì)科學(xué)相比,二者之間的區(qū)別主要體現(xiàn)在研究方法的發(fā)展上,而非研究問題本身。新研究分支雖然只是在研究方法和數(shù)據(jù)上有所發(fā)展,卻在解決重要社會(huì)問題上創(chuàng)生出巨大價(jià)值。概括來說,這些研究在與理論的對(duì)話過程中往往基于大量新數(shù)據(jù)來應(yīng)用新方法,從而獲得有社會(huì)科學(xué)理論觀照的新發(fā)現(xiàn),因此,筆者將這些研究統(tǒng)稱為“社會(huì)計(jì)算(social computing)驅(qū)動(dòng)的社會(huì)科學(xué)研究”。

國(guó)內(nèi)關(guān)于社會(huì)計(jì)算研究的綜述性文章,主要從數(shù)據(jù)、方法、工具或具體引入某一 方法形成的新研究范式等方面展開闡述。其中包括羅瑋和羅教講(2015)基于2014年美國(guó)社會(huì)學(xué)年會(huì)“新計(jì)算社會(huì)學(xué)”討論會(huì)以及相關(guān)文獻(xiàn),將計(jì)算社會(huì)學(xué)相關(guān)內(nèi)容劃分為“大數(shù)據(jù)的獲取與分析、質(zhì)性研究與定量研究的融合、互聯(lián)網(wǎng)社會(huì)實(shí)驗(yàn)研究、計(jì)算機(jī)模擬研究和新型社會(huì)計(jì)算工具的研制與開發(fā)”這五類,主要從數(shù)據(jù)、方法和工具來做闡釋,將這三個(gè)方面視為計(jì)算社會(huì)科學(xué)研究所需要的“原料”。陳云松等人(2020)則以瓦茨在2014年《美國(guó)社會(huì)學(xué)雜志》(American Journal of Sociology)上對(duì)社會(huì)科學(xué)家只重視可解釋性而忽略預(yù)測(cè)性的批評(píng)為基礎(chǔ),重點(diǎn)介紹基于機(jī)器學(xué)習(xí)的方法為社會(huì)計(jì)算研究帶來的新研究范式。胡安寧等人(2021)從研究方法層面介紹了機(jī)器學(xué)習(xí)模型在處理個(gè)體效應(yīng)異質(zhì)性中存在的優(yōu)勢(shì)。羅家德等人(2018,2021)主要從方法論層面闡述了理論、數(shù)據(jù)挖掘結(jié)果和預(yù)測(cè)模型間的動(dòng)態(tài)三角對(duì)話的研究范式。

本文主旨是針對(duì)具體的研究問題,闡述如何使用和整合對(duì)應(yīng)的社會(huì)科學(xué)理論、新數(shù)據(jù)和新方法來獲得新發(fā)現(xiàn)、驗(yàn)證或修正理論,為相關(guān)研究者對(duì)上述不同要素進(jìn)行組合、銜接和取舍以形成完整研究提供參考和定位。因此,我們從方法論角度作綜合梳理,輔以具體案例展示,提出社會(huì)計(jì)算驅(qū)動(dòng)的五類社會(huì)科學(xué)研究,分別是:(1)基于大數(shù)據(jù)的探索性研究;(2)基于大數(shù)據(jù)的驗(yàn)證性研究;(3)大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究;(4)基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究;(5)基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究。這五種方法論的提煉是筆者以薩爾加尼克(Matthew Salganik)基于大數(shù)據(jù)和調(diào)查數(shù)據(jù)提出的擴(kuò)充型提問(擴(kuò)展研究變量和議題)和豐富型提問(整合少數(shù)人的調(diào)查數(shù)據(jù)與大量研究對(duì)象的大數(shù)據(jù))兩種方法論(Salganik,2017)為基礎(chǔ),結(jié)合上述霍夫曼與瓦茨等人(Hofman et al.,2021)在《自然》雜志上提出四象限研究,進(jìn)一步提煉得出的分類。在本文的劃分依據(jù)下,第三類大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性或驗(yàn)證性研究以及第五類基于大數(shù)據(jù)(或結(jié)合結(jié)構(gòu)化數(shù)據(jù))先探索后驗(yàn)證的整合研究尤其反映了薩爾加尼克(Salganik,2017)以及霍夫曼與瓦茨等人(Hofman et al.,2021)的方法論關(guān)切,展現(xiàn)了近年來的重要發(fā)展,標(biāo)示著社會(huì)科學(xué)理論和社會(huì)計(jì)算方法在進(jìn)一步深度整合。

這五大方法論劃分所強(qiáng)調(diào)的核心內(nèi)容包括以下三點(diǎn)。

第一,社會(huì)計(jì)算不是計(jì)算機(jī)科學(xué)(computer science)和社會(huì)數(shù)據(jù)(social data)的簡(jiǎn)單疊加,而是方法論層面的革新。社會(huì)計(jì)算扎根社會(huì)現(xiàn)實(shí)問題,解釋和聯(lián)系社會(huì)科學(xué)理論。

第二,五種方法論主要從該類研究所關(guān)注和解決的社會(huì)科學(xué)理論問題出發(fā),以社會(huì)科學(xué)研究中對(duì)理論問題的探索性、驗(yàn)證性以及探索和驗(yàn)證的整合研究來劃分。

第三,圍繞所對(duì)話的理論或研究問題,社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究的數(shù)據(jù)來源主要包括直接獲得的電子印跡數(shù)據(jù)、電子印跡數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的結(jié)合,或是大規(guī)模網(wǎng)絡(luò)實(shí)驗(yàn)數(shù)據(jù)。

綜上所述,五種研究方法論以社會(huì)科學(xué)的問題意識(shí)為核心,以不同數(shù)據(jù)來源為基礎(chǔ),組織不同測(cè)量、分析方法和模型來解決問題。上述要素綜合形成五種差異化的方法論演進(jìn)路線。在提出上述方法論的“骨架”后,本文在每個(gè)方法論闡述下凝練和舉出一個(gè)典型的案例,并簡(jiǎn)要介紹若干其他有代表性的案例,通過實(shí)例化的方式展現(xiàn)五種方法論下的具體的研究步驟和范式。

二基于大數(shù)據(jù)的探索性研究

以往社會(huì)科學(xué)研究的數(shù)據(jù)往往來自問卷調(diào)查和控制實(shí)驗(yàn),存在數(shù)據(jù)樣本數(shù)量少、主觀性高的問題。此外,當(dāng)知曉自己是調(diào)查對(duì)象或?qū)嶒?yàn)對(duì)象,受訪者會(huì)傾向于給出更易被社會(huì)接受的答案,而非真實(shí)的答案(Fisher,1993)。本文強(qiáng)調(diào)的電子化印跡數(shù)據(jù)是在研究對(duì)象不知情的情況下在現(xiàn)實(shí)生活中記錄形成的,因此叫做自然數(shù)據(jù)。這類數(shù)據(jù)具有細(xì)粒度、大規(guī)模、強(qiáng)時(shí)序性的特點(diǎn),因此,在開展大數(shù)據(jù)的探索性研究過程中發(fā)揮了重要作用。

大數(shù)據(jù)的探索性研究可以用于分析失業(yè)情況和職場(chǎng)發(fā)展。在無干預(yù)的情況下,筆者通過分析企業(yè)員工在內(nèi)部辦公系統(tǒng)中留下的記錄,發(fā)現(xiàn)員工在辦公系統(tǒng)中的活躍程度,特別是通過回溯員工間在辦公系統(tǒng)發(fā)布任務(wù)、領(lǐng)取任務(wù)、上傳、分享和下載文件等行為形成的互動(dòng)關(guān)系,和該員工接下來一年之內(nèi)的晉升或者離職有顯著關(guān)系(張琳艷等,2015;Yuan et al.,2015)。自然數(shù)據(jù)還可以用來定量刻畫兩性不平等的程度。筆者通過分析互聯(lián)網(wǎng)求職者的簡(jiǎn)歷數(shù)據(jù),發(fā)現(xiàn)平均而言女性要比男性多讀一個(gè)學(xué)位或者多工作5年才能獲得和男性一樣的預(yù)期收入(Yang et al.,2018;王軍等,2019)。

以下,筆者通過一個(gè)宗教隔離的研究案例(Hu et al.,2019)來詳細(xì)展示如何采集和分析自然數(shù)據(jù),并得到有價(jià)值的結(jié)論。宗教在人類文化中扮演著重要角色,宗教信仰有正面的價(jià)值,例如促進(jìn)人類的合作(Purzycki et al.,2016)、提高生活的滿意度(Lim & Putnam,2010)以及精神和身體健康水平(Koenig et al.,2001),等等。與此同時(shí),因?yàn)椴煌诮讨g可能存在信仰內(nèi)容和觀念形態(tài)的差異,宗教之間會(huì)出現(xiàn)隔離現(xiàn)象,而這種現(xiàn)象對(duì)于文化演進(jìn)、經(jīng)濟(jì)發(fā)展和政治制度往往存在負(fù)面的影響(Atran & Jeremy,2012)。

筆者利用微博的公開數(shù)據(jù)分析宗教信徒之間形成的在線社交關(guān)系,觀察這種社交關(guān)系中不同宗教之間是否存在隔離現(xiàn)象。為了從微博用戶中把有宗教信仰的用戶找出來,筆者先建立了一個(gè)宗教相關(guān)關(guān)鍵詞的列表,該詞表覆蓋了最常見的一些和宗教相關(guān)的詞語。筆者在微博用戶的自我介紹、標(biāo)簽和昵稱中搜索這些關(guān)鍵詞,發(fā)現(xiàn)170000多用戶包含了詞表中至少一個(gè)關(guān)鍵詞,有9000多用戶包含了至少兩個(gè)關(guān)鍵詞。筆者所在的研究團(tuán)隊(duì)人工標(biāo)注了這9000多用戶,確認(rèn)其中6875名是有特定宗教信仰的用戶,分別屬于佛教、基督教、道教、伊斯蘭教中的一類。隨后,根據(jù)這些用戶之間的關(guān)注行為形成宗教關(guān)注網(wǎng)絡(luò)。通過對(duì)這一特殊社交網(wǎng)絡(luò)的探索性分析,筆者得到以下四個(gè)主要的發(fā)現(xiàn)。

第一,不同宗教之間的社交隔離非常嚴(yán)重。事實(shí)上,98.4%的微博關(guān)注關(guān)系出現(xiàn)在兩個(gè)信仰同一宗教的用戶間,而只有1.6%的連邊跨越不同宗教。筆者使用“同配系數(shù)”(assortative coefficient)(Newman,2003)來比較不同類別節(jié)點(diǎn)間連邊的比例與隨機(jī)化的網(wǎng)絡(luò)相應(yīng)連邊的比例,以刻畫不同類別節(jié)點(diǎn)之間的隔離程度。最終得到同配系數(shù)r=0.973(r取值的區(qū)間是[-1,1],r=1時(shí)表示完全隔離)。該結(jié)果說明不同宗教之間的社交隔離非常嚴(yán)重。筆者還計(jì)算了很多其他測(cè)量隔離程度的指數(shù),包括E-I指數(shù)(Krackhardt & Stern,1988)、Gupta-Anderson-May指數(shù)(Gupta et al.,1989)、優(yōu)勢(shì)比(Moody,2001)等,結(jié)論均相同。

第二,跨越宗教的連邊對(duì)于維持整體網(wǎng)絡(luò)的連通性起到了決定性的作用。社交網(wǎng)絡(luò)是一種典型的具有交換和傳播信息功能的網(wǎng)絡(luò),對(duì)于這類網(wǎng)絡(luò)而言,連通性是非常重要的性質(zhì)。要判斷連邊對(duì)于維持網(wǎng)絡(luò)連通性的作用大小,最通常的辦法是比較去掉這些連邊前后的網(wǎng)絡(luò)連通性的差異(Li et al.,2021)。筆者對(duì)比了移除不同類型的連邊前后網(wǎng)絡(luò)的連通性,發(fā)現(xiàn)相比于其他算法篩選的連邊,移除跨宗教連邊后網(wǎng)絡(luò)連通性下降得最多,說明跨宗教連邊在維持網(wǎng)絡(luò)連通性方面所起到的作用比通過其他算法篩選出來的邊都要顯著得多。

第三,在中國(guó),信仰不同宗教的微博用戶中,佛教徒最具開放性。在排除了不同教派人數(shù)差異的影響后,筆者發(fā)現(xiàn),平均而言佛教徒關(guān)注其他宗教信徒或被其他宗教信徒關(guān)注的可能性都要更大。

第四,所有的跨宗教連邊中約一半都和慈善有關(guān)。筆者發(fā)現(xiàn),在所有被分析的6875個(gè)用戶中,有309個(gè)用戶至少吸引了一個(gè)其他宗教信仰者的關(guān)注。其中有33個(gè)屬于主要發(fā)布慈善活動(dòng)消息和新聞的用戶。在這33個(gè)用戶中,有15人曾因?yàn)榇壬苹顒?dòng)被媒體報(bào)道過,有12人在微博標(biāo)簽中有“慈善家”這一標(biāo)簽。雖然這33個(gè)慈善用戶只占了所有用戶中的0.48%,但卻吸引了46.7%的跨宗教連邊,可見慈善是增加宗教間溝通的可能切入點(diǎn)。

社會(huì)計(jì)算科學(xué)驅(qū)動(dòng)的探索性研究從數(shù)據(jù)挖掘(data mining)出發(fā),在得到一些指標(biāo)值與行為規(guī)律的發(fā)現(xiàn)后,不能止步于此,還需要與現(xiàn)有理論對(duì)話并進(jìn)行詮釋,從而可以提出命題,以豐富、修正舊理論或發(fā)展新理論。接下來,筆者將繼續(xù)展示如何根據(jù)上述探索研究中發(fā)現(xiàn)的指標(biāo)和行為規(guī)律與宗教研究的相關(guān)理論進(jìn)行對(duì)話,對(duì)探索結(jié)果做出詮釋并提出理論命題。

根據(jù)案例研究問題和重要發(fā)現(xiàn),本研究問題與齊美爾提出的“社會(huì)距離”展開了對(duì)話。這個(gè)概念主要表征“個(gè)體之間、群體之間或者個(gè)體與群體之間的相互作用和分離程度”(孔建勛、張曉倩,2017:76)。美國(guó)芝加哥學(xué)派社會(huì)學(xué)家帕克認(rèn)為“社會(huì)距離是用以描述人際、社會(huì)關(guān)系的狀態(tài),表征相互理解和親密的程度的概念”(Park,1924;孔建勛、張曉倩,2017:77)。博格達(dá)斯(Emory Bogardus)開發(fā)了社會(huì)距離測(cè)量量表,主要用于研究種族之間的隔離(Bogardus,1925)。已有的一些宗教理論揭示了宗教之間由于受到歷史、宗教文化、利益和資源分配失衡以及各國(guó)“政教分離”政策的實(shí)施等影響,最終導(dǎo)致宗教去中心化,造成多元文化沖突(亨廷頓,2013;Nataraj,1965)。上述發(fā)現(xiàn)一、二證實(shí)了在中國(guó)情境下宗教分離現(xiàn)象的存在,并測(cè)量了分離程度。

回顧中國(guó)情境下的宗教研究,佛教非排他性的宗教觀(薛克翹,2006)解釋了發(fā)現(xiàn)三中佛教徒更有可能關(guān)注其他宗教信仰的人的結(jié)果。另外,社會(huì)規(guī)范理論強(qiáng)調(diào)社會(huì)整體對(duì)于宗教的態(tài)度會(huì)影響信徒的幸福感(Eichhorn, 2011;Stavrova et al., 2013)。在中國(guó)傳統(tǒng)宗教中,由于佛教是溝通中國(guó)大陸與東亞、南亞、臺(tái)灣地區(qū)和香港地區(qū)的重要載體(Ji,2011;Laliberté,2011),因此受到更多的重視和認(rèn)同,例如開展世界性的佛教論壇等(Lu & Gao,2017)。因此,在中國(guó)佛教徒的幸福感水平極大可能高于其他宗教信徒。

關(guān)于發(fā)現(xiàn)四,信徒參加宗教活動(dòng)以及個(gè)人宗教身份的認(rèn)同可以提升其幸福感(Ritter et al.,2014),當(dāng)幸福感提升后,這些信徒可能更愿意關(guān)注社會(huì)慈善等事務(wù),同時(shí)也有更大可能關(guān)注其他宗教信仰的人。因此,跨宗教連邊大多與慈善相關(guān)。

綜上,在上述理論詮釋的基礎(chǔ)上,關(guān)于發(fā)現(xiàn)三、四的解釋還需要因果關(guān)系的進(jìn)一步驗(yàn)證,由此我們提出以下命題,以期在后續(xù)研究中把幸福感視作中介變量來解釋宗教身份認(rèn)同與參與慈善活動(dòng)和關(guān)注其他宗教群體的因果關(guān)系。

命題1:個(gè)人宗教身份的認(rèn)同和參加宗教活動(dòng)可以提升信徒的幸福感,使信徒愿意關(guān)注社會(huì)慈善。

命題2:個(gè)人宗教身份的認(rèn)同和參加宗教活動(dòng)可以提升信徒的幸福感,使信徒愿意和其他宗教群體個(gè)人產(chǎn)生聯(lián)系。

上述基于微博大數(shù)據(jù)的探索性研究雖然簡(jiǎn)單,但卻是第一次定量化地在中國(guó)的互聯(lián)網(wǎng)環(huán)境中測(cè)量了宗教隔離的程度。同時(shí),在方法上可以讓讀者觀察到如何利用自然數(shù)據(jù)對(duì)宗教和相關(guān)社會(huì)問題進(jìn)行探索性研究,展示了從收集數(shù)據(jù)、指標(biāo)計(jì)算、數(shù)據(jù)挖掘、發(fā)現(xiàn)行為規(guī)律、對(duì)話理論做出詮釋、提出后續(xù)有待驗(yàn)證的命題的過程。

探索性研究一般到發(fā)現(xiàn)和詮釋為止,而這里提出命題旨在展示如何在探索和理論對(duì)話中啟發(fā)后續(xù)更多因果關(guān)系的驗(yàn)證,從而形成理論上的推論,而非僅僅止步于社會(huì)事實(shí)的發(fā)現(xiàn)。綜上所述,以電子印跡大數(shù)據(jù)為基礎(chǔ)的探索性研究對(duì)于理論的意義主要包括如下兩點(diǎn)。第一,可以使用大規(guī)模(甚至是全樣本)、細(xì)粒度、無干預(yù)的數(shù)據(jù)為理論提供新的測(cè)量方法和工具,定量化、科學(xué)化地揭示社會(huì)規(guī)律和事實(shí)。第二,在探索普遍性規(guī)律及變量之間可能的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,啟發(fā)理論上基于因果機(jī)制的發(fā)現(xiàn)、提出命題,助益于后續(xù)更嚴(yán)格的建模和驗(yàn)證。

三基于大數(shù)據(jù)的驗(yàn)證性研究

目前大多數(shù)社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究所得到的實(shí)際上只是描述與關(guān)聯(lián)關(guān)系,用這種關(guān)聯(lián)關(guān)系直接對(duì)社會(huì)現(xiàn)象進(jìn)行解釋是不可靠的,因?yàn)槌浞值慕忉尡仨毥⒃谝蚬P(guān)系的前提下。瓦茨曾分析了若干社會(huì)科學(xué)研究論文,指出大量的研究都把可解釋性和因果性混為一談,同時(shí)他對(duì)因果關(guān)系的驗(yàn)證也提出了更高的要求,即如果變量之間存在因果關(guān)系,那么同時(shí)應(yīng)具備高預(yù)測(cè)性,從而更好地用于政策干預(yù)(Watts,2014)。得益于大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,預(yù)測(cè)的效果被越來越多地用于結(jié)合因果計(jì)量模型,以共同驗(yàn)證社會(huì)科學(xué)的理論假設(shè),從而彌補(bǔ)了單單使用預(yù)測(cè)模型無法真正證明或者證偽理論假設(shè)的缺陷。事實(shí)上,關(guān)聯(lián)關(guān)系也可以用于預(yù)測(cè),所以預(yù)測(cè)精度高對(duì)于因果關(guān)系的存在是必要而非充分的(Hempel & Oppenheim,1948)。另外,應(yīng)用預(yù)測(cè)方法也有很多局限性(Jasny & Stone,2017;周濤,2017)。因此,筆者倡導(dǎo)在使用預(yù)測(cè)模型得到結(jié)果后,仍需要結(jié)合可解釋人工智能方法,如SHAP(shapley additive explanations)(Lundberg & Lee,2017)等做出理論詮釋,進(jìn)一步通過假設(shè)演繹、使用因果模型/實(shí)驗(yàn)來做驗(yàn)證——這樣才是具有說服力的社會(huì)計(jì)算研究方法。

下面著重介紹一個(gè)基于高校學(xué)生校園行為的大數(shù)據(jù)研究學(xué)生行為和成績(jī)之間關(guān)系的案例(Cao et al.,2017)。回顧相關(guān)理論和實(shí)證研究。第一,生活規(guī)律的學(xué)生往往有更好的自控能力,而自控能力和成績(jī)表現(xiàn)是正相關(guān)的(Poropat,2009)。第二,更規(guī)律的生活,例如規(guī)律地吃飯、打熱水、洗澡等活動(dòng),往往意味著更好的健康狀況,而健康狀況與學(xué)生表現(xiàn)有直接的關(guān)系(Santana et al.,2017;Hoffmann et al.,2018)。實(shí)證表明,規(guī)律的吃飯行為與學(xué)業(yè)表現(xiàn)具有很強(qiáng)的相關(guān)性(Valladares et al.,2016)。尤其是吃早餐對(duì)于學(xué)生的認(rèn)知能力、心理健康和幸福感具有正向的影響。第三,社會(huì)發(fā)展理論表明學(xué)生習(xí)得行為就是來自其在社會(huì)化過程中個(gè)體行為以及與他人互動(dòng)的一致性(Catalano et al.,2009),因此有規(guī)律的生活有助于個(gè)體的發(fā)展和增強(qiáng)其學(xué)校連結(jié)(school conneetedness)。而且,已有研究顯示,較強(qiáng)的學(xué)校連結(jié)有利于學(xué)生的健康,可以提高其學(xué)業(yè)表現(xiàn)(Basch,2011;Sampasa-Kanyinga & Hamilton,2017)。

因此我們形成了一個(gè)理論假設(shè):有規(guī)律的生活會(huì)正向影響學(xué)生成績(jī)。

筆者及其研究小組分析了中國(guó)某大學(xué)校園一卡通中18960名本科生的匿名數(shù)據(jù),覆蓋了五個(gè)學(xué)期,包括3380567次洗澡、20060881次吃飯、3466020次進(jìn)出圖書館和2305311次在教學(xué)樓打水的記錄等——這些也是第二部分強(qiáng)調(diào)的“自然數(shù)據(jù)”。筆者通過計(jì)算學(xué)生洗澡和吃飯時(shí)間的真實(shí)熵來定量刻畫生活的規(guī)律性。之所以采用真實(shí)熵而非香農(nóng)熵,是因?yàn)楹饬繉W(xué)生吃飯是否規(guī)律不僅要看時(shí)間分布是否集中,還要看是否有序,比如吃了早餐吃中餐再吃晚餐,第二天同樣吃早餐、中餐、晚餐,這是有規(guī)律的。而如果第一天吃了早餐不吃中餐,直接吃晚餐,第二天不吃早餐,吃中餐和晚餐,規(guī)律性相較于第一種情況有所降低。筆者用真實(shí)熵來度量集中度和周期性(Song et al.,2010;Xu et al.,2019),最終證明了假設(shè),即生活規(guī)律的程度和學(xué)生學(xué)習(xí)成績(jī)顯著相關(guān)(Cao et al.,2017)。

為排除其他因素的影響,筆者同時(shí)控制了其他行為指數(shù)(例如努力程度)對(duì)上述相關(guān)關(guān)系的影響,同時(shí)控制了單純的學(xué)生行為數(shù)據(jù)等變量,最終得到生活規(guī)律性仍然對(duì)學(xué)習(xí)成績(jī)有顯著影響并且可以顯著提升預(yù)測(cè)準(zhǔn)確率(Cao et al.,2019;Yao et al.,2019)。因此本案例展示從理論對(duì)話、提出假設(shè)、驗(yàn)證假設(shè)、穩(wěn)健性檢驗(yàn)的驗(yàn)證性研究過程,這一方法論已經(jīng)廣泛用于社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究的方方面面,例如對(duì)勞動(dòng)力市場(chǎng)的分析(張琳艷等,2015;Yuan et al.,2015)和家庭財(cái)富情況的分析(Blumenstock et al.,2015)等。

此外,大數(shù)據(jù)結(jié)合網(wǎng)絡(luò)動(dòng)態(tài)模型可以為探索復(fù)雜系統(tǒng)理論的動(dòng)態(tài)演化機(jī)制提供解決方案。風(fēng)險(xiǎn)投資領(lǐng)域普遍存在的聯(lián)合投資現(xiàn)象可以給投資者帶來更廣闊的市場(chǎng)機(jī)會(huì)(Hochberg et al.,2010)和更高的市場(chǎng)聲望(Poldolny,2001;Milanov & Shephere,2013),幫助其抵御不確定的市場(chǎng)環(huán)境和投資風(fēng)險(xiǎn)。中國(guó)風(fēng)險(xiǎn)聯(lián)合投資中存在“主投—跟投”的現(xiàn)象,這些“主投”機(jī)構(gòu)一般為產(chǎn)業(yè)領(lǐng)袖。產(chǎn)業(yè)領(lǐng)袖會(huì)建立自己的圈子,圈子中存在其他跟投機(jī)構(gòu),這些產(chǎn)業(yè)領(lǐng)袖同時(shí)充當(dāng)著溝通不同圈子的“橋”的角色,導(dǎo)致小世界網(wǎng)絡(luò)結(jié)構(gòu)的形成。但不同圈子的其他跟隨者之間則存在很少的聯(lián)系,因此,這些產(chǎn)業(yè)領(lǐng)袖之間形成了一個(gè)互相聯(lián)系緊密的“精英俱樂部”。筆者對(duì)中國(guó)2000年到2013年風(fēng)險(xiǎn)投資產(chǎn)業(yè)投資事件進(jìn)行整理,將兩個(gè)機(jī)構(gòu)在同一時(shí)間投資同一家公司的行為視為一次聯(lián)合投資,從而形成整個(gè)風(fēng)險(xiǎn)投資產(chǎn)業(yè)的聯(lián)合投資網(wǎng)絡(luò)(Gu et al.,2019)。筆者基于社會(huì)網(wǎng)理論中伙伴選擇機(jī)制(partner-selection mechanism)和嵌入性理論(embedding theory)建立關(guān)于聯(lián)合投資網(wǎng)絡(luò)兩種嵌入性的合作策略——關(guān)系性嵌入和結(jié)構(gòu)性嵌入的假設(shè)(Granovetter,2017),使用基于多主體建模的方法,從網(wǎng)絡(luò)的初始情況出發(fā),預(yù)測(cè)網(wǎng)絡(luò)發(fā)展演化的過程。在與真實(shí)風(fēng)險(xiǎn)投資網(wǎng)數(shù)據(jù)對(duì)比后發(fā)現(xiàn),與隨機(jī)選擇模型相比,這兩個(gè)機(jī)制下的模擬模型在全局和局部網(wǎng)絡(luò)特征方面更接近真實(shí)的風(fēng)險(xiǎn)聯(lián)合投資網(wǎng)絡(luò),并隨時(shí)間變化,逐漸涌現(xiàn)出“精英俱樂部型小世界網(wǎng)絡(luò)”的結(jié)構(gòu)。該研究從大數(shù)據(jù)與基于多主體的模型為中國(guó)風(fēng)險(xiǎn)投資聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)的涌現(xiàn)提供了理論上的解釋,屬于驗(yàn)證性研究,而過去調(diào)查問卷幾乎不可能收集這類長(zhǎng)時(shí)段、多時(shí)間戳、全產(chǎn)業(yè)的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)。由于大數(shù)據(jù)的積累,這類動(dòng)態(tài)演化的問題才可以得到解釋。

在社會(huì)計(jì)算驅(qū)動(dòng)的驗(yàn)證性研究中,無論是預(yù)測(cè)模型還是模擬模型,強(qiáng)調(diào)的都是使用大數(shù)據(jù)、利用因果模型或者理論指導(dǎo)下的模擬模型來驗(yàn)證因果關(guān)系和理論機(jī)制,最終獲得變量間因果關(guān)系上的可解釋性。

四大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合下的探索性研究

非結(jié)構(gòu)化大數(shù)據(jù)不能取代傳統(tǒng)的問卷調(diào)查或是檔案數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)。這兩類數(shù)據(jù)的整合一方面可以測(cè)量更豐富的理論構(gòu)念,增強(qiáng)理論發(fā)展、修正和探索,另一方面可以增強(qiáng)社會(huì)預(yù)測(cè),助力社會(huì)治理,解決單一數(shù)據(jù)源不能解決的問題。

大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)整合可以推斷更多較難獲得的調(diào)查數(shù)據(jù)。大數(shù)據(jù)技術(shù)的發(fā)展讓我們有機(jī)會(huì)采集和處理與一個(gè)國(guó)家總?cè)丝谝?guī)模相當(dāng)(同一數(shù)量級(jí))的數(shù)據(jù),例如Facebook、Twitter、微信、微博等社交媒體和智能手機(jī)覆蓋總?cè)丝谥姓紦?jù)相當(dāng)比例的用戶。因此,這類數(shù)據(jù)不再被看作是人口數(shù)據(jù)的一個(gè)小規(guī)模抽樣,而是可以直接表達(dá)總體的統(tǒng)計(jì)性質(zhì)。一方面,獲得這些大數(shù)據(jù)的成本遠(yuǎn)遠(yuǎn)低于經(jīng)濟(jì)或人口普查,但另一方面,這些在社交媒體和手機(jī)通信中表現(xiàn)出來的行為本身往往不能直接回答我們亟須了解的有關(guān)家庭收入、就業(yè)情況、身心健康等重要社會(huì)問題。

將社交媒體和手機(jī)通信大數(shù)據(jù)與部分社會(huì)調(diào)查數(shù)據(jù)相結(jié)合,可以為上述難題提供可行的解決方案。例如,當(dāng)我們需要分析大量個(gè)體的家庭收入時(shí),就會(huì)面臨以下兩個(gè)方面的困難:一是很多較貧困的國(guó)家和地區(qū)不進(jìn)行全民經(jīng)濟(jì)普查,二是這類數(shù)據(jù)往往不輕易向科研機(jī)構(gòu)開放。在這種情況下,一方面,我們可以利用傳統(tǒng)問卷調(diào)查的方式獲得少量家庭收入的調(diào)查數(shù)據(jù),由于這部分?jǐn)?shù)據(jù)和研究問題非常相關(guān)且獲得成本較高,我們不妨稱其為“難獲得的直接數(shù)據(jù)”。另一方面,大量社交媒體和手機(jī)通信大數(shù)據(jù)可稱為“易獲得的間接數(shù)據(jù)”。當(dāng)二者結(jié)合,我們將“難獲得的直接數(shù)據(jù)” 作為扎根真相(ground truth),利用機(jī)器學(xué)習(xí)的方法,建立通過“易獲得的間接數(shù)據(jù)”來預(yù)測(cè)扎根真相的模型。先基于這些少量樣本訓(xùn)練優(yōu)化模型,待達(dá)到相當(dāng)精確度后,原則上就可以推論出所有“易獲得的間接數(shù)據(jù)”樣本的“難獲得的直接數(shù)據(jù)”,如使用社交媒體或智能手機(jī)用戶的家庭收入。盡管預(yù)測(cè)得到的數(shù)據(jù)不完全準(zhǔn)確,但是其精確度對(duì)于分析宏觀問題往往是足夠的。

布盧門施托克(Joshua Blumenstock)等人利用上述方法嘗試?yán)L制了盧旺達(dá)全國(guó)范圍的財(cái)富分布情況并識(shí)別最貧困的人口(Blumenstock et al.,2015;Blumenstock,2016;Steele et al.,2017)。通過和運(yùn)營(yíng)商合作,該研究團(tuán)隊(duì)可以分析匿名處理后的盧旺達(dá)150萬手機(jī)用戶數(shù)十億次電話和短信的頻率數(shù)據(jù)。他們?cè)诒R旺達(dá)手機(jī)用戶中招募了856名志愿者,收集了這些人非常詳細(xì)的社會(huì)經(jīng)濟(jì)狀況的問卷調(diào)查數(shù)據(jù),內(nèi)容包括財(cái)產(chǎn)所有權(quán)、住宅特征、福利情況,等等。根據(jù)這些志愿者每人平均數(shù)千次電話和短信記錄,建立了機(jī)器學(xué)習(xí)模型,可以利用志愿者的手機(jī)記錄預(yù)測(cè)他們的財(cái)富指數(shù),預(yù)測(cè)得到的財(cái)富指數(shù)和真實(shí)財(cái)富指數(shù)之間的皮爾遜相關(guān)系數(shù)高達(dá)0.68。盡管預(yù)測(cè)數(shù)值和真實(shí)數(shù)值還存在不小的偏差,但這個(gè)預(yù)測(cè)模型能夠通過手機(jī)數(shù)據(jù)估計(jì)150萬盧旺達(dá)家庭的財(cái)富情況,并描繪覆蓋整個(gè)盧旺達(dá)的財(cái)富地圖和貧困人口分布圖。相比大規(guī)模的經(jīng)濟(jì)普查或問卷調(diào)查,這種“從間接數(shù)據(jù)推斷直接數(shù)據(jù)”方法的性價(jià)比在繪制地區(qū)經(jīng)濟(jì)狀況畫像和時(shí)事政策干預(yù)中具有顯著優(yōu)勢(shì)。

大數(shù)據(jù)與調(diào)查數(shù)據(jù)相結(jié)合的方法還可以進(jìn)一步修正或探索理論。鄧巴提出以功能劃分五種不同互動(dòng)模式的理論——親族支持團(tuán)體、共情群體、共宿群體、社群或族系和部落群體(Dunbar,1993;Dunbar & Spoors,1995;Hill & Dunbar,2003;Zhou et al.,2005;Pollet et al.,2011)。黃光國(guó)提出了中國(guó)語境下的三種不同的社會(huì)關(guān)系行為原則(Hwang,1987)——需求法則、人情交換法則和公平法則。基于此,筆者嘗試探索關(guān)于中國(guó)人的人脈圈層到底可以劃分為幾層(羅家德等,2021;Gao et al.,2020)。筆者以問卷調(diào)查收集到的用戶之間的關(guān)系強(qiáng)度作為扎根真相,再?gòu)倪@些用戶在社交軟件中互動(dòng)的電子印跡化數(shù)據(jù)整理出指標(biāo),結(jié)合扎根真相,建立五層、四層、三層探索性預(yù)測(cè)分類模型,輔以解釋模型,不斷尋找準(zhǔn)確率最高的劃分方式,從而得到最合適的圈層結(jié)構(gòu)。初步探索結(jié)果發(fā)現(xiàn),家人、親密熟人、一般熟人、認(rèn)識(shí)之人四層模型解釋力最強(qiáng),預(yù)測(cè)模型最逼近扎根真相。

綜上所述,融合大數(shù)據(jù)與社會(huì)調(diào)查的探索性或驗(yàn)證性研究主要強(qiáng)調(diào)的是使用大數(shù)據(jù)和預(yù)測(cè)模型來提出新的測(cè)量模型,建立基于理論構(gòu)念或需要通過問卷調(diào)查和定性訪談獲得的“扎根真相”,形成新的測(cè)量模型,從而通過易取得的大數(shù)據(jù)和預(yù)測(cè)模型去估計(jì)不易獲得的扎根真相的過程,最大限度地展現(xiàn)大數(shù)據(jù)與調(diào)查數(shù)據(jù)結(jié)合后的價(jià)值,解決各類社會(huì)科學(xué)問題,極大地滿足了社會(huì)治理、營(yíng)銷等多個(gè)場(chǎng)景中對(duì)于獲得更具實(shí)時(shí)性、全局性、低成本性的扎根真相的應(yīng)用需求。

五基于大型互聯(lián)網(wǎng)實(shí)驗(yàn)的驗(yàn)證性研究

除了電子印跡收集到的“自然數(shù)據(jù)”以及與社會(huì)調(diào)查和結(jié)構(gòu)化數(shù)據(jù)整合得到的數(shù)據(jù)外,另外一種重要的大數(shù)據(jù)來源就是網(wǎng)絡(luò)實(shí)驗(yàn)收集的數(shù)據(jù)。這類數(shù)據(jù)具有規(guī)模較大、成本較低、代表性較高的特點(diǎn),為以實(shí)驗(yàn)為基礎(chǔ)的驗(yàn)證性研究帶來了新的機(jī)遇。

社會(huì)實(shí)驗(yàn)是在實(shí)驗(yàn)室的環(huán)境中抽象和模擬真實(shí)社會(huì)情景,并通過受試者在實(shí)驗(yàn)室中的反饋推斷真實(shí)人群的社會(huì)心理和社會(huì)行為的研究方法,也是最近半個(gè)世紀(jì)以來社會(huì)科學(xué)研究中被越來越多使用的手段之一。與觀察行為不同,研究人員開展實(shí)驗(yàn),以期系統(tǒng)性地干預(yù)世界,獲得因果性的驗(yàn)證(Salganik,2017)。在實(shí)驗(yàn)設(shè)計(jì)中,研究者可以設(shè)計(jì)隨機(jī)對(duì)照實(shí)驗(yàn)以排除混雜因素,這就要求研究者要先提出理論假設(shè),然后把假設(shè)轉(zhuǎn)化成研究設(shè)計(jì)。具體來說,包括設(shè)計(jì)實(shí)驗(yàn)方式、確定混雜因素、具體設(shè)計(jì)實(shí)驗(yàn)、招募參與者、隨機(jī)分組、實(shí)施干預(yù)、測(cè)量結(jié)果、驗(yàn)證假設(shè)、得出結(jié)論等步驟(陳曉萍等,2012)。因此,實(shí)驗(yàn)是一種嚴(yán)格以理論為指導(dǎo)的研究類型,是一種驗(yàn)證性研究。

雖然傳統(tǒng)的線下實(shí)驗(yàn)研究是因果研究中非常重要的研究范式,但也存在如下局限。第一,由于招募志愿者和實(shí)施實(shí)驗(yàn)的成本較高,因此受試者數(shù)量往往很少,由此造成統(tǒng)計(jì)顯著度和可信度降低。第二,為了節(jié)省成本和實(shí)施方便,很多研究人員直接在其工作的校園內(nèi)招募志愿者,這些被招募的學(xué)生并不能充分代表廣泛人群,因此實(shí)驗(yàn)結(jié)果的普適性常被質(zhì)疑。最近開放科學(xué)合作組織對(duì)100項(xiàng)心理學(xué)實(shí)驗(yàn)進(jìn)行了重復(fù),結(jié)果發(fā)現(xiàn),成功復(fù)現(xiàn)的實(shí)驗(yàn)還不到40%(Open Science Collaboration,2015)。盡管對(duì)于這個(gè)結(jié)論還存在爭(zhēng)議(Gilbert et al.,2016),但是目前越來越多的證據(jù)顯示小樣本的實(shí)驗(yàn)室心理行為研究的可信度遠(yuǎn)低于預(yù)期。

運(yùn)用互聯(lián)網(wǎng)的手段設(shè)計(jì)和實(shí)施大規(guī)模社會(huì)科學(xué)實(shí)驗(yàn)有望克服原有實(shí)驗(yàn)設(shè)計(jì)成本過高、樣本數(shù)量較少、樣本代表性不足等問題。例如,在米爾格拉姆(Stanley Milgram)著名的線下小世界實(shí)驗(yàn)中,其中一次,他讓受試將發(fā)出的296封信件通過熟人關(guān)系送達(dá)隨機(jī)選擇的千里之外的陌生人(Milgram,1967)。事實(shí)上只有64封信件送到了收件者手中,米爾格拉姆僅從這64封信件要經(jīng)歷多少次轉(zhuǎn)手中得到了著名的“六度分離”理論,即兩個(gè)陌生美國(guó)人之間只隔了五個(gè)中間的熟人就可以相互連接起來。與之相對(duì),多德(Peter Dodds)等人利用互聯(lián)網(wǎng)上電子郵件重做了米爾格拉姆的實(shí)驗(yàn)(Dodds et al.,2003)。來自168個(gè)國(guó)家和地區(qū)的98865人參加了這次實(shí)驗(yàn),數(shù)據(jù)可信度和推論范圍遠(yuǎn)超過米爾格拉姆的線下實(shí)驗(yàn)。實(shí)驗(yàn)的結(jié)果顯示,在當(dāng)時(shí)普遍使用的互聯(lián)網(wǎng)通信網(wǎng)絡(luò)中,人們連接更加緊密,美國(guó)大陸的“六度分離”演變成世界范圍的“四度分離”。

另外一個(gè)具有代表性的利用大規(guī)模互聯(lián)網(wǎng)實(shí)驗(yàn)研究社會(huì)科學(xué)問題的工作是邦德(Robert Bond)等人針對(duì)美國(guó)議會(huì)大選做的涉及6100多萬人的政治動(dòng)員實(shí)驗(yàn)(Bond et al.,2012)。他們假設(shè)個(gè)人的投票行為會(huì)受到朋友投票行為的影響。通過與Facebook合作,他們?cè)?010年11月2日美國(guó)議會(huì)大選日當(dāng)天,以所有18歲以上登錄了Facebook網(wǎng)頁的用戶為實(shí)驗(yàn)對(duì)象并將其劃分為三類:(1)社會(huì)組——實(shí)驗(yàn)對(duì)象的Facebook頁面“新聞推薦”欄目的頂部會(huì)出現(xiàn)一個(gè)鼓勵(lì)用戶去投票的通告,并提供幫助用戶找到附近的投票站的鏈接。這個(gè)通告下面有一個(gè)寫著“我已經(jīng)投過票了”的按鈕,用戶通過點(diǎn)這個(gè)按鈕來表達(dá)政治選擇,該信息可以被Facebook好友獲取。此外,用戶還可以看到好友中已經(jīng)點(diǎn)了那個(gè)按鈕的數(shù)量,系統(tǒng)還會(huì)隨機(jī)展示6個(gè)報(bào)告投過票的朋友的頭像。(2)信息組——用戶除了看不到任何投過票朋友的頭像外,能夠得到和社會(huì)組完全相同的信息。(3)控制組——用戶在自己的Facebook主頁沒有收到任何相關(guān)信息。

這個(gè)研究最終發(fā)現(xiàn),社會(huì)組有20.04%的人會(huì)點(diǎn)擊“我已經(jīng)投過票了”按鈕,而信息組只有17.96%,相差2.08%。這證明了社會(huì)化的場(chǎng)景會(huì)大幅度提高人們政治表達(dá)的意愿。此外,通過對(duì)比真實(shí)的投票記錄來分析這些用戶是否真正會(huì)去投票,研究者發(fā)現(xiàn),社會(huì)組和信息組的真實(shí)投票率相同,都比沒有得到信息的用戶高0.39%,進(jìn)一步證明利用人際關(guān)系網(wǎng)絡(luò)的政治動(dòng)員是有效果的。另外,社會(huì)組和信息組的真實(shí)投票率相同說明社會(huì)場(chǎng)景更多是讓人們?cè)敢獗磉_(dá)和分享,而不是立刻和直接地改變?nèi)说男袨椤?/p>

網(wǎng)絡(luò)大規(guī)模科學(xué)實(shí)驗(yàn)在很大程度上解決了傳統(tǒng)線下實(shí)驗(yàn)樣本量小、代表性不足等缺陷,也給社會(huì)科學(xué)理論中因果關(guān)系的驗(yàn)證帶來了很多機(jī)會(huì)。下面,筆者將簡(jiǎn)要介紹幾個(gè)典型案例,以便讀者可以從中更加全面地了解這類研究的方法論優(yōu)勢(shì)。

2009年10月,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)組織了一個(gè)旨在探索“互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)如何在解決一個(gè)緊急的跨區(qū)域問題上發(fā)揮重要作用”的競(jìng)賽,競(jìng)賽的目標(biāo)是要參賽隊(duì)在最短的時(shí)間內(nèi)找到美國(guó)大陸上10個(gè)紅色的氣象氣球。與其他團(tuán)隊(duì)設(shè)置的只獎(jiǎng)勵(lì)最后找到氣球的人的獎(jiǎng)勵(lì)機(jī)制不同,麻省理工學(xué)院彭特蘭(Alex Pentland)等人基于Kleinberg-Raghavan機(jī)制(Kleinberg & Raghavan,2005)提出了一種層層遞推的激勵(lì)機(jī)制。參與者領(lǐng)取待解決的任務(wù)后,通過社交媒體或者其他方式找到自己朋友中可能會(huì)解決問題或者對(duì)解決問題有幫助的人參與進(jìn)來,最終形成一個(gè)鏈條。如果某個(gè)人A最終解決了問題,A是由B引入的,B是由C引入的,C是由D引入的,那么A、B、C、D共同分享獎(jiǎng)金。彭特蘭小組利用這個(gè)機(jī)制的吸引力在比賽前就招募到了4400人幫助尋找氣球,最終也在正式比賽中以最短的時(shí)間找到了10個(gè)氣球,奪取了比賽的冠軍(Pickard et al.,2011)。這一實(shí)驗(yàn)獎(jiǎng)勵(lì)機(jī)制也啟發(fā)了一系列后續(xù)研究(Li et al.,2017;顧勤、周濤,2021)。

另外一個(gè)是關(guān)于馬太效應(yīng)理論的網(wǎng)絡(luò)實(shí)驗(yàn)。薩爾加尼克等人(Salganik et al., 2006)利用互聯(lián)網(wǎng)招募了14341名青年志愿者參加一個(gè)音樂鑒賞任務(wù)。他們被要求對(duì)48首新歌進(jìn)行從優(yōu)到差的排序。這些人被分為9個(gè)組,其中控制組的志愿者看不到任何其他人的信息,其余志愿者被分為8個(gè)組,他們?cè)谠u(píng)價(jià)歌曲的同時(shí)可以看到每一首歌被他們所在小組人員下載的次數(shù)。薩爾加尼克等人發(fā)現(xiàn),控制組不同歌曲下載的次數(shù)比較接近,但是另外8個(gè)組中歌曲下載次數(shù)的差異遠(yuǎn)遠(yuǎn)大于控制組,出現(xiàn)了“贏者通吃”的現(xiàn)象。這暗示了馬太效應(yīng)的存在:初始下載次數(shù)占優(yōu)的歌曲會(huì)影響其他志愿者下載,從而使得初始的差距被進(jìn)一步放大。在一個(gè)后續(xù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)顛倒了受歡迎和不受歡迎的歌曲下載的初始排名,最終得到了完全不同的結(jié)果(Salganik & Watts,2008)。范德賴特(van de Rijt)研究小組做了另外一個(gè)揭示初始條件設(shè)置導(dǎo)致馬太效應(yīng)發(fā)生的網(wǎng)上實(shí)驗(yàn),并完整地觀察到這一過程(van de Rijt,2014)。他們?cè)诒娀I網(wǎng)站Kickstarter上隨機(jī)選擇了200個(gè)新的眾籌項(xiàng)目,這些項(xiàng)目被選擇時(shí)的籌款總額都是0美元。然后,研究組隨機(jī)選擇100個(gè)項(xiàng)目(控制組)不做任何操作,另外100個(gè)項(xiàng)目給一筆隨機(jī)選定額度的初始捐助。盡管在選擇要給哪些項(xiàng)目進(jìn)行初始捐助的時(shí)候研究組是盲目的,但是這些獲得了少量初始捐助的項(xiàng)目最終成功募集到所需資金的概率是另外100個(gè)控制組項(xiàng)目的兩倍,初始的24.52美元平均能吸引191美元的額外捐助。

綜上,實(shí)施大規(guī)模互聯(lián)網(wǎng)實(shí)驗(yàn)可以解決以往線下實(shí)驗(yàn)樣本量小、代表性不足等問題,從而通過較低的成本形成或驗(yàn)證以往無法驗(yàn)證的理論。

六基于大數(shù)據(jù)先探索后驗(yàn)證的整合研究

基于大數(shù)據(jù)或大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的整合數(shù)據(jù)還可以開展先探索后驗(yàn)證的整合性研究。一方面,探索性研究可以獲得定量化的社會(huì)現(xiàn)象之間可能的聯(lián)系的規(guī)律,在與理論對(duì)話中獲得對(duì)現(xiàn)象的解釋或提出待驗(yàn)證的理論命題。另一方面,驗(yàn)證性研究可以在已有命題的基礎(chǔ)上做出理論驗(yàn)證的研究設(shè)計(jì),提出假設(shè),用計(jì)量工具/實(shí)驗(yàn)來驗(yàn)證假設(shè)。這種整合性的研究兼具理論上的推論性和應(yīng)用上的可預(yù)測(cè)性。

筆者以組織管理中某大型互聯(lián)網(wǎng)公司中“影響團(tuán)隊(duì)創(chuàng)新能力的因素”為例來簡(jiǎn)述這一過程(Luo & Gao,2021)。我們收集了該公司兩萬余名員工形成的三千多個(gè)團(tuán)隊(duì)從2014年到2018年的五年期資料。本案例采用的研究思路如下:第一,在探索性研究部分,回顧已有文獻(xiàn)中影響團(tuán)隊(duì)創(chuàng)新的因素,整合大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并計(jì)算表征上述影響因素的指標(biāo),形成指標(biāo)體系,針對(duì)“團(tuán)隊(duì)是否具有高創(chuàng)新能力”這一問題建立預(yù)測(cè)模型,依據(jù)預(yù)測(cè)模型作可解釋機(jī)器學(xué)習(xí)模型(interpretable AI)分析,對(duì)特征重要性、特征之間的關(guān)系進(jìn)行詮釋。第二,在探索性研究啟發(fā)驗(yàn)證性研究部分,針對(duì)探索分析得到的、但已有理論未提供解釋的新的發(fā)現(xiàn),使用反溯推理(abductive reasoning)(Peirce,1893)提出假設(shè),驗(yàn)證假設(shè)并得出結(jié)論,從而對(duì)預(yù)測(cè)模型的黑箱作出進(jìn)一步解釋,由此完成先探索后驗(yàn)證的整合研究。

本案例數(shù)據(jù)來源主要有兩部分,一部分是全公司員工參與項(xiàng)目和培訓(xùn)課程的帶有時(shí)間戳的印記化記錄,包括其參加項(xiàng)目和課程名稱的文本,還包括團(tuán)隊(duì)內(nèi)面試官對(duì)新招聘員工擁有的知識(shí)和技能的評(píng)價(jià)文本等非結(jié)構(gòu)化數(shù)據(jù)。另一部分為這些團(tuán)隊(duì)的創(chuàng)新獎(jiǎng)勵(lì)記錄、員工個(gè)人信息等結(jié)構(gòu)化數(shù)據(jù)。已有影響團(tuán)隊(duì)創(chuàng)新的因素主要包括:團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置(團(tuán)隊(duì)對(duì)外獲取異質(zhì)知識(shí)、資源的能力)、知識(shí)與技能、團(tuán)隊(duì)內(nèi)網(wǎng)絡(luò)密度(團(tuán)隊(duì)內(nèi)成員的互動(dòng)特征)、團(tuán)隊(duì)規(guī)模、團(tuán)隊(duì)成員組成(相似性和異質(zhì)性)等。因此筆者對(duì)團(tuán)隊(duì)創(chuàng)新能力、團(tuán)隊(duì)合作網(wǎng)絡(luò)位置以及員工知識(shí)進(jìn)行定義和測(cè)量,并從數(shù)據(jù)中得到相關(guān)的指標(biāo)。

為了測(cè)量團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置,筆者根據(jù)員工參加項(xiàng)目記錄,將員工作為節(jié)點(diǎn),如果兩個(gè)員工在同一時(shí)間段共同參與同一個(gè)項(xiàng)目,則二者之間就形成了一條項(xiàng)目合作的連邊。由于員工本身嵌入在正式的團(tuán)隊(duì)中,最終可以形成嵌入在同一或不同“團(tuán)隊(duì)”中的員工與員工之間項(xiàng)目合作網(wǎng)絡(luò),進(jìn)而計(jì)算相關(guān)網(wǎng)絡(luò)指標(biāo)來表征團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置以及團(tuán)隊(duì)內(nèi)的互動(dòng)特征。

員工培訓(xùn)課程中的知識(shí)多樣性主要通過員工參加培訓(xùn)課程的記錄來計(jì)算。因?yàn)榕嘤?xùn)課程知識(shí)為文本數(shù)據(jù),需要通過人工標(biāo)注的方式對(duì)其中涉及的知識(shí)作分類,形成每一個(gè)團(tuán)隊(duì)中“員工—獲取知識(shí)分類”的矩陣,并使用信息熵計(jì)算團(tuán)隊(duì)中員工通過參加培訓(xùn)課程獲得知識(shí)的多樣性。

招聘員工知識(shí)的多樣性則基于面試官對(duì)新招聘員工知識(shí)和技能的評(píng)價(jià)文本,通過自然語言處理技術(shù),提取出新聘員工技能的實(shí)詞,再利用詞向量和詞嵌入的方法表示出文本特征。最終所有員工知識(shí)和技能點(diǎn)在嵌入空間中的平均距離即可表示出員工知識(shí)的多樣性。

通過對(duì)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的分析,可以得到團(tuán)隊(duì)的創(chuàng)新能力、團(tuán)隊(duì)成員組成的性別、職級(jí)、工作類型多樣性,以及平均年齡、任期、團(tuán)隊(duì)規(guī)模等。

基于上述建立的指標(biāo)體系,隨機(jī)篩選50%的樣本建立針對(duì)“團(tuán)隊(duì)是否具備高創(chuàng)新能力”的預(yù)測(cè)模型,使用十折交叉驗(yàn)證的方法以保證結(jié)論的穩(wěn)健性,剩下50%的樣本用于后續(xù)驗(yàn)證性分析。以50%作為訓(xùn)練集,50%作為測(cè)試集建立預(yù)測(cè)模型,使用多種預(yù)測(cè)模型的實(shí)驗(yàn)中得到XGBoost預(yù)測(cè)模型準(zhǔn)確率最高,平均準(zhǔn)確率為76%。接下來作預(yù)測(cè)模型的可解釋AI分析,使用SHAP模型,對(duì)指標(biāo)重要性進(jìn)行排序并篩選重要指標(biāo),得到除團(tuán)隊(duì)成員構(gòu)成的其他指標(biāo)外,“參加培訓(xùn)課程知識(shí)多樣性”“合作網(wǎng)絡(luò)E-I指數(shù)”“新員工知識(shí)與上一年入職新員工知識(shí)差異”“團(tuán)隊(duì)內(nèi)合作網(wǎng)絡(luò)密度”(不分先后)這些指標(biāo)對(duì)于團(tuán)隊(duì)創(chuàng)新能力的提高影響最大。在此基礎(chǔ)上,筆者對(duì)這些變量之間的交互關(guān)系與團(tuán)隊(duì)高創(chuàng)新能力關(guān)系做了進(jìn)一步的探索,發(fā)現(xiàn)培訓(xùn)知識(shí)多樣性和新員工與上一年入職員工知識(shí)差異的交互作用有利于提高對(duì)團(tuán)隊(duì)創(chuàng)新能力的預(yù)測(cè)準(zhǔn)確率,而在已有理論中卻缺少知識(shí)和網(wǎng)絡(luò)之間的交互關(guān)系對(duì)團(tuán)隊(duì)創(chuàng)新能力影響的闡述。

綜上,在建立預(yù)測(cè)模型和可解釋模型的探索中,得到三個(gè)結(jié)論:(1)合作網(wǎng)絡(luò)對(duì)外開放程度對(duì)創(chuàng)新能力的積極效果(Burt,2004;Carnabuci & Diószegi, 2015)。(2)團(tuán)隊(duì)員工參加培訓(xùn)知識(shí)多樣性是影響創(chuàng)新的重要指標(biāo)(Tannenbaum & Yuki, 1992;Brown & Charliez, 2013)。(3)招聘知識(shí)多樣性高,或與上一年入職員工知識(shí)異質(zhì)性高的員工進(jìn)入團(tuán)隊(duì),可以為團(tuán)隊(duì)帶來更異質(zhì)的想法,增強(qiáng)團(tuán)隊(duì)創(chuàng)新能力。

針對(duì)上述幾個(gè)因素之間的交互關(guān)系對(duì)于團(tuán)隊(duì)創(chuàng)新能力的影響在已有理論中缺少解釋的現(xiàn)狀,啟發(fā)我們?cè)诶碚撋蟻磉M(jìn)行推理(reasoning),發(fā)展理論并開展驗(yàn)證性研究(Shrestha et al.,2021)。基于此,在驗(yàn)證性分析部分,筆者提出并驗(yàn)證了團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的位置和團(tuán)隊(duì)員工培訓(xùn)課程學(xué)習(xí)知識(shí)的多樣性分別受到新注入的知識(shí)的多樣性(即招聘知識(shí)與上一年入職員工知識(shí)的差異)的調(diào)節(jié),對(duì)提高團(tuán)隊(duì)創(chuàng)新產(chǎn)生積極的影響。

首先提出假設(shè)。由于在網(wǎng)絡(luò)中多樣化的知識(shí)對(duì)于創(chuàng)新的積極效果受到傳播過程異質(zhì)信息快速同質(zhì)化的影響,學(xué)習(xí)多樣化知識(shí)很難長(zhǎng)期維持團(tuán)隊(duì)的高創(chuàng)新能力。而“注入”知識(shí)多樣性的員工會(huì)給網(wǎng)絡(luò)帶來一個(gè)積極的“震動(dòng)”,改變團(tuán)隊(duì)在網(wǎng)絡(luò)中組織知識(shí)的方式,使得團(tuán)隊(duì)可以更好地利用網(wǎng)絡(luò)中異質(zhì)的結(jié)構(gòu)和內(nèi)容的創(chuàng)新優(yōu)勢(shì),帶來更多的想法,改變已有成員的認(rèn)知結(jié)構(gòu)(Perretti et al.,2006),進(jìn)而調(diào)整成員固有的看待已有知識(shí)的方式,塑造他們新的認(rèn)知,為創(chuàng)新帶來新的活力。因此,我們提出了假設(shè)1。

假設(shè)1:新加入員工與上一年入職員工知識(shí)的差異正向調(diào)節(jié)團(tuán)隊(duì)培訓(xùn)知識(shí)多樣性對(duì)提高團(tuán)隊(duì)創(chuàng)新能力的正向影響。

一個(gè)團(tuán)隊(duì)中的員工有更多的團(tuán)隊(duì)外的合作者有利于團(tuán)隊(duì)成員與更多的不同工作模式和知識(shí)特征的團(tuán)隊(duì)進(jìn)行交流、資源共享,因此有助于團(tuán)隊(duì)創(chuàng)新。但是,由于長(zhǎng)期穩(wěn)定合作的團(tuán)隊(duì)之間已深諳彼此交互的術(shù)語,這種例行的合作模式會(huì)導(dǎo)致團(tuán)隊(duì)之間在合作中變得僵化(Morrison,2002;Perretti & Negro,2006)。因此,團(tuán)隊(duì)中有新的成員加入,會(huì)對(duì)團(tuán)隊(duì)之間的合作者重新思考合作方式和互動(dòng)模式產(chǎn)生影響。因此,筆者認(rèn)為,與已有成員相比,具有異質(zhì)知識(shí)的新成員的加入不僅會(huì)讓已有合作網(wǎng)絡(luò)中的成員重新思考他們與新成員的工作配合方式,舊的合作關(guān)系下的成員之間也會(huì)重新調(diào)整和思考他們合作的策略與模式。帶有異質(zhì)知識(shí)的新成員加入合作網(wǎng)絡(luò)會(huì)增強(qiáng)團(tuán)隊(duì)在跨團(tuán)隊(duì)合作網(wǎng)絡(luò)中的優(yōu)勢(shì)地位。因此提出假設(shè)2。

假設(shè)2:新的帶有異質(zhì)知識(shí)的員工的加入正向調(diào)節(jié)團(tuán)隊(duì)在合作網(wǎng)絡(luò)中的開放度(E-I指數(shù)來衡量,越大代表開放度越大)對(duì)團(tuán)隊(duì)創(chuàng)新的積極影響。

使用上述隨機(jī)劃分的剩余50%的數(shù)據(jù)集,筆者使用面板數(shù)據(jù)進(jìn)行回歸分析,得到在控制歷史創(chuàng)新能力和其他影響團(tuán)隊(duì)創(chuàng)新因素的基礎(chǔ)上,合作網(wǎng)絡(luò)E-I指數(shù)和新入職員工與上一年入職員工知識(shí)差異的交互作用對(duì)維持團(tuán)隊(duì)創(chuàng)新能力存在積極的效果(β=0.025,P<0.001),員工培訓(xùn)課程知識(shí)多樣性和新入職員工與上一年入職員工知識(shí)差異的交互作用同樣對(duì)維持團(tuán)隊(duì)創(chuàng)新能力存在積極的效果(β=0.019,0.001

綜上,第一階段探索性分析中二者之間的特征交互作用對(duì)團(tuán)隊(duì)創(chuàng)新能力影響的探索結(jié)果在理論上獲得了解釋,后續(xù)研究可以根據(jù)探索性分析得到的其他洞見來形成更多值得驗(yàn)證的理論假設(shè)。

通過對(duì)大數(shù)據(jù)的充分利用,本案例使用了綜合的、擴(kuò)展的測(cè)量指標(biāo),建立了具有較好預(yù)測(cè)準(zhǔn)確率的預(yù)測(cè)模型,對(duì)影響團(tuán)隊(duì)創(chuàng)新解釋機(jī)制做出了理論上的貢獻(xiàn)。同時(shí),通過這個(gè)研究案例還可以看出,非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的融合可以形成較大規(guī)模的樣本量,探索性和驗(yàn)證性研究中使用不同的數(shù)據(jù)集進(jìn)行探索和驗(yàn)證,避免使用同一批數(shù)據(jù)既做擬合又做驗(yàn)證,能夠在很大程度上檢驗(yàn)以往研究中理論可重復(fù)性低的問題(Nosek et al.,2015)。

以上案例展示了從探索性研究到驗(yàn)證性研究的一條演進(jìn)道路。此外,還有研究先基于理論假設(shè)作驗(yàn)證,再使用預(yù)測(cè)模型探索重要特征(Christoph et al.,2021),也有研究同時(shí)建立預(yù)測(cè)模型和可解釋模型,二者之間不斷對(duì)話,啟發(fā)理論創(chuàng)新。例如在2018年發(fā)表在《自然》雜志上的一篇文章(Awad et al.,2018)收集了223個(gè)國(guó)家4000萬參與者對(duì)于自動(dòng)駕駛汽車決策選擇的數(shù)據(jù),通過探索性和驗(yàn)證性整合研究來啟發(fā)新的心理學(xué)理論,發(fā)現(xiàn)了以往忽略的自動(dòng)駕駛汽車的一些倫理規(guī)范問題,例如人類決策過程的內(nèi)在沖突、人際沖突、倫理道德的文化差異等。在此基礎(chǔ)上,后續(xù)研究(Agrawal et al.,2020)使用該數(shù)據(jù)對(duì)預(yù)測(cè)模型和決策心理模型進(jìn)行了對(duì)話和相互的修正,針對(duì)預(yù)測(cè)模型和心理模型預(yù)測(cè)結(jié)果差異較大的樣本進(jìn)行分析,獲得在具體決策情境下,一些在心理模型中未被注意到的幾種因素的交互關(guān)系對(duì)決策的影響,啟發(fā)作者提出理論假設(shè)并做出實(shí)驗(yàn)驗(yàn)證,使得心理可解釋模型更加完善。最終得到了僅由22個(gè)參數(shù)組成的心理理論模型,相比于未考慮交互項(xiàng)但具有超過3000個(gè)參數(shù)的深度學(xué)習(xí)模型,該模型兼?zhèn)涓哳A(yù)測(cè)精度和可解釋性。正如魯丁(Charles Rudin)所強(qiáng)調(diào)的,在高風(fēng)險(xiǎn)決策中僅僅依靠預(yù)測(cè)模型及其特征重要性分析是非常危險(xiǎn)的,應(yīng)該輔以嚴(yán)格的驗(yàn)證性分析,結(jié)論才具有可靠性和推論性(Rudin,2019)。

綜上,大數(shù)據(jù)(或與結(jié)構(gòu)化數(shù)據(jù)整合)的探索性和驗(yàn)證性相結(jié)合的研究可在理論解釋模型上提供新的洞見,具體包括:(1)獲得新的理論的測(cè)量指標(biāo)、測(cè)量方法,或者對(duì)原有缺少可解釋性的指標(biāo)進(jìn)行拆解或重新劃分。(2)獲得不同指標(biāo)之間的交互關(guān)系與因變量可能存在的因果關(guān)系。(3)獲得在社會(huì)治理、知識(shí)決策、政策干預(yù)上新的洞見和啟發(fā)。將這種探索性和驗(yàn)證性的研究綜合起來,可以獲得理論上的可解釋性和較高的預(yù)測(cè)性。

七總結(jié)與討論

融合大數(shù)據(jù)與社會(huì)科學(xué)理論的研究方法開始見諸學(xué)術(shù)期刊不過二十年左右的時(shí)間,大量的文章則在最近幾年才出現(xiàn)。相比社會(huì)科學(xué)漫長(zhǎng)的歷史來說,社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究方法論方興未艾,整體上來說還處于不斷摸索前進(jìn)的階段,本文主要在方法論上做了一個(gè)階段性小結(jié)。本文對(duì)社會(huì)科學(xué)理論的探索性研究、驗(yàn)證性研究以及數(shù)據(jù)取得的三種不同方法(收集電子印跡的大數(shù)據(jù)、整合大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)庫(kù)或問卷調(diào)查的數(shù)據(jù)以及互聯(lián)網(wǎng)實(shí)驗(yàn)數(shù)據(jù))劃分了五類研究方法,并對(duì)每一類研究方法給出了一個(gè)梗概的介紹。不排除將來還有更多的研究進(jìn)路被發(fā)現(xiàn)和使用。毋庸置疑的是,社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究新方法論,深刻地改變了整個(gè)社會(huì)科學(xué)的理論發(fā)展與研究范式。

需要強(qiáng)調(diào)的是,與早期的大數(shù)據(jù)研究?jī)H強(qiáng)調(diào)歸納而忽略因果、演繹推理不同,社會(huì)計(jì)算更多強(qiáng)調(diào)用理論指導(dǎo)計(jì)算機(jī)技術(shù)探索并解釋社會(huì)規(guī)律和模式,與社會(huì)學(xué)理論形成密切的對(duì)話,最終用于啟發(fā)、驗(yàn)證或修正理論。

當(dāng)然,如前文所述的方法還存在很多的缺陷和挑戰(zhàn),需要有志于此的學(xué)者作更多的貢獻(xiàn)。

首先,將社會(huì)計(jì)算研究用于政策干預(yù)和指導(dǎo)存在較大的挑戰(zhàn)。邦德等人研究中涉及6100萬人的實(shí)驗(yàn)并形成干預(yù),這類研究不僅僅立足于解釋和預(yù)測(cè),更重要的目標(biāo)是達(dá)成有利于社會(huì)發(fā)展、降低不平等(Bond et al.,2012;Blumenstock,2016)的干預(yù),但此類研究還是鳳毛麟角。

其次,幾種研究方法可能帶來一系列法規(guī)、道德和倫理的問題,需要研究人員謹(jǐn)慎對(duì)待。大數(shù)據(jù)和人工智能的研究本身就帶來了一系列的科學(xué)倫理問題(Poldolny,2001)。具體來說,第一,要特別注意保護(hù)被分析對(duì)象的隱私。在使用“自然數(shù)據(jù)”時(shí),一部分?jǐn)?shù)據(jù)并非來自公開網(wǎng)站(例如智能手機(jī)數(shù)據(jù)),一部分?jǐn)?shù)據(jù)雖然來自公開網(wǎng)站但不等于用戶希望別人看到自己被分析的結(jié)果——例如一個(gè)人愿意在Facebook上向好友公開他的信息,但不等于他愿意公開通過其Facebook數(shù)據(jù)預(yù)測(cè)到他罹患抑郁癥(de Choudhury et al.,2014)或者是男同性戀(Kosinski et al.,2013)的結(jié)論。雖然研究論文使用和報(bào)道的數(shù)據(jù)經(jīng)過匿名化處理,但是最近一些研究發(fā)現(xiàn)可以通過這些匿名數(shù)據(jù)反推到個(gè)體(de Montjoye et al.,2013,2015)。所以在報(bào)告研究結(jié)果和共享研究數(shù)據(jù)時(shí)要非常謹(jǐn)慎,避免其他研究人員通過技術(shù)手段反向識(shí)別數(shù)據(jù)對(duì)象的身份。第二,在開展互聯(lián)網(wǎng)實(shí)驗(yàn)時(shí),有些時(shí)候?yàn)榱藢?shí)驗(yàn)效果,受試者并不知道自己處于實(shí)驗(yàn)環(huán)境下,研究人員必須充分評(píng)估實(shí)施實(shí)驗(yàn)對(duì)受試者的情緒和心理造成的影響。第三,對(duì)于分析結(jié)果和結(jié)論的公開也要謹(jǐn)慎。譬如數(shù)據(jù)分析和生物、物理實(shí)驗(yàn)可能會(huì)揭示不同種族的人群因?yàn)榛蚧蛘咂渌驅(qū)е碌闹橇ΑⅢw力和心理的差異,這些差異的公開可能反而會(huì)將弱勢(shì)群體置于更不利的位置。

結(jié)合本文所給出的幾種研究方法類型,在社會(huì)科學(xué)理論指導(dǎo)下的社會(huì)計(jì)算研究可總結(jié)為驗(yàn)證性研究和探索性研究,或是兩者的結(jié)合。固然在單一論文中這五類研究方法多是單獨(dú)使用的,但在系列研究中,探索性與驗(yàn)證性研究卻應(yīng)在如圖1所示的理論、數(shù)據(jù)挖掘和模型的三角對(duì)話中一輪又一輪地交互進(jìn)行。伴隨著理論、數(shù)據(jù)挖掘和模型的三角對(duì)話,這一過程中同時(shí)存在著演繹法和歸納法。

一方面,社會(huì)科學(xué)理論可以為大數(shù)據(jù)挖掘提供指導(dǎo),選擇更適合刻畫研究對(duì)象的指標(biāo),實(shí)例化或修正算法。另外,理論還可以為機(jī)器學(xué)習(xí)模型或者動(dòng)態(tài)模擬模型的建立提供靈感或直接支持。得到模型后也需要繼續(xù)與理論進(jìn)行對(duì)話,判斷是否與已有理論一致,如果一致則為理論的驗(yàn)證,如果不一致則對(duì)模型進(jìn)行影響準(zhǔn)確率因素的分析,以不斷修正模型。

另一方面,隨著數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型的建立,數(shù)據(jù)挖掘結(jié)果和機(jī)器學(xué)習(xí)模型同樣可以啟發(fā)探索新的理論方向,驗(yàn)證或挑戰(zhàn)已有理論。當(dāng)理論與機(jī)器學(xué)習(xí)模型不一致時(shí),通過對(duì)模型作可解釋人工智能算法、定性調(diào)查、分錯(cuò)誤樣本溯因,綜合判斷是否需要對(duì)理論進(jìn)行修正和重新闡述,可提出相應(yīng)的命題(Evans et al.,2020)。同樣,因數(shù)據(jù)驅(qū)動(dòng)而建構(gòu)的模型后續(xù)還可繼續(xù)根據(jù)提出的命題來完成驗(yàn)證性研究。這些例子可以在本文第二部分和第四部分中找到。

ddf17540-6bd4-11ed-8abf-dac502259ad0.png

本文所討論的驗(yàn)證性研究可以粗略地分為三類。第一類是利用數(shù)據(jù)挖掘結(jié)果和機(jī)器學(xué)習(xí)或動(dòng)態(tài)模擬模型,提供理論修正或重建洞見。這只是完成了弱模型(weak model)的建立,接下來可根據(jù)探索性研究提出的命題,繼續(xù)結(jié)合理論提出嚴(yán)格的理論假設(shè),再收集大數(shù)據(jù)、建立因果模型、驗(yàn)證假設(shè),最終得出更具推論性的結(jié)論。第二類是利用大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的整合進(jìn)行理論驗(yàn)證。結(jié)構(gòu)化數(shù)據(jù)庫(kù)或問卷調(diào)查可以提供扎根真相,因果模型可以驗(yàn)證理論假設(shè),大數(shù)據(jù)則可以測(cè)量和計(jì)算更多相關(guān)指標(biāo),從而極大地豐富傳統(tǒng)社會(huì)科學(xué)理論研究議題。第三類則是根據(jù)理論設(shè)計(jì)大規(guī)模互聯(lián)網(wǎng)實(shí)驗(yàn)。

如本文第四部分所描述的探索性研究案例,可以在一輪又一輪的三角對(duì)話中,與某一研究相關(guān)的各類型數(shù)據(jù)整合在一起,預(yù)測(cè)模型被建立且在修正中準(zhǔn)確度不斷提高,由此社會(huì)科學(xué)的理論可以得到更深入的發(fā)展。從探索性到驗(yàn)證性的完整研究在第六部分案例中有所展示。

很多學(xué)科都曾因?yàn)槔碚摵头椒ǖ耐黄贫a(chǎn)生重大轉(zhuǎn)折。這個(gè)轉(zhuǎn)折期往往群星璀璨,碩果累累。20世紀(jì)初期量子力學(xué)理論對(duì)物理學(xué)的影響、20世紀(jì)后期基因測(cè)序技術(shù)對(duì)生物學(xué)的影響就是非常典型的例子。筆者認(rèn)為,社會(huì)科學(xué)這一歷史悠久的學(xué)科正在因?yàn)榇髷?shù)據(jù)和人工智能技術(shù)的引入而經(jīng)歷一次重大的轉(zhuǎn)折。希望在可見的未來可以有更多新鮮的血液,在一個(gè)學(xué)科發(fā)生重大轉(zhuǎn)折的開始時(shí)期就注入進(jìn)來,從而將此一新方法深植在社會(huì)科學(xué)研究之中。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47314

    瀏覽量

    238623
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8893

    瀏覽量

    137461

原文標(biāo)題:社會(huì)計(jì)算驅(qū)動(dòng)的社會(huì)科學(xué)研究方法

文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    人工智能推理及神經(jīng)處理的未來

    、個(gè)性化和效率的社會(huì)需求,又進(jìn)一步推動(dòng)了人工智能技術(shù)的集成。此外,不斷發(fā)展的監(jiān)管體系,則強(qiáng)調(diào)了合乎倫理道德的人工智能數(shù)據(jù)隱私和算法透明度的
    的頭像 發(fā)表于 12-23 11:18 ?242次閱讀
    <b class='flag-5'>人工智能</b>推理及神經(jīng)處理的未來

    集成電路與人工智能結(jié)合

    集成電路,為人工智能算法提供了強(qiáng)大的算力支持。 隨著人工智能技術(shù)的不斷發(fā)展,對(duì)存儲(chǔ)和計(jì)算能力的需求日益增長(zhǎng),而集成電路的快速發(fā)展正好滿足了這一需求。 專用化芯片 : 專用化的人工智能
    的頭像 發(fā)表于 11-19 10:05 ?385次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    與人工智能結(jié)合,無疑是科技發(fā)展中的一場(chǎng)革命。在人工智能硬件加速中,嵌入式系統(tǒng)以其獨(dú)特的優(yōu)勢(shì)和重要性,發(fā)揮著不可或缺的作用。通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等算法,嵌入式系統(tǒng)能夠高效地處理大量
    發(fā)表于 11-14 16:39

    soc在人工智能中的創(chuàng)新應(yīng)用

    社會(huì)計(jì)算(Social Computing, SOC)是一個(gè)跨學(xué)科領(lǐng)域,它結(jié)合社會(huì)科學(xué)、計(jì)算機(jī)科學(xué)和人工智能,以理解和設(shè)計(jì)
    的頭像 發(fā)表于 11-10 09:30 ?400次閱讀

    人工智能計(jì)算大數(shù)據(jù)三者關(guān)系

    人工智能、云計(jì)算大數(shù)據(jù)之間的關(guān)系是緊密相連、相互促進(jìn)的。大數(shù)據(jù)人工智能提供了豐富的訓(xùn)練資源和驗(yàn)證環(huán)境;云
    的頭像 發(fā)表于 11-06 10:03 ?455次閱讀

    發(fā)展人工智能對(duì)社會(huì)的利與弊?

    人工智能(AI)的發(fā)展對(duì)社會(huì)的影響是深遠(yuǎn)且復(fù)雜的,它如同一把雙刃劍,既帶來了前所未有的機(jī)遇和利益,也伴隨著一系列挑戰(zhàn)和風(fēng)險(xiǎn)。 一、人工智能發(fā)展的利益 提高生產(chǎn)力和效率 人工智能可以自動(dòng)
    的頭像 發(fā)表于 10-22 16:47 ?2717次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    閱讀這一章后,我深感人工智能與生命科學(xué)的結(jié)合正引領(lǐng)著一場(chǎng)前所未有的科學(xué)革命,以下是我個(gè)人的讀后感: 1. 技術(shù)革新與生命科學(xué)進(jìn)步 這一章詳細(xì)闡述了人工智能如何通過其強(qiáng)大的數(shù)據(jù)處理和分析
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,還促進(jìn)了新理論、新技術(shù)的誕生。 3. 挑戰(zhàn)與機(jī)遇并存 盡管人工智能為科學(xué)創(chuàng)新帶來了巨大潛力,但第一章也誠(chéng)實(shí)地討論了伴隨而來的挑戰(zhàn)。數(shù)據(jù)隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發(fā)表于 10-14 09:12

    智能制造與人工智能的區(qū)別

    智能制造與人工智能在定義、技術(shù)組成、應(yīng)用領(lǐng)域以及發(fā)展重點(diǎn)等方面存在明顯的區(qū)別。
    的頭像 發(fā)表于 09-15 14:27 ?725次閱讀

    串口屏與人工智能結(jié)合

    著重要作用。而人工智能技術(shù)的融入,則為串口屏賦予了“智慧”的大腦,使其不僅能夠高效展示信息,還能進(jìn)行數(shù)據(jù)分析、智能決策,乃至實(shí)現(xiàn)更加人性化的人機(jī)交互。本文將深入探討串口屏如何與人工智能
    的頭像 發(fā)表于 08-16 12:29 ?1311次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行定制化計(jì)算,為人工智能
    發(fā)表于 07-29 17:05

    計(jì)算機(jī)視覺與人工智能的關(guān)系是什么

    、交流等方面。計(jì)算機(jī)視覺與人工智能之間存在著密切的聯(lián)系,計(jì)算機(jī)視覺是人工智能的一個(gè)重要分支,也是實(shí)現(xiàn)人工智能的關(guān)鍵技術(shù)之一。
    的頭像 發(fā)表于 07-09 09:25 ?662次閱讀

    科達(dá)嘉電感器在大數(shù)據(jù)與人工智能領(lǐng)域被廣泛應(yīng)用

    近年來,大數(shù)據(jù)與人工智能成為科技領(lǐng)域的熱門話題。大數(shù)據(jù)人工智能提供了大量的數(shù)據(jù)作為輸入,使得人工智能算
    的頭像 發(fā)表于 02-29 13:56 ?483次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    科達(dá)嘉電感器廣泛應(yīng)用于大數(shù)據(jù)人工智能領(lǐng)域?yàn)锳I賦能

    近年來,大數(shù)據(jù)與人工智能成為科技領(lǐng)域的熱門話題。大數(shù)據(jù)人工智能提供了大量的數(shù)據(jù)作為輸入,使得人工智能算
    的頭像 發(fā)表于 02-23 17:29 ?840次閱讀
    主站蜘蛛池模板: 草莓国产视频免费观看| 婷婷午夜影院| 久久精品天天爽夜夜爽| 国产成人免费高清视频| 99精品视频在线免费观看| 2012中文字幕手机在线| 99久久久无码国产精品免费人妻| 99re久久热在线视频| 俺也去最新地址| 欧美人成人亚洲专区中文字幕| 日本熟妇乱妇熟色A片蜜桃亚洲| 男人到天堂a在538线| 朋友的娇妻好爽好烫嗯| 蜜臀AV精品一区二区三区| 蜜臀AV久久国产午夜福利软件| 欧美成人无码视频午夜福利| 美女隐私黄www视频| 情欲.美女高潮| 小xav导航| 伊人久久大香线蕉综合99| 亚洲三级大片| 亚洲国产高清视频在线观看| 小黄文污到你湿| 伊人久久大香线蕉avapp下载| 97色伦久久视频在观看| 鬼灭之刃花街篇免费樱花动漫| 黑人强伦姧人妻日韩那庞大的| 麻豆AV无码精品一区二区| 老司机亚洲精品影院| 日本aa大片| 亚洲黄色录像片| 亚洲视频第二页| 97人妻中文字幕免费视频 | 久久无码AV亚洲精品色午夜| 成人在线视频网站| 亚洲AV天堂无码麻豆电影| 天天操夜夜噜| 亚洲性无码AV久久成人| 99热在线视频这里只精品| 国产色精品VR一区二区| 蜜桃传媒在线播放|