數(shù)據(jù)和機(jī)器學(xué)習(xí)算法所帶來(lái)的洞察可能是無(wú)價(jià)之寶,但是錯(cuò)誤會(huì)損害你的聲譽(yù),影響你的收入甚至生命安全。這些引人注目的分析和人工智能錯(cuò)誤說(shuō)明了一切可能出問(wèn)題的地方。
2017年,《經(jīng)濟(jì)學(xué)人》宣布數(shù)據(jù)(而非石油)已成為全球最具價(jià)值的資源。從那以后,這樣的評(píng)論屢見(jiàn)不鮮。各行各業(yè)的組織都已經(jīng)在數(shù)據(jù)和分析方面進(jìn)行大量投資并將持續(xù)投資。但是和石油一樣,數(shù)據(jù)和分析也有不利的一面。
根據(jù)IDG公布的《2020年首席信息官現(xiàn)狀報(bào)告》,有37%的IT領(lǐng)導(dǎo)者表示,今年,數(shù)據(jù)分析將成為組織最大的IT投資。機(jī)器學(xué)習(xí)算法驅(qū)動(dòng)的分析和行動(dòng)可以帶來(lái)各種洞察,而這些洞察又可以為組織帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì),但是錯(cuò)誤在聲譽(yù),收入甚至生命安全方面都可能造成巨大的損失。
了解你的數(shù)據(jù)及其含義很重要,但是了解你的工具,數(shù)據(jù)并牢記組織的價(jià)值觀也同樣重要。
下面來(lái)看看發(fā)生在過(guò)去十年的一些引人注目的分析和人工智能錯(cuò)誤,以此來(lái)說(shuō)明一切可能出問(wèn)題的地方。
英國(guó)因?yàn)?a target="_blank">電子表格數(shù)據(jù)超出規(guī)定限制而丟失了數(shù)千起冠狀病毒病例
2020年10月,負(fù)責(zé)清點(diǎn)新的冠狀病毒感染的政府機(jī)構(gòu)英國(guó)公共衛(wèi)生局(PHE)透露,在9月25日至10月2日之間有近16000例冠狀病毒病例沒(méi)有列入報(bào)告,而問(wèn)題的罪魁禍?zhǔn)拙褪荕icrosoft Excel的數(shù)據(jù)限制。
英國(guó)公共衛(wèi)生局使用自動(dòng)化流程將冠狀病毒陽(yáng)性實(shí)驗(yàn)測(cè)試結(jié)果以CSV文件的格式傳輸?shù)綀?bào)告儀表板和聯(lián)系人跟蹤所使用的Excel模板中。不幸的是,每個(gè)Excel電子表格最多支持1048576行和16384列。而且,英國(guó)公共衛(wèi)生局將病例列為列而不是行。當(dāng)病例超過(guò)16384列的限制時(shí),Excel會(huì)切斷底部的15841條記錄。
雖然發(fā)生了“小小的故障”,但這并沒(méi)有阻止接受測(cè)試的人獲得測(cè)試結(jié)果,但這確實(shí)阻礙了聯(lián)系追蹤的工作,使英國(guó)國(guó)家衛(wèi)生局(NHS)難以發(fā)現(xiàn)與感染者有密切聯(lián)系的人并向他們發(fā)送通知。英國(guó)公共衛(wèi)生局的臨時(shí)首席執(zhí)行官M(fèi)ichael Brodie在10月4日發(fā)表的聲明中說(shuō),NHS Test and Trace應(yīng)用和英國(guó)公共衛(wèi)生局迅速解決了該問(wèn)題并將所有沒(méi)有記錄的病例立即轉(zhuǎn)移到NHS Test and Trace的聯(lián)系人跟蹤系統(tǒng)中。
英國(guó)公共衛(wèi)生局實(shí)施了“快速緩解”措施,該措施可拆分大文件并對(duì)所有系統(tǒng)進(jìn)行了全面的端到端評(píng)估以避免類似事件重蹈覆轍。
醫(yī)療算法無(wú)法標(biāo)記黑人患者
在2019年,《科學(xué)》雜志上發(fā)表的一項(xiàng)研究顯示,全美的醫(yī)院和保險(xiǎn)公司使用醫(yī)療預(yù)測(cè)算法來(lái)識(shí)別需要納入“高風(fēng)險(xiǎn)護(hù)理管理”計(jì)劃的患者,而這個(gè)算法不太可能特別選出黑人患者。
高風(fēng)險(xiǎn)護(hù)理管理計(jì)劃為長(zhǎng)期病患者提供訓(xùn)練有素的護(hù)理人員和初級(jí)護(hù)理監(jiān)測(cè)以防止他們出現(xiàn)嚴(yán)重的并發(fā)癥。但是,該算法更有可能推薦白人患者而不是黑人患者。
該研究發(fā)現(xiàn),該算法以醫(yī)療支出作為指標(biāo)了確定個(gè)人醫(yī)療需求。但是《科學(xué)美國(guó)人》的報(bào)道稱,病情較為嚴(yán)重的黑人患者的醫(yī)療費(fèi)用與病情較輕的白人患者的醫(yī)療費(fèi)用相當(dāng),這意味著即使前者的需求更大,他們的風(fēng)險(xiǎn)評(píng)分也還是比較低。
開(kāi)展該研究的研究人員認(rèn)為有幾個(gè)因素導(dǎo)致了這個(gè)結(jié)果。首先,有色人種的收入很可能較低,即使他們有醫(yī)保也很可能無(wú)法獲得醫(yī)療服務(wù)。隱性偏見(jiàn)也可能導(dǎo)致他們無(wú)法獲得優(yōu)質(zhì)的護(hù)理。
盡管該研究沒(méi)有提算法或開(kāi)發(fā)者的名字,但研究人員告訴《科學(xué)美國(guó)人》,他們正在與開(kāi)發(fā)者合作解決這種情況。
經(jīng)由數(shù)據(jù)集訓(xùn)練的微軟聊天機(jī)器人發(fā)了帶有種族主義色彩的推文
2016年3月,微軟獲悉,使用推特互動(dòng)作為機(jī)器學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)可能會(huì)產(chǎn)生令人失望的結(jié)果。
微軟在社交媒體平臺(tái)上發(fā)布了人工智能聊天機(jī)器人Tay并稱其為對(duì)“對(duì)話理解”所做的實(shí)驗(yàn)。“對(duì)話理解”基于這樣一種想法,即聊天機(jī)器人化身為一個(gè)青少女與人進(jìn)行互動(dòng),其方法是使用結(jié)合了機(jī)器學(xué)習(xí)和自然語(yǔ)言處理功能的推特。微軟使用匿名的公共數(shù)據(jù)和喜劇演員事先編寫的一些笑料來(lái)使其內(nèi)容更豐富,然后放任其在社交網(wǎng)絡(luò)的交互中學(xué)習(xí)和發(fā)展。
在短短16小時(shí)的時(shí)間內(nèi),聊天機(jī)器人發(fā)布了95000多條推文,這些推文瞬間變調(diào)了,充斥著明顯的種族主義,對(duì)女性的厭惡和反猶太主義。微軟迅速暫停了該服務(wù)以進(jìn)行調(diào)整并最終停用了Tay。
微軟研究與孵化公司的副總裁Peter Lee表示(時(shí)任微軟醫(yī)療的公司副總裁):“盡管Tay無(wú)意冒犯,但還是發(fā)了令人發(fā)指的推文,對(duì)此我們深表歉意。這些推文既不代表微軟的立場(chǎng),也不代表微軟設(shè)計(jì)Tay的方式。事發(fā)后,Lee在微軟官方博客上發(fā)了這樣的博文。
Lee指出,Tay的前身即微軟于2014年在中國(guó)發(fā)布的Xiaoice,Xiaoice在Tay發(fā)布前的兩年時(shí)間里已成功與超過(guò)4000萬(wàn)人進(jìn)行了對(duì)話。微軟沒(méi)有考慮到的情況是有一群推特用戶立即開(kāi)始向Tay發(fā)推文,其中包括種族主義和厭惡女性的言論。該機(jī)器人很快從這樣的材料中學(xué)到了這樣的內(nèi)容并將其納入自身的推文中。
“盡管我們已經(jīng)準(zhǔn)備好應(yīng)對(duì)多種濫用系統(tǒng)的情況,但我們對(duì)這種特定的攻擊疏于監(jiān)督。結(jié)果,Tay在推特上發(fā)了極為不當(dāng)且應(yīng)該受到譴責(zé)的文字和圖像”,Lee這樣寫道。
和許多大公司一樣,亞馬遜希望獲得有助于HR篩選工作申請(qǐng)以尋找最佳人選的工具。2014年,亞馬遜開(kāi)始研究基于人工智能的招聘軟件。只是有這樣一個(gè)問(wèn)題:該系統(tǒng)極力推薦男性候選人。2018年,路透社爆料稱亞馬遜已經(jīng)取消了該項(xiàng)目。
亞馬遜的系統(tǒng)為候選人實(shí)施了從1分到5分的星級(jí)評(píng)分制。但是,系統(tǒng)核心的機(jī)器學(xué)習(xí)模型接受了訓(xùn)練,對(duì)其進(jìn)行訓(xùn)練的是10年以來(lái)所有求職者提交給亞馬遜的簡(jiǎn)歷,而其中大多數(shù)簡(jiǎn)歷是男性提交的。由于使用了這些培訓(xùn)數(shù)據(jù),系統(tǒng)漸漸挑剔簡(jiǎn)歷中的某些字眼,其中包括“女性”一詞,甚至將所有畢業(yè)于女子大學(xué)的候選人降級(jí)。
當(dāng)時(shí),亞馬遜表示,亞馬遜招聘人員從未使用該工具來(lái)評(píng)估候選人。
亞馬遜試圖修改該工具以使其中立化,但最終還是無(wú)法保證它不會(huì)學(xué)習(xí)其他會(huì)對(duì)候選人產(chǎn)生歧視的分類方式,因此該項(xiàng)目遭到終止。
塔吉特的分析侵犯了隱私
在2012年,零售業(yè)巨頭塔吉特(Target)的一項(xiàng)分析項(xiàng)目展示了這樣一個(gè)事實(shí)。即公司到底可以從其數(shù)據(jù)中了解多少客戶信息。據(jù)《紐約時(shí)報(bào)》報(bào)道,在2002,塔吉特的市場(chǎng)部年向知道公司可以通過(guò)方式確定客戶是否懷孕。這個(gè)問(wèn)題催生了一個(gè)預(yù)測(cè)性分析項(xiàng)目,該項(xiàng)目導(dǎo)致該零售商無(wú)意間向一個(gè)十幾歲的女子的家庭透露了她懷孕的情況,這引起了軒然大波。反過(guò)來(lái)又導(dǎo)致各種文章和營(yíng)銷博客鋪天蓋地地引用這一事件,以此作為避免“令人發(fā)紫的因素”的建議的一部分內(nèi)容。
塔吉特的市場(chǎng)部希望識(shí)別懷孕的人,因?yàn)樵谏械哪承r(shí)期人們很有可能從根本上改變購(gòu)買習(xí)慣,其中最重要的是懷孕期。如果塔吉特可以在這個(gè)時(shí)期接觸到處于懷孕期的客戶,它就可以在這些客戶中培養(yǎng)新的購(gòu)物行為,使她們到塔吉特購(gòu)買雜貨,服裝或其他商品。
與所有其他大型零售商一樣,塔吉特一直通過(guò)購(gòu)物碼、信用卡、調(diào)研等收集與客戶有關(guān)的數(shù)據(jù)。它將數(shù)據(jù)與所購(gòu)買的人口特點(diǎn)統(tǒng)計(jì)數(shù)據(jù)和第三方數(shù)據(jù)混合在一起。只要對(duì)所有這些數(shù)據(jù)進(jìn)行處理,塔吉特的分析團(tuán)隊(duì)就可以確定其出售的大約25種產(chǎn)品可以一起進(jìn)行分析以產(chǎn)生“懷孕預(yù)測(cè)”分?jǐn)?shù)。然后,市場(chǎng)部可以通過(guò)優(yōu)惠券和營(yíng)銷信息來(lái)針對(duì)高分客戶。
進(jìn)一步研究表明,研究客戶的生育狀況可能會(huì)使其中一些客戶感到十分不安。據(jù)《泰晤士報(bào)》報(bào)道,塔吉特并沒(méi)有放棄其精準(zhǔn)營(yíng)銷,但它確實(shí)開(kāi)始摻入了一些其他東西的廣告,即明知道孕婦不會(huì)購(gòu)買的東西(包括在尿布廣告旁邊添加除草機(jī)廣告),從而混淆視聽(tīng)。
責(zé)任編輯:YYX
-
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238964 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132771
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論