糟糕的數(shù)據(jù)對(duì)于人工智能來說是個(gè)大問題,隨著企業(yè)越來越接受人工智能,風(fēng)險(xiǎn)只會(huì)越來越高。人工智能和機(jī)器學(xué)習(xí)有望徹底改變很多行業(yè),但它們也帶來了重大風(fēng)險(xiǎn)——鑒于該技術(shù)現(xiàn)在才剛剛開始得到大力實(shí)施,其中有很多風(fēng)險(xiǎn)尚待發(fā)現(xiàn)。
已經(jīng)有一些公共的,令人尷尬的人工智能變壞的例子。微軟的Tay由于遭到推特釣魚(Twitter troll)的破壞,在一天之內(nèi)從無辜的聊天機(jī)器人變成了一個(gè)瘋狂的種族主義者。兩年前,谷歌不得不審查“大猩猩”和“黑猩猩”這樣的關(guān)鍵詞的圖片搜索,因?yàn)樗祷氐慕Y(jié)果是非洲裔美國人的照片——而這個(gè)問題仍未完全解決。
隨著企業(yè)越來越接受人工智能,風(fēng)險(xiǎn)只會(huì)越來越大。
西雅圖一家將人工智能應(yīng)用于醫(yī)療保健數(shù)據(jù)的公司KenSci的人工智能的負(fù)責(zé)人Ankur Teredesai說:“我們一覺醒來就冒汗。到最后,我們談?wù)撜鎸?shí)的病人,真實(shí)的生活。”
KenSci的人工智能平臺(tái)向醫(yī)生和保險(xiǎn)公司提供醫(yī)療保健建議。如果醫(yī)療記錄或用于創(chuàng)建預(yù)測(cè)模型的訓(xùn)練集中存在錯(cuò)誤,后果可能是致命的,這種情況揭示了人工智能實(shí)施的關(guān)鍵風(fēng)險(xiǎn)因素:數(shù)據(jù)實(shí)踐的質(zhì)量。
人工智能的護(hù)欄壞掉了
KenSci處理來自世界各地的合作伙伴組織的數(shù)百萬患者記錄。這些信息是以不同的語言,標(biāo)準(zhǔn)和格式,并按照不同的分類方案組織起來的。
為了解決這個(gè)問題,KenSci使用本土和第三方工具,它還取決于合作伙伴的醫(yī)療保健機(jī)構(gòu)。
他說:“醫(yī)療保健系統(tǒng)投入了大量的精力來制定協(xié)議、確保合規(guī)性、確保他們的數(shù)據(jù)資產(chǎn)盡可能的干凈。五年或十年前,這是個(gè)大問題,今天,由于西方世界、亞洲和澳大利亞大部分地區(qū)數(shù)字化的成熟,編碼顯著減少,世界上很多地方已經(jīng)轉(zhuǎn)向標(biāo)準(zhǔn)化。”
為了減輕對(duì)人工智能的依賴所產(chǎn)生的風(fēng)險(xiǎn),KenSci有三個(gè)額外的安全層。首先有防御錯(cuò)誤的前線:提供護(hù)理的醫(yī)生。
Teredesai說:“我們不相信人工智能。我們相信輔助智能,我們把如何行動(dòng)的決策交給醫(yī)生這樣訓(xùn)練有素的專家來制定。”
他說,KenSci平臺(tái)只是提出建議,而在大多數(shù)情況下,這些建議甚至不適用于治療。他說:“我們的大部分工作都集中在成本預(yù)測(cè)、工作流分析和工作流程優(yōu)化上,很多時(shí)候,我們離臨床決策只有幾步之遙。”
該公司自己的醫(yī)療專家通過評(píng)估外部傳來的數(shù)據(jù)以及數(shù)據(jù)使用方式上的限制來提供第二道防線。例如,來自男性患者治療結(jié)果的數(shù)據(jù)可能不適用于女性。
他說:“我們有一個(gè)嚴(yán)格的程序來確保模型不被評(píng)分——如果底層的數(shù)據(jù)不正確,不足以使該模型得到評(píng)分——錯(cuò)進(jìn)錯(cuò)出。”
最后,有外部的同行評(píng)審對(duì)KenSci模型的輸出結(jié)果,以及由平臺(tái)做出決策的因素進(jìn)行評(píng)審。
他說:“我們的研究人員在人工智能運(yùn)動(dòng)的公平性和透明度方面處于最前沿。我們相信公開出刊物,相信模型正在對(duì)分發(fā)的參數(shù)做決策,以便專家不僅可以評(píng)估模型的輸出結(jié)果,還可以評(píng)估納入該評(píng)分體系的因素和分?jǐn)?shù)。為了確保KenSci平臺(tái)是開放的、透明的、接受調(diào)查的,人們花了很多心思。”
KenSci的方法顯示了公司在進(jìn)一步依賴人工智能時(shí)需要實(shí)施的各種流程。
一切關(guān)乎數(shù)據(jù)
以人工智能為基礎(chǔ)的網(wǎng)絡(luò)安全初創(chuàng)公司Jask的首席技術(shù)官JJ Guy說,人工智能的90%是數(shù)據(jù)物流。他說,所有主要的人工智能進(jìn)展都受到數(shù)據(jù)集進(jìn)步的推動(dòng)。
他說:“算法簡單而有趣,因?yàn)樗鼈兪歉蓛簟⒑唵魏碗x散的問題。收集、分類和標(biāo)記用于訓(xùn)練算法的數(shù)據(jù)集是一份苦差事——尤其是足以反映真實(shí)世界的數(shù)據(jù)集。”
他說,以應(yīng)用提供逐向駕駛路線導(dǎo)航的程序?yàn)槔K鼈円呀?jīng)存在了幾十年,但最近才變得好用——因?yàn)橛辛烁玫臄?shù)據(jù)。
他說:“谷歌資助了一個(gè)車隊(duì),該車隊(duì)行駛在美國的每一條道路上并對(duì)道路進(jìn)行數(shù)字化繪圖。車隊(duì)將這些數(shù)據(jù)與衛(wèi)星圖像和其它數(shù)據(jù)源結(jié)合起來,然后聘請(qǐng)一批人類監(jiān)護(hù)員手動(dòng)改善表示世界各地建筑、交叉口和交通信號(hào)燈的數(shù)據(jù)。隨著人工智能應(yīng)用于更廣泛的問題,成功的方法將會(huì)就是那些認(rèn)識(shí)到成功并不是來自算法而是來自數(shù)據(jù)整理(data wrangling)的方法。”
然而,公司在開始他們的人工智能項(xiàng)目之前往往沒有意識(shí)到良好的數(shù)據(jù)的重要性。
Forrester Research的分析師Michele Goetz表示:“大多數(shù)組織并不認(rèn)為這是一個(gè)問題。當(dāng)被問及人工智能預(yù)計(jì)會(huì)帶來什么挑戰(zhàn)時(shí),擁有用于訓(xùn)練人工智能的受到悉心監(jiān)護(hù)的數(shù)據(jù)集居然最不受重視。”
Forrester去年進(jìn)行的一項(xiàng)調(diào)查顯示,只有17%的受訪者表示最大的挑戰(zhàn)在于沒有“受到悉心監(jiān)護(hù)的數(shù)據(jù)來訓(xùn)練人工智能。”
她說:“但是,當(dāng)公司開始進(jìn)行人工智能項(xiàng)目時(shí),這是從概念驗(yàn)證和試點(diǎn)項(xiàng)目轉(zhuǎn)向生產(chǎn)系統(tǒng)的最大難題和障礙之一。”
451 Research的創(chuàng)始人兼研究副總裁Nick Patience說,最大的問題之一不是沒有足夠的數(shù)據(jù),而是數(shù)據(jù)被鎖藏并難以訪問。
他說:“如果你的數(shù)據(jù)完全孤立,機(jī)器學(xué)習(xí)就不會(huì)奏效。例如,如果你的財(cái)務(wù)數(shù)據(jù)在甲骨文(Oracle)中,人力資源(HR)數(shù)據(jù)在Workday中,合同在Documentum存儲(chǔ)庫中,并且你沒有做任何事情來嘗試創(chuàng)建這些孤島之間的連接。”
他說,公司還沒有準(zhǔn)備好接受人工智能。
他說:“你不妨在每個(gè)孤島中使用標(biāo)準(zhǔn)的分析工具。”
數(shù)據(jù)問題可能會(huì)干擾人工智能
即使你有數(shù)據(jù),你仍然會(huì)遇到質(zhì)量問題,以及隱藏在訓(xùn)練集中的偏見。
最近的幾項(xiàng)研究表明,用于訓(xùn)練圖像識(shí)別的人工智能的流行數(shù)據(jù)集帶有性別偏見。例如,一張男性做飯的圖片會(huì)被誤認(rèn)為是女性,因?yàn)樵谂嘤?xùn)數(shù)據(jù)中,廚師往往是女性。
SpringBoard.ai的首席執(zhí)行官Bruce Molloy說:“無論我們有什么偏見,要是存在各種歧視、種族或性別或年齡,那些東西都會(huì)反映在數(shù)據(jù)中。”
構(gòu)建人工智能系統(tǒng)的公司需要考慮分析數(shù)據(jù)的數(shù)據(jù)和算法是否符合組織的原則、目標(biāo)和價(jià)值。
他說:“你不能將判斷、道德和價(jià)值外包給人工智能。”
他說,這可能來自幫助人們了解人工智能如何以自己的方式做出決定的分析工具,來自內(nèi)部或外部審計(jì)師,還是評(píng)估委員會(huì)。
合規(guī)性也是數(shù)據(jù)來源的一個(gè)問題——僅僅因?yàn)橐粋€(gè)公司可以獲取信息,并不意味著它可以隨心所欲地使用信息。
IDC的認(rèn)知和人工智能系統(tǒng)研究主管David Schubmehl說,組織已經(jīng)開始審計(jì)機(jī)器學(xué)習(xí)模型,并且研究進(jìn)入這些模型的數(shù)據(jù)。
他說,獨(dú)立的審計(jì)公司也開始關(guān)注它。
他說:“我認(rèn)為這將成為審計(jì)過程的一部分,但與其它任何東西一樣,這是一個(gè)新興領(lǐng)域。組織仍在試圖弄明白什么才是最佳實(shí)踐。”
他表示,在此之前,公司要謹(jǐn)慎行事。
他說:“我認(rèn)為我們還處在這樣的初級(jí)階段——人工智能或機(jī)器學(xué)習(xí)模型還只是向受過培訓(xùn)的專業(yè)人員提供建議和幫助,而不是自己完成工作。人工智能應(yīng)用程序要花更長的時(shí)間來創(chuàng)建,因?yàn)槿藗冋噲D確保數(shù)據(jù)是正確的,數(shù)據(jù)得到合理的集成,并且他們擁有正確的數(shù)據(jù)類型和正確的數(shù)據(jù)集。”
普華永道公司的股東兼全球人工智能領(lǐng)導(dǎo)者Anand Rao表示,即使完全準(zhǔn)確的數(shù)據(jù)也可能存在蓋然性的偏差。比如說,如果有一家位于中西部的保險(xiǎn)公司利用歷史數(shù)據(jù)來訓(xùn)練人工智能系統(tǒng),然后擴(kuò)展到佛羅里達(dá)州,該系統(tǒng)對(duì)于預(yù)測(cè)颶風(fēng)風(fēng)險(xiǎn)將不會(huì)有用。
他說:“歷史是有效的,數(shù)據(jù)是有效的。問題是,你在哪里使用這個(gè)模型,以及如何使用這個(gè)模型?”
假數(shù)據(jù)的崛起
這些內(nèi)在偏見可能難以發(fā)現(xiàn),但至少它們不涉及積極嘗試弄亂結(jié)果的數(shù)據(jù)源。以在社交媒體上傳播假新聞為例,這里的問題越來越嚴(yán)重。
Rao說:“這是一場(chǎng)軍備競(jìng)賽。”
雖然社交媒體公司正在努力解決這個(gè)問題,但黑客正在使用自己的人工智能來創(chuàng)建聰明得足以騙過人類的人工智能,無論是影響社交媒體還是讓廣告商相信他們才是真正的消費(fèi)者。
Lucidworks首席執(zhí)行官Will Hayes說:“我們已經(jīng)看到了影響。看看選舉以及用機(jī)器人和其它操縱者放大消息的做法。”
那些操縱者也并不總是在俄羅斯或中國。
Hayes說:“如果一個(gè)品牌希望在社交媒體上增大影響力,營銷公司想要證明他們?cè)黾恿四愕钠毓饴剩@根本就不必動(dòng)用工程師來思考他們賴以操縱數(shù)據(jù)的方法。”
這就是領(lǐng)域知識(shí)和常識(shí)發(fā)揮作用的地方。
加里根萊曼集團(tuán)(The Garrigan Lyman Group,該公司是一家營銷公司,幫助公司處理來自各種渠道的數(shù)據(jù))的首席技術(shù)官Chris Geiser說:“了解數(shù)學(xué)和模式只能讓你走到這一步了。你要了解所有的個(gè)人數(shù)據(jù)來源,這才是最重要的事情,你越了解自己的數(shù)據(jù),你想要達(dá)到的目標(biāo)以及你的關(guān)鍵績效指標(biāo),你就越能指向正確的方向。”
對(duì)數(shù)據(jù)源進(jìn)行三角測(cè)量
如果一家公司的數(shù)據(jù)有多個(gè)來源,那么在應(yīng)用任何機(jī)器學(xué)習(xí)之前,以一個(gè)數(shù)據(jù)來源為準(zhǔn)檢查另一個(gè)數(shù)據(jù)來源,這是很重要。
作為全球最大的電信公司之一,NTT集團(tuán)在其網(wǎng)絡(luò)基礎(chǔ)設(shè)施中生成了大量的數(shù)據(jù)。
NTT Security的安全研究全球副總裁Kenji Takahashi說:“我們處于安全目的而使用機(jī)器學(xué)習(xí)來分析網(wǎng)絡(luò)流量數(shù)據(jù)。我們的最終目標(biāo)是全面了解隱藏在網(wǎng)絡(luò)中的惡意僵尸網(wǎng)絡(luò)基礎(chǔ)設(shè)施。”
該公司目前正在投資技術(shù),以提高機(jī)器學(xué)習(xí)培訓(xùn)數(shù)據(jù)的質(zhì)量。為此,NTT使用“集成(ensemble)”方法,對(duì)來自不同來源的數(shù)據(jù)分析結(jié)果進(jìn)行加權(quán)投票,他這樣說道。
然后,這些數(shù)據(jù)進(jìn)入超大型數(shù)據(jù)庫,將其作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。
他說:“就像在教室里一樣,學(xué)習(xí)任何錯(cuò)漏百出的劣質(zhì)課本都是非常不利的。訓(xùn)練數(shù)據(jù)的質(zhì)量決定了機(jī)器學(xué)習(xí)系統(tǒng)的性能。”
創(chuàng)建團(tuán)隊(duì)和工具來解決問題
Infosys于1月份發(fā)布的一項(xiàng)調(diào)查顯示,49%的IT決策者表示他們無法部署他們想要的人工智能,因?yàn)樗麄兊臄?shù)據(jù)還沒就緒。
Infosys的高級(jí)副總裁兼產(chǎn)品管理和戰(zhàn)略主管Sudhir Jha說:“人工智能正在成為商業(yè)戰(zhàn)略的核心,但數(shù)據(jù)管理仍然是一個(gè)揮之不去的障礙。”
在這里,領(lǐng)導(dǎo)力才能是關(guān)鍵,對(duì)于一些開展人工智能旅程的組織來說,第一步可能是任命一位首席數(shù)據(jù)官,SAP的Leonardo和人工智能部門的全球副總裁Marc Teerlink表示,擁有首席數(shù)據(jù)官的公司能更好地管理數(shù)據(jù)。
他說:“錯(cuò)進(jìn)錯(cuò)出。數(shù)據(jù)質(zhì)量,所有權(quán)和治理都事關(guān)重大。”
普華永道的Rao說,如今的大多數(shù)公司都必須開發(fā)自己的技術(shù)來準(zhǔn)備用于人工智能和機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)。為此,你需要數(shù)據(jù)科學(xué)家,如果你內(nèi)部不具備這樣的腦力,你可以聘請(qǐng)顧問來完成這項(xiàng)工作。
一些前瞻的公司,例如Bluestem Brands,正在使用人工智能來處理供其它人工智能系統(tǒng)使用的數(shù)據(jù)。這家擁有13個(gè)不同零售品牌(包括Fingerhut和Bedford Fair)的公司已采取這種方法來確保搜索黑色服裝的顧客能獲得所有相關(guān)結(jié)果——無論供應(yīng)商將這種顏色稱為“黑色”、“午夜”、“深海市蜃樓”或“深灰色(dark charcoal)”。
IT主管Jacob Wagner說:“藝術(shù)家有無限的創(chuàng)造力來指代同一個(gè)基本色彩的色差——它永無止境”。不僅僅是顏色。他說:“同樣的問題存在于人類解析和解釋的每個(gè)屬性上。”
Bluestem用唾手可得的碎片創(chuàng)建了數(shù)據(jù)準(zhǔn)備系統(tǒng)。
Wagner說:“搜索技術(shù)在很大程度上正在商品化。詞法分析、文本匹配,所有這些技術(shù)已經(jīng)成為典范并得到了改善,開源算法與任何專有軟件包一樣高效。”
而且并不需要?jiǎng)佑貌┦考?jí)別的數(shù)據(jù)科學(xué)家來做這種事。
他說:“有了一些才華橫溢的工程師,你可以想出將它接入數(shù)據(jù)流的方法。”
Wagner是Apache Spark的忠實(shí)粉絲,Apache Spark是一個(gè)大數(shù)據(jù)引擎,它可以從很多不同來源獲取數(shù)據(jù)并對(duì)其進(jìn)行切割,Apache Solr是一個(gè)開源搜索引擎。Bluestem不僅在面向客戶的方面使用它,而且還在內(nèi)部使用它,以幫助編輯工作流(譯注:原文為editorial workflows,editorial可能是指iOS上的一款文本編輯神器,同時(shí)可用于制作工作流workflow)。
該公司還使用Lucidworks Fusion這樣的商業(yè)產(chǎn)品,后者允許商業(yè)用戶通過額外的業(yè)務(wù)邏輯來定制搜索體驗(yàn)——比如說,可以將與情人節(jié)有關(guān)的查詢集中到一系列策略集中,而不需要IT人員參與。
有了正確的數(shù)據(jù)管理策略、工具和人員,你可以大大提高組織的人工智能獲得成功的可能性。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47442瀏覽量
238996 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132773
原文標(biāo)題:人工智能最大的風(fēng)險(xiǎn)因素:數(shù)據(jù)出錯(cuò)
文章出處:【微信號(hào):D1Net08,微信公眾號(hào):AI人工智能D1net】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論