從奧巴馬到特朗普,美國(guó)一直重視在政府層面上對(duì)AI和機(jī)器學(xué)習(xí)技術(shù)的利用和開(kāi)發(fā)。比如預(yù)測(cè)高中學(xué)生輟學(xué)率、分析工傷和職業(yè)病等個(gè)人化的敏感數(shù)據(jù),對(duì)其自動(dòng)編碼歸類(lèi)等。不過(guò)機(jī)器學(xué)習(xí)并不是萬(wàn)能藥,利用機(jī)器學(xué)習(xí)需要廣泛的數(shù)據(jù)作為基礎(chǔ),過(guò)度濫用可能會(huì)產(chǎn)生偏見(jiàn)等不良后果。
就在兩年前,人工智能似乎突然出現(xiàn)在了美國(guó)政府的議事表中。
2016年8月,時(shí)任美國(guó)總統(tǒng)巴拉克·奧巴馬還擔(dān)任過(guò)《連線》雜志的客座編輯,并與麻省理工學(xué)院媒體實(shí)驗(yàn)室的負(fù)責(zé)人Joi Ito就人工智能及其影響進(jìn)行了訪談。
奧巴馬說(shuō):“技術(shù)開(kāi)發(fā)的早期應(yīng)該是百花齊放的。政府應(yīng)該增提供相對(duì)輕松的渠道,大力投資研發(fā),并確?;A(chǔ)研究和應(yīng)用研究之間的交流?!?/p>
兩個(gè)月后,奧巴馬政府發(fā)布了一份關(guān)于人工智能的報(bào)告,廣泛概述了當(dāng)時(shí)的新興技術(shù),該報(bào)告僅用了幾頁(yè)篇幅提到政府如何從人工智能中獲益。在奧巴馬離職之前幾周,政府發(fā)布了第二份報(bào)告,主要關(guān)注AI技術(shù)潛在的經(jīng)濟(jì)影響?!癆I提出了許多新的政策問(wèn)題,這些問(wèn)題應(yīng)該是未來(lái)主管部門(mén)、國(guó)會(huì)、私營(yíng)企業(yè)和公眾討論和考慮的主題?!眻?bào)告中寫(xiě)道。
從那以后,特朗普政府為將AI作為研究重點(diǎn)的機(jī)構(gòu)提供了額外的指導(dǎo)。根據(jù)2018年5月的一份白宮報(bào)告,白宮成立了AI專(zhuān)責(zé)委員會(huì),以改善聯(lián)邦政府對(duì)AI相關(guān)工作的協(xié)調(diào),并確保美國(guó)在人工智能方面繼續(xù)保持領(lǐng)導(dǎo)地位。報(bào)告指出,該委員會(huì)的工作將包括鼓勵(lì)“機(jī)構(gòu)與人工智能相關(guān)的計(jì)劃和倡議”。
在過(guò)去兩年中,各級(jí)機(jī)構(gòu)越來(lái)越多地尋求利用機(jī)器學(xué)習(xí),由橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的研究人員開(kāi)發(fā)的機(jī)器學(xué)習(xí)技術(shù)已被聯(lián)邦緊急事務(wù)管理局用于尋找被熔巖流吞噬的人造結(jié)構(gòu)。密蘇里州開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)算法,來(lái)預(yù)測(cè)城市街道上何時(shí)形成坑洼。軍方已開(kāi)始使用AI算法來(lái)預(yù)測(cè)坦克上的部件故障。
“預(yù)測(cè)”是美國(guó)政府應(yīng)用機(jī)器學(xué)習(xí)的重要途徑
如果說(shuō)上面的應(yīng)用有一個(gè)共同的主題,那就是“預(yù)測(cè)”。
在機(jī)器學(xué)習(xí)中,“預(yù)測(cè)”的意思是“根據(jù)已知的東西推斷出未知的東西,”卡內(nèi)基梅隆大學(xué)泰珀商學(xué)院助理教授Zachary Chase Lipton說(shuō)?!笆聦?shí)證明,大量任務(wù)都可以通過(guò)預(yù)測(cè)模型來(lái)表達(dá)。”
將衛(wèi)星照片、電話呼叫記錄、車(chē)輛的傳感器讀數(shù)等輸入系統(tǒng),然后要求系統(tǒng)給出輸出預(yù)測(cè)。用歷史數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型,進(jìn)行模式識(shí)別。然而,要想讓機(jī)器學(xué)習(xí)真正派上用場(chǎng),必須明確定義輸入和輸出,Lipton說(shuō)。
機(jī)器學(xué)習(xí)可以成為尋找非線性關(guān)系的理想工具。線性關(guān)系,比如與房屋大小相關(guān)的房屋成本,可以通過(guò)經(jīng)典的回歸技術(shù)得到更好的解釋。但有時(shí)我們要處理的關(guān)系不是線性的。
比如,句子中各個(gè)單詞之間的關(guān)系就不是線性的,照片中像素之間的關(guān)系也不是線性的。這些關(guān)系很復(fù)雜,但機(jī)器學(xué)習(xí)已被證明可以作為尋找這些關(guān)系的一種方法。
讓數(shù)據(jù)庫(kù)井井有條
每年年底,各州的政府機(jī)構(gòu)經(jīng)常發(fā)布年度報(bào)告,記錄前一年的成功經(jīng)驗(yàn)和未來(lái)的目標(biāo)。 2017年,伊利諾伊州的報(bào)告指出,創(chuàng)新與技術(shù)部門(mén)致力于進(jìn)一步使用人工智能、聊天機(jī)器人和高級(jí)數(shù)據(jù)分析工具,“通過(guò)新技術(shù)推動(dòng)伊利諾伊州以更有效的方式改善對(duì)本州公民的服務(wù)”。
DoIT首席數(shù)據(jù)科學(xué)家KrishnaIyer表示,該州去年發(fā)布了一項(xiàng)信息請(qǐng)求,以更好地了解機(jī)器學(xué)習(xí)和人工智能領(lǐng)域。從與供應(yīng)商的談話中可以清楚地看出,該州還沒(méi)能充分利用這些技術(shù)的潛力。
“AI技術(shù)的實(shí)際應(yīng)用與其潛力相比存在巨大差距。”Iyer說(shuō)。
盡管缺乏正式的技術(shù)平臺(tái),該州還是啟動(dòng)了數(shù)個(gè)機(jī)器學(xué)習(xí)項(xiàng)目。
伊利諾伊州稅務(wù)部門(mén)已開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)輔助預(yù)測(cè)稅務(wù)欺詐行為,教育部們利用機(jī)器學(xué)習(xí)來(lái)更好地預(yù)測(cè)哪些學(xué)生在學(xué)業(yè)上很吃力,并可能退學(xué)。
Iyer表示,經(jīng)過(guò)訓(xùn)練的稅務(wù)欺詐模型,可以發(fā)現(xiàn)欺詐行為的歷史數(shù)據(jù)模式。該模型對(duì)那些被標(biāo)記的納稅人的稅務(wù)欺詐概率進(jìn)行了預(yù)測(cè),使稅務(wù)部門(mén)更容易識(shí)別需要提供稅務(wù)申報(bào)澄清的個(gè)人。這是在過(guò)去的申請(qǐng)季節(jié)使用的。
伊利諾伊州預(yù)計(jì)今年秋季開(kāi)始使用機(jī)器學(xué)習(xí)模型來(lái)輔助教育。模型經(jīng)過(guò)未從高中畢業(yè)的學(xué)生數(shù)據(jù)的訓(xùn)練,數(shù)據(jù)中包括這些學(xué)生的學(xué)校表現(xiàn),他們所居住地區(qū)的人口統(tǒng)計(jì)數(shù)據(jù)和其他變量信息。Iyer表示,該模型為當(dāng)前學(xué)生預(yù)測(cè)了低,中,高(輟學(xué))風(fēng)險(xiǎn),學(xué)??梢詾橛休z學(xué)風(fēng)險(xiǎn)的學(xué)生進(jìn)行有針對(duì)性的干預(yù)。
讓數(shù)據(jù)自己對(duì)自己進(jìn)行歸類(lèi)
紐約市市長(zhǎng)辦公室的數(shù)據(jù)智能創(chuàng)新中心(CIDI)廣泛關(guān)注利用數(shù)據(jù)解決城市內(nèi)的無(wú)家可歸者、市內(nèi)的經(jīng)濟(jì)問(wèn)題和健康問(wèn)題。
最近的一項(xiàng)研究分析了剛擺脫無(wú)家可歸狀態(tài)的年輕人,將他們化為幾個(gè)群體中,比如經(jīng)常入獄,一直有保障性住房,一直有補(bǔ)貼住房,早年曾無(wú)家可歸,后來(lái)曾無(wú)家可歸等等。
“這有助于我們預(yù)測(cè)哪些人可能屬于哪一群體,同時(shí)有助于我們了解每個(gè)群體的資源是什么,”CIDI執(zhí)行董事Maryanne Schretzman說(shuō)。
這項(xiàng)工作需要一些嚴(yán)肅的數(shù)據(jù)加工。 CIDI使用來(lái)自8795個(gè)人的真實(shí)數(shù)據(jù)創(chuàng)建了個(gè)人資料,這一過(guò)程需要從多個(gè)數(shù)據(jù)源中提取并保護(hù)敏感數(shù)據(jù):如青少年和社區(qū)發(fā)展部、無(wú)家可歸者服務(wù)部、兒童服務(wù)管理局、監(jiān)獄和醫(yī)院等。
敏感數(shù)據(jù)從未離開(kāi)過(guò)市政府的內(nèi)網(wǎng)。 Schretzman解釋說(shuō),政府使用加密文件傳輸系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)移。
那么機(jī)器學(xué)習(xí)在哪里發(fā)揮作用?在分類(lèi)過(guò)程中。在項(xiàng)目開(kāi)始之前,這幾個(gè)類(lèi)別沒(méi)有預(yù)定義;團(tuán)隊(duì)使用R統(tǒng)計(jì)計(jì)算環(huán)境中的TraMineR軟件包進(jìn)行數(shù)據(jù)分析。
“機(jī)器學(xué)習(xí)讓你能夠指導(dǎo)數(shù)據(jù)自己進(jìn)行分類(lèi),”Schretzman說(shuō)。 “數(shù)據(jù)本身能夠?qū)ψ约哼M(jìn)行分類(lèi),這太酷了?!?/p>
躍遷:從“淺層”神經(jīng)網(wǎng)絡(luò)到深度神經(jīng)網(wǎng)絡(luò)
上面說(shuō)的紐約市和伊利諾伊州的項(xiàng)目使用的技術(shù)可以算是機(jī)器學(xué)習(xí),但只是對(duì)該技術(shù)的簡(jiǎn)單應(yīng)用。不過(guò),美國(guó)勞工統(tǒng)計(jì)局(BLS)多年來(lái)一直在使用機(jī)器學(xué)習(xí),并準(zhǔn)備從現(xiàn)在的“淺層機(jī)器學(xué)習(xí)”躍遷到深度神經(jīng)網(wǎng)絡(luò)的使用上。
每年,BLS都會(huì)收集大量數(shù)據(jù)。比如工傷和職業(yè)病調(diào)查項(xiàng)目包含了30萬(wàn)份關(guān)于工人受傷情況的書(shū)面說(shuō)明。這些響應(yīng)必須進(jìn)行編碼,比如要確保“reporter”和“journalist”的編碼是相同的,以及對(duì)傷情進(jìn)行正確的分類(lèi)等。
直到2013年,這個(gè)編碼過(guò)程都是手工完成的,大約需要20000小時(shí)才能完成。但2013年后,該機(jī)構(gòu)開(kāi)始使用機(jī)器學(xué)習(xí),用手工編碼的歷史調(diào)查數(shù)據(jù)來(lái)訓(xùn)練模型。現(xiàn)在,已有超過(guò)一半的編碼是由機(jī)器完成的。
每天晚上完成的調(diào)查都是通過(guò)自動(dòng)編碼模型運(yùn)行的,可以得出關(guān)于編碼結(jié)果的準(zhǔn)確性的概率。如果這個(gè)概率低于某個(gè)水平,則發(fā)送給工作人員進(jìn)行人工編碼。
BLS的經(jīng)濟(jì)學(xué)家Measure表示,該部門(mén)一直使用的“淺層機(jī)器學(xué)習(xí)”非常擅長(zhǎng)識(shí)別單詞或單詞對(duì),但在識(shí)別文本字符串時(shí)會(huì)有困難。“有時(shí)要理解一句話,需要理解一個(gè)詞序在整體上的含義?!?/p>
比如像“沒(méi)有腦震蕩的跡象”這樣的短語(yǔ)中,淺層機(jī)器學(xué)習(xí)可能會(huì)識(shí)別出“腦震蕩”這個(gè)詞,甚至也會(huì)識(shí)別出“腦震蕩的跡象”,但很難識(shí)別出“no”一詞否定了“腦震蕩”。深度神經(jīng)網(wǎng)絡(luò)可以模擬復(fù)雜的非線性關(guān)系,可能會(huì)對(duì)解決這個(gè)問(wèn)題有所幫助。
BLS已經(jīng)在使用Google的TensorFlow等開(kāi)源軟件,在現(xiàn)有硬件上運(yùn)行其淺層機(jī)器學(xué)習(xí)模型。不過(guò),隨著該機(jī)構(gòu)越來(lái)越多地使用深度神經(jīng)網(wǎng)絡(luò),它需要NVIDIA GPU服務(wù)器的處理能力。盡管云服務(wù)商也可以提供這種計(jì)算力,BLS數(shù)據(jù)的敏感性要求其需要使用并管理自己的硬件。
未來(lái):機(jī)器學(xué)習(xí)是靈丹妙藥,但不是萬(wàn)能藥
看起來(lái),機(jī)器學(xué)習(xí)似乎可以用來(lái)解決任何問(wèn)題,但事實(shí)遠(yuǎn)非如此。
“確保你有訓(xùn)練數(shù)據(jù),”BLS的經(jīng)濟(jì)學(xué)家Measure說(shuō)。機(jī)器學(xué)習(xí)“無(wú)法解決所有問(wèn)題,但可以解決一些問(wèn)題,在可以解決的問(wèn)題中,需要有大量的訓(xùn)練數(shù)據(jù),并且找不到更簡(jiǎn)單的自動(dòng)化解決方法。”
Delmolino表示,機(jī)器學(xué)習(xí)最容易應(yīng)用的領(lǐng)域是IT票務(wù)和呼叫中心等,這些領(lǐng)域會(huì)產(chǎn)生大量的請(qǐng)求,擁有大量的歷史數(shù)據(jù)。他說(shuō),機(jī)器學(xué)習(xí)可以對(duì)“任何高容量,長(zhǎng)等待時(shí)間或大量積壓”的事務(wù)產(chǎn)生很大影響。
Lipton警告說(shuō):“這項(xiàng)技術(shù)可以被使用,并不意味著它就應(yīng)該被使用。由于模型的使用形成了一個(gè)反饋循環(huán),預(yù)測(cè)警務(wù)等應(yīng)用程序有可能繼續(xù)或加劇社會(huì)中已有的偏見(jiàn)。”
“如果警察被派去巡邏的地區(qū)是基于’犯罪會(huì)發(fā)生在哪里’,如果你去尋找犯罪,你最終可能會(huì)發(fā)現(xiàn)犯罪,但結(jié)果有可能是會(huì)發(fā)現(xiàn)更多的犯罪。一個(gè)樣本數(shù)據(jù)有偏差的模型可能認(rèn)為這些社區(qū)發(fā)生了不成比例的犯罪,然后它將分配更多的警察?!盠ipton補(bǔ)充道。
Delmolino支持關(guān)注潛在偏見(jiàn)的必要性。機(jī)器學(xué)習(xí)實(shí)施需要主動(dòng)管理、調(diào)整模型以減少隨時(shí)間的偏差。
他說(shuō):“你不能只買(mǎi)一個(gè)神奇的工具然后部署,你必須意識(shí)到這些事情?!?/p>
Delmolino預(yù)測(cè),機(jī)器學(xué)習(xí)的下一個(gè)重要步驟可能是多個(gè)模型相互作用并協(xié)同工作的能力。
“所以我想,我們會(huì)看到一些非常吸引人的需求,比如’我如何確保我的模型互相配合?’”模型之間有沒(méi)有相互溝通的方式?’”他說(shuō)。
另一個(gè)墊腳石將是機(jī)器學(xué)習(xí)和機(jī)器人過(guò)程自動(dòng)化的整合。 RPA提供了自動(dòng)執(zhí)行任務(wù)的功能,例如傳輸文件,將數(shù)據(jù)從一個(gè)字段移動(dòng)到另一個(gè)字段或其他計(jì)算機(jī)進(jìn)程。
Forrester分析師Craig Le Clair在談到RPA時(shí)說(shuō):“目前的情況不太理想。”但隨著機(jī)器學(xué)習(xí)與技術(shù)的整合,RPA將開(kāi)始做出更多獨(dú)立于人類(lèi)參與的決策。
如果將機(jī)器學(xué)習(xí)比作大腦,那么我們可以將RPA視作肢體,它提供了跨企業(yè)網(wǎng)絡(luò)訪問(wèn)和抓取不同系統(tǒng)的能力,在大腦認(rèn)為合適的時(shí)候做出改變。
“這些都是非常通用的工具,”Lipton談到機(jī)器學(xué)習(xí)時(shí)說(shuō),“我認(rèn)為它們?cè)谌魏未笮徒M織中都能找到大量的用例,包括政府?!?/p>
-
人工智能
+關(guān)注
關(guān)注
1794文章
47642瀏覽量
239671 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132929
原文標(biāo)題:從奧巴馬到特朗普,美國(guó)政府全面擁抱機(jī)器學(xué)習(xí)之路
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論