隨著人工智能在企業(yè)和社會(huì)的應(yīng)用變得越來(lái)越普遍,企業(yè)需要注意機(jī)器模型中不斷涌現(xiàn)的人類偏見(jiàn)。企業(yè)可以利用人類的智慧來(lái)獲取訓(xùn)練算法所需的各種數(shù)據(jù)和輸入。
有一些方法可以避免數(shù)據(jù)集中的偏差。
在訓(xùn)練人工智能(AI)算法時(shí),取決于數(shù)據(jù)的輸入。在業(yè)務(wù)環(huán)境中尤其如此,在這種情況下,人工智能的目的可能是與客戶互動(dòng),管理自動(dòng)化系統(tǒng)或模仿人工決策。成果與目標(biāo)相符至關(guān)重要。但是,至關(guān)重要的是,企業(yè)必須能夠解決任何可能歪曲人工智能對(duì)指令或請(qǐng)求的響應(yīng)方式的偏見(jiàn)。
任何新產(chǎn)品的設(shè)計(jì)和開(kāi)發(fā)階段都是至關(guān)重要的,因?yàn)樗蛊髽I(yè)可以運(yùn)行測(cè)試、識(shí)別并消除任何缺陷。如果由于某種原因而忽略了設(shè)計(jì)缺陷或產(chǎn)品出現(xiàn)故障,則可以快速解決。可以召回有故障的設(shè)備,同時(shí)可以發(fā)布更新和補(bǔ)丁來(lái)修復(fù)任何軟件問(wèn)題。對(duì)于典型的軟件版本而言,這一切都很好,但是處理人工智能算法并不是那么簡(jiǎn)單。
人工智能算法是高度復(fù)雜的系統(tǒng),旨在基于機(jī)器學(xué)習(xí)(ML)執(zhí)行非常具體的任務(wù)。試圖消除人工智能投入運(yùn)行后所產(chǎn)生的任何數(shù)量的偏差可能既昂貴又費(fèi)時(shí);對(duì)于“學(xué)習(xí)”的技術(shù)而言,這也違反直覺(jué)。在設(shè)計(jì)和開(kāi)發(fā)階段采用適當(dāng)?shù)牧鞒虂?lái)檢測(cè)并消除偏差會(huì)更加有效。
偏見(jiàn)對(duì)企業(yè)不利
人工智能的基本目的和功能被引入其基礎(chǔ)算法中。如果人工智能要發(fā)展出固有的偏差,它將對(duì)算法產(chǎn)生不利影響。這可能會(huì)嚴(yán)重影響人工智能預(yù)期提供的精度和效率,從而限制人工智能滿足其商業(yè)需求的能力,所有這些都對(duì)業(yè)務(wù)不利。
盡管有開(kāi)發(fā)人員的最佳意圖,偏見(jiàn)總能找到一種滲透人工智能算法的方法。與任何學(xué)習(xí)過(guò)程一樣,學(xué)生也會(huì)受到其老師的影響。認(rèn)可機(jī)構(gòu)的教育范圍取決于其課程設(shè)置。毫不奇怪,課程越多樣化,學(xué)生越開(kāi)明。同樣,更大、更多樣化的數(shù)據(jù)集有助于產(chǎn)生更精確、更高效的人工智能算法,從而能夠做出更明智的決策。
培訓(xùn)數(shù)據(jù)和測(cè)試結(jié)果
每個(gè)成功的人工智能算法都建立在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上。但是,采購(gòu)滿足業(yè)務(wù)要求的數(shù)據(jù)可能會(huì)給物流和間接費(fèi)用帶來(lái)巨大挑戰(zhàn),尤其是如果這些要求包括滿足大眾市場(chǎng)的需求時(shí)。
內(nèi)部開(kāi)發(fā)人員團(tuán)隊(duì),軟件工程師和質(zhì)量保證專家通常來(lái)自相同的年齡范圍,性別和背景。偏差經(jīng)常發(fā)生在數(shù)據(jù)收集和數(shù)據(jù)標(biāo)記過(guò)程中。因此,在構(gòu)建人工智能算法時(shí),最好不要依賴某一個(gè)人或一個(gè)小組來(lái)提供將用于訓(xùn)練算法的數(shù)據(jù)。為了正確地訓(xùn)練算法,需要不同類型的數(shù)據(jù)和輸入。
使用為人工智能算法提供與最終服務(wù)的客戶更接近的人員和體驗(yàn)的暴露能力的模型,將會(huì)更有效率。企業(yè)可以使用這一模型來(lái)訓(xùn)練他們的算法,以響應(yīng)現(xiàn)實(shí)情況,檢測(cè)出偏差發(fā)生的地方并減少其潛在影響。
社區(qū)構(gòu)建的算法
培訓(xùn)數(shù)據(jù)的成功獲取和實(shí)施取決于數(shù)據(jù)本身的數(shù)量、質(zhì)量和多樣性。企業(yè)獲取和處理此數(shù)據(jù)的唯一方法是利用多樣化的參與者。企業(yè)需要能夠從向其提供特定人口統(tǒng)計(jì)信息的社區(qū)中進(jìn)行選擇,包括性別、種族、母語(yǔ)、位置、技能、地理位置以及其他適用的過(guò)濾條件。
實(shí)際上,開(kāi)發(fā)有效的算法需要大量數(shù)據(jù)。大多數(shù)企業(yè)沒(méi)有能力大規(guī)模地獲取數(shù)據(jù)。他們需要專用資源的支持才能交付新的軟件和服務(wù)。最近的一個(gè)培訓(xùn)用于媒體和廣播服務(wù)的智能語(yǔ)音助手的項(xiàng)目需要超過(guò)10萬(wàn)種不同的語(yǔ)音。這些話語(yǔ)最終由972個(gè)人提供,這些人被遠(yuǎn)程組裝以訓(xùn)練算法。令人難以置信的壯舉是,盡管可以在實(shí)驗(yàn)室中對(duì)語(yǔ)音進(jìn)行某種程度的模擬,但人工智能仍然需要暴露于各種真實(shí)的聲音和口音中。
言語(yǔ)訓(xùn)練只是教學(xué)大綱的一方面。眾包解決方案還可以幫助企業(yè)訓(xùn)練人工智能算法以讀取手寫(xiě)文檔。最近的另一個(gè)項(xiàng)目需要數(shù)千個(gè)手寫(xiě)樣本。數(shù)量再次成為關(guān)鍵因素,因?yàn)樵撍惴ㄐ枰M可能廣泛的唯一樣本。遠(yuǎn)程聚集了1,000多名參與者,以提供手寫(xiě)文檔并滿足對(duì)各種內(nèi)容的需求。
公正的結(jié)果
刪除可能會(huì)降低人工智能最終結(jié)果準(zhǔn)確性的意外偏差很重要。它將永遠(yuǎn)不會(huì)是完美的,但是人工智能會(huì)不斷學(xué)習(xí),并且最好的機(jī)器模型是基于大量多樣數(shù)據(jù)集的模型。最好的策略是從提供數(shù)量、質(zhì)量和多樣性的池中獲取培訓(xùn)數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)沒(méi)有多樣性,該算法將無(wú)法識(shí)別廣泛的可能性,從而使該算法無(wú)效。遠(yuǎn)程社區(qū)使企業(yè)可以訪問(wèn)此數(shù)據(jù),并補(bǔ)充內(nèi)部開(kāi)發(fā)和測(cè)試功能。眾包測(cè)試可用于訓(xùn)練人工智能算法以研究和識(shí)別語(yǔ)音、文本、圖像和生物識(shí)別,從而為企業(yè)提供強(qiáng)大的輸出,可滿足不同客戶群的需求。
責(zé)編AJX
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269481 -
模型
+關(guān)注
關(guān)注
1文章
3268瀏覽量
48926 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132773
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論