從1956年美國達(dá)特茅斯會(huì)議與會(huì)的專家們確認(rèn)人工智能的名稱和任務(wù)以來,AI正式誕生。經(jīng)過半個(gè)多世紀(jì)的發(fā)展,人工智能發(fā)展得怎么樣了?也許用幾組數(shù)據(jù)最能說明問題:
1998年至2018年間,全球AI領(lǐng)域論文、期刊數(shù)量大幅增長,總數(shù)突破63萬篇,年復(fù)合增長率達(dá)到11.59%。
截止2018年上半年,在全球范圍內(nèi)共監(jiān)測到4998家AI企業(yè)。其中美國2039家世界第一,其次是中國1040家(不含港澳臺地區(qū))。
2013年以來,AI領(lǐng)域投融資規(guī)模情況持續(xù)高漲。2017年AI投融資總規(guī)模達(dá)到395億美元。
進(jìn)入2019年,人工智能發(fā)展仍然如火如荼。“人工智能市場繼續(xù)快速增長。”IDC認(rèn)知/人工智能系統(tǒng)研究主管David Schubmehl說,“希望利用人工智能、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的供應(yīng)商需要迅速采取行動(dòng),在這個(gè)新興市場中占據(jù)一席之地。IDC已經(jīng)看到使用這些技術(shù)推動(dòng)創(chuàng)新的組織在收入、利潤和整體方面受益,領(lǐng)導(dǎo)各自的行業(yè)和細(xì)分市場。”根據(jù)IDC報(bào)告數(shù)據(jù)統(tǒng)計(jì),2018年中國人工智能市場規(guī)模達(dá)17.6億美元,至2023年將達(dá)到119億美元。全球認(rèn)知和人工智能系統(tǒng)的支出將在2022年達(dá)到776億美元,是2018年預(yù)測的240億美元的三倍多。
作為人工智能的三大決定性影響因素,算法、算力和數(shù)據(jù),在過去的幾年時(shí)間里也紛紛取得了突破。機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等算法理論的升級,讓人工智能在核心技術(shù)方面取得重要進(jìn)展;GPU、并行計(jì)算等異構(gòu)計(jì)算及AI芯片、5G的普及,成為人工智能計(jì)算能力的重要支撐;此外,全球數(shù)據(jù)的快速增長催生數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展。
數(shù)據(jù)的快速增長催生數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展
在數(shù)據(jù)的加持之下,新一代人工智能的發(fā)展也成為熱點(diǎn)。但是就目前的數(shù)據(jù)采集和標(biāo)注的情況來看,缺乏各種場景化、領(lǐng)域性的數(shù)據(jù)是一種新常態(tài),傳統(tǒng)的數(shù)據(jù)滿足不了需求。AI對數(shù)據(jù)的質(zhì)量、規(guī)模和個(gè)性化方面的要求會(huì)越來越高,也成就了一批在數(shù)據(jù)領(lǐng)域“淘金”的企業(yè)。
AI不靈光的背后:缺乏數(shù)據(jù)
作為人工智能的領(lǐng)頭羊企業(yè),谷歌的地位不容質(zhì)疑。但是在過去的1年多時(shí)間里,因?yàn)锳I的不靈光,導(dǎo)致了這家IT企業(yè)的CEO在面對外界質(zhì)疑時(shí)感到非常尷尬。
2018年底,網(wǎng)友在Google搜idiot(中文意思白癡)時(shí)出現(xiàn)的80%結(jié)果都是特朗普,這個(gè)問題讓谷歌首席執(zhí)行官桑達(dá)爾·皮查伊感到十分惱火。他對此做出了回應(yīng):“我們的搜索結(jié)果,大多數(shù)都是根據(jù)數(shù)據(jù)進(jìn)行智能判斷的。”據(jù)了解,谷歌的程序會(huì)把整個(gè)互聯(lián)網(wǎng)的信息搬到數(shù)據(jù)庫,然后從數(shù)千億個(gè)網(wǎng)頁中收集信息。當(dāng)有人用谷歌搜索引擎搜索時(shí),系統(tǒng)會(huì)通過Google搜索“算法”的列規(guī)則和流程提供這些信息。在此過程中,將用戶的查詢請求與索引中的信息進(jìn)行比較,并確定出現(xiàn)在搜索結(jié)果頂部的頁面。
谷歌的算法應(yīng)該是可信的,但是為什么會(huì)出現(xiàn)這種情況?很大的可能性是因?yàn)閿?shù)據(jù)質(zhì)量欠佳,或者某一類型的數(shù)據(jù)欠缺,導(dǎo)致了系統(tǒng)給出了這樣的判斷。在此之前的2018年初,谷歌的一款人工智能APP甚至將一名亞洲男性識別為女性,甚至把一對黑人兄妹誤認(rèn)是猩猩,最后導(dǎo)致了APP下架。谷歌發(fā)言人表示:導(dǎo)致這種原因的結(jié)果是因?yàn)槟壳皥D庫所存的圖片不夠多,歷史畫作無法對應(yīng)現(xiàn)實(shí)世界的真實(shí)性。
可以看出,數(shù)據(jù)對于AI的重要性非常高,甚至?xí)绊懙剿鼈兡芊癜凑疹A(yù)想的目標(biāo)來運(yùn)行。對高質(zhì)量數(shù)據(jù)的需求是無止境的,AI數(shù)據(jù)眾包服務(wù)也逐漸進(jìn)入了企業(yè)們的視野。在國外以亞馬遜的Mturk規(guī)模最大,據(jù)稱擁有50萬人每日在線提供數(shù)據(jù)的采集和標(biāo)注。Mturk能夠利用全球員工的集體智慧,技能和洞察力來簡化業(yè)務(wù)流程,增強(qiáng)數(shù)據(jù)收集和分析,并加速機(jī)器學(xué)習(xí)開發(fā)。
國內(nèi)率先瞄準(zhǔn)數(shù)據(jù)眾包服務(wù)的是一些互聯(lián)網(wǎng)巨頭,如百度、京東,除此之外還有主打自建采集標(biāo)注基地的云測數(shù)據(jù)等企業(yè)。按照云測數(shù)據(jù)總經(jīng)理賈宇航所說,幫助企業(yè)打造數(shù)據(jù)核心壁壘,大幅度推動(dòng)AI進(jìn)一步落地,是云測數(shù)據(jù)一直賦予自身的“使命”。
從測試到AI,找準(zhǔn)切入點(diǎn)是關(guān)鍵
從2017年開始是中國人工智能爆發(fā)的時(shí)代,越來越多的移動(dòng)APP公司開始利用人工智能幫助更新交互化的模式,比如刷臉開機(jī),采用AI技術(shù)為用戶服務(wù)。企業(yè)通過產(chǎn)品優(yōu)化提供更好的服務(wù),未來人工智能在產(chǎn)品迭代過程中變得必不可少。云測成立于2011年,業(yè)務(wù)主要集中在移動(dòng)APP測試領(lǐng)域。隨著人工智能在產(chǎn)品開發(fā)端的融合,一些 AI 企業(yè)主動(dòng)找到云測提出 AI 數(shù)據(jù)服務(wù)的需求。如果說最初選擇應(yīng)用測試是行業(yè)所趨的話,這次與“數(shù)”結(jié)緣則完全是需求導(dǎo)向。
為什么選擇在數(shù)據(jù)服務(wù)領(lǐng)域發(fā)力?賈宇航這樣回應(yīng):算力,主要通過計(jì)算來優(yōu)化模型(算力,主要是企業(yè)內(nèi)部的運(yùn)算資源),這一領(lǐng)域更多的是硬件企業(yè)及云計(jì)算在涉足,客戶通過服務(wù)購買或硬件投入的形式完成。算法更多的是企業(yè)通過自研的方式或通過調(diào)用第三方API在投入,主要成本是研發(fā)、人力和算法調(diào)用,包括各種開源的算法。他們?nèi)绻蛨鼍敖Y(jié)合,就需要更多的企業(yè)來提供數(shù)據(jù)。
就這樣,一些企業(yè)欠缺使用場景的數(shù)據(jù),就可以通過云測數(shù)據(jù)來提供樣本或者搭建場景,進(jìn)行采集、標(biāo)注,交給算法模型進(jìn)行驗(yàn)證,做到識別率的提升。也有一些企業(yè)的產(chǎn)品發(fā)布了,一些環(huán)節(jié)還需要完善,也通過云測數(shù)據(jù)補(bǔ)充采集一些數(shù)據(jù)并進(jìn)行標(biāo)注,優(yōu)化算法,實(shí)現(xiàn)在線升級,提升精度。
從行業(yè)角度來看,2014年-2015年人工智能剛剛爆發(fā),數(shù)據(jù)服務(wù)企業(yè)更多地是通過網(wǎng)絡(luò)爬蟲等工具收集收據(jù),并打包成產(chǎn)品賣給企業(yè),這些通用的產(chǎn)品能解決客戶的普遍需求。到了2016-2017年,數(shù)據(jù)眾包服務(wù)模式開始出現(xiàn),亞馬遜勞務(wù)外包平臺Amazon Mechanical Turk就是典型。傳統(tǒng)互聯(lián)網(wǎng)上的人臉照片包括多人多側(cè)臉的照片,但是很難找到一個(gè)人多種側(cè)臉的照片,在這種情況下,通用型產(chǎn)品或者互聯(lián)網(wǎng)的數(shù)據(jù)很難解決的問題,Turk則可以獲取到這種數(shù)據(jù)并進(jìn)行補(bǔ)充。到了2017-2019年,人工智能對數(shù)據(jù)的需求進(jìn)一步升高,算法中存在很大的局限性,來源于已有設(shè)備中的元器件、傳感器采集到的數(shù)據(jù)對算法的提升作用非常有限。像云測數(shù)據(jù)這樣的數(shù)據(jù)服務(wù)企業(yè)就會(huì)自研一些場景或者是硬件,不僅對已有的數(shù)據(jù)質(zhì)量進(jìn)行提升,還會(huì)對不同維度的數(shù)據(jù)進(jìn)行采集。比如在收集圖像數(shù)據(jù)同時(shí)采集聲音,幫助進(jìn)行判斷。
從2017年開始,云測數(shù)據(jù)開始對客戶提供定制化場景數(shù)據(jù)采集和標(biāo)注服務(wù)。賈宇航介紹,“基于人工智能對不同維度數(shù)據(jù)和不同場景環(huán)境下數(shù)據(jù)采集要求,我們在華東、華北、華南都設(shè)有數(shù)據(jù)交付中心和采集基地。比如有客戶提出采集24種不同光線下的人臉表情,云測數(shù)據(jù)會(huì)安排特定人群到特定場景實(shí)驗(yàn)室進(jìn)行表情采集,給客戶提供特定場景、設(shè)備下的用戶特征數(shù)據(jù),以幫助企業(yè)完善產(chǎn)品發(fā)布之前需要的數(shù)據(jù)。”
隨著時(shí)代的進(jìn)步,人工智能對數(shù)據(jù)的要求也更加復(fù)雜,精度會(huì)有提升,對標(biāo)注對象關(guān)鍵點(diǎn)的數(shù)量、序號會(huì)有不同要求。針對這些變化,云測數(shù)據(jù)從2017年開始搭建自己的標(biāo)注團(tuán)隊(duì)和基地,通過提出方法論,對應(yīng)教學(xué)流程,以自建基地的方式,讓標(biāo)注和質(zhì)檢人員、項(xiàng)目經(jīng)理每天面對面溝通,確保每個(gè)人能夠理解,并掌握標(biāo)注有關(guān)技術(shù),技能和經(jīng)驗(yàn)?zāi)軌虻玫匠掷m(xù)的提升。
對于溝通產(chǎn)生的作用,賈宇航表示,“很多標(biāo)注人員即使知道該標(biāo)在哪個(gè)部位,可能在精度上還會(huì)相差幾個(gè)像素,這樣的操作過程到了質(zhì)檢系統(tǒng)那里就會(huì)通不過,質(zhì)檢人員會(huì)在流程中將工作打回重新標(biāo)記,項(xiàng)目經(jīng)理通過這樣的溝通,會(huì)對每個(gè)人員的標(biāo)記痕跡及特點(diǎn)進(jìn)行統(tǒng)計(jì),然后進(jìn)行一對一的交流,這樣的過程能夠幫助他們進(jìn)行理解。”
滿足客戶數(shù)據(jù)需求,提升AI競爭力
隨著技術(shù)的發(fā)展,AI會(huì)和產(chǎn)業(yè)融合越來越緊密。對于數(shù)據(jù)服務(wù)企業(yè)來說,也需要具備相關(guān)產(chǎn)業(yè)知識、領(lǐng)域知識。這些知識需要與標(biāo)注人員進(jìn)行持續(xù)的溝通和交流,才能得到有效的積累,從而理解客戶所做的事情。舉個(gè)例子,對自動(dòng)駕駛行業(yè)的數(shù)據(jù)采集,有開車經(jīng)驗(yàn)的就會(huì)標(biāo)注的比較好,只有通過專業(yè)的培訓(xùn)和知識體系掌握,才能確保大家理解得比較到位。
賈宇航將人工智能訓(xùn)練需要的數(shù)據(jù)服務(wù)分為三個(gè)階段:互聯(lián)網(wǎng)數(shù)據(jù)采集、眾包數(shù)據(jù)服務(wù)、定制化數(shù)據(jù)采集服務(wù)。“這幾個(gè)階段可以理解為嬰兒不同時(shí)期需要吃不同的奶粉”。早期客戶對數(shù)據(jù)的精度要求其實(shí)沒有那些高,可以不用選擇定制化的數(shù)據(jù)服務(wù)模式。如果企業(yè)的產(chǎn)品馬上要落地了,并且已經(jīng)有了嚴(yán)格的迭代周期,那么就會(huì)用到定制化數(shù)據(jù)采集服務(wù)。
當(dāng)然,并不是所有的企業(yè)都是這樣,對數(shù)據(jù)采集和標(biāo)注有諸多嘗試,并需要高精度數(shù)據(jù)需求的更多的是行業(yè)的領(lǐng)導(dǎo)者或先驅(qū)者,通過做很多的嘗試,用人工智能的方式顛覆已有交互模式,擴(kuò)大收益減少成本。
現(xiàn)在,云測數(shù)據(jù)重點(diǎn)關(guān)注四個(gè)行業(yè):智能安防、智能駕駛、智能家居和智慧金融。安防領(lǐng)域,可以理解為對智慧城市中交通流量的把控,可以決定紅綠燈長短時(shí)間,或者從安全的角度出發(fā)阻止打架斗毆,還有為防止老人小孩走丟,在半個(gè)小時(shí)內(nèi)將他們的行動(dòng)軌跡描畫出來,以便進(jìn)行追蹤;駕駛包括自動(dòng)駕駛和輔助駕駛。自動(dòng)駕駛方面,比如滴滴出行正在研發(fā)的自動(dòng)駕駛出租車,在未來可以替代司機(jī)的角色。輔助駕駛方面,很多汽車企業(yè)會(huì)做云交互、疲勞檢測,通過攝像頭等工具的搭建,完成以人為中心的數(shù)據(jù)采集;家居領(lǐng)域,原來主要是以手機(jī)作為入口,現(xiàn)在每一個(gè)電器都有可能成為入口。對應(yīng)的會(huì)進(jìn)行一些語音數(shù)據(jù)的采集,再將這些語音轉(zhuǎn)為文字,并能讓人工智能系統(tǒng)理解;金融方面主要分為兩個(gè)部分,一是OCR票據(jù)相關(guān)的數(shù)據(jù)標(biāo)注,比如轉(zhuǎn)寫等工作,二是金融客服機(jī)器人、RPA等領(lǐng)域。
在數(shù)據(jù)服務(wù)市場,云測數(shù)據(jù)目前屬于第一梯隊(duì)。賈宇航坦言并不擔(dān)心競爭,數(shù)據(jù)服務(wù)行業(yè)的硬門檻是服務(wù)管理體系,做數(shù)據(jù)服務(wù)的企業(yè)員工比較多,管理不是一件容易事。另一方面,技術(shù)是積累,云測數(shù)據(jù)雖然不做算法,但是在技術(shù)投入上很大。云測數(shù)據(jù)的使命價(jià)值,是讓企業(yè)擁有數(shù)據(jù),構(gòu)建核心競爭力。“我們的價(jià)值定義體現(xiàn)了對數(shù)據(jù)安全的考慮。我們在整個(gè)工具研發(fā)過程中,數(shù)據(jù)標(biāo)注相關(guān)的服務(wù)者只有操作的權(quán)利,沒有獲取權(quán)力。”
一般的數(shù)據(jù)采集流程是這樣的——對應(yīng)的工具采集完成之后會(huì)存儲到本地?cái)?shù)據(jù)中心,確保這一過程沒有人工獲取數(shù)據(jù)的風(fēng)險(xiǎn)。標(biāo)注人員使用的電腦都是沒有USB接口的,使用內(nèi)網(wǎng)連接,直接通過瀏覽器端打開平臺進(jìn)行數(shù)據(jù)標(biāo)注,數(shù)據(jù)存放在服務(wù)器中,交付完成之后數(shù)據(jù)會(huì)銷毀。
賈宇航表示,云測數(shù)據(jù)一直關(guān)注著AI的進(jìn)化過程。“客戶的需求會(huì)更加細(xì)分,對行業(yè)領(lǐng)域的沉淀要求也會(huì)更高,我們會(huì)對更多的細(xì)分領(lǐng)域做業(yè)務(wù)和知識的沉淀,滿足他們的需求。”
來源:中國信息化雜志
評論
查看更多