我們正在人工智能時代的前夜,從上世紀五十年代的達特茅斯會議至今,人類花了漫長的時間去實現讓人工智能降臨的三大條件:算法、算力和數據。三者中,新的算法讓科學家們有著智者般的光環,算力的突破則是 ICT 巨頭們相互炫耀的成就。只剩下數據,這個最為重要且龐大的領域,開始有越來越多的人好奇數據的生產過程。
隨著人工智能產業落地的發展加速,應用人工智能對優質數據的渴求越來越強烈?!赶乱粋€十年,人工智能需要更好的數據」Testin 云測 CTO 陳冠誠這樣堅信。過去十年中,這個行業出現了互聯網數據—數據集—眾包數據—定制化等商業模式,隨著人工智能發展到不同的階段,對數據服務也提出了不同的需求,以往層層外包、同質化嚴重、數據質量和安全少有保障的「數據工廠」,正逐漸被淘汰掉。
每個行業都有其生命周期,也有其上下產業鏈,我們所能看到的是,數據服務產業正跟隨人工智能來到了關鍵的產業上升轉型期,整個行業將豹變,未來十年的人工智能需要什么樣數據服務?我們邀請了陳冠誠來講述答案。
以下是 Testin 云測 CTO 陳冠誠在 GeekPark IF X 上的演講實錄(經極客公園編輯整理):
大家下午好!
今天大家聽到的搜狗同聲傳譯,還有傅盛剛剛提到的獵豹移動機器人,其實都是人工智能前端的應用,大家有沒有想過,這些光鮮的人工智能應用背后有什么有意思的故事呢?這是我今天想要跟大家分享的主題。
其實 Testin 云測經常跟 AI 企業同臺獲獎,但可能在座很多觀眾對我們沒有特別了解,而這也是我今天跟大家分享的目的。
但是,這些其實都是前端,前端就是跟我們用戶交互的應用,大家有沒有想過,這些應用背后到底是怎么實現的?我相信在座很多人都聽過人工智能三要素:
1、算力
2、算法
3、數據
如果我們把人工智能比作一個個學生,老師自然是它們背后一個個實現這些機器學習算法的工程師,老師去教學生自然需要教材,教材就是我今天想要跟大家分享的數據。
從我們自己從小到大的學習經歷來講,我們學過典型的語、數、外,非常多門類的學科,一個好的教材其實是很難得的,那個時候可能大家趨之若鶩的是名校出的一些非常好的教材,或者課外輔導教材,大家都認為這樣的教材有保障,對教育學生有很好的效果。
其實高質量的 AI 數據也有一樣的效果,為什么我們說制作一個好的教材、生產一個好的 AI 數據很困難呢?給大家看一個例子。
這其實是云測數據曾經制作過的一些教材或者數據,里面包括圖像、視頻、文本,在這些大類下面還有紛繁復雜的需求。
比如用天津話說的英語、用四川話說的法語,這個雖然聽上去很奇葩,但是這個是真實出現過的例子,比如說不同人種的人臉數據等,比如說你從大段的文字里面去摘取里面專業的形容詞、修飾詞。這些 AI 應用的落地本身是在各個場景下的,我們如果把人工智能看作是一個學校里面不同的學生,他們可能都有不同的性格、脾氣、特長、擅長的領域,這就意味著如果我們想要教好這些學生,我們的教材必須能夠適應各種各樣專長、領域教學的需求。
這樣的話,老師才能夠更好的因材施教,把這些學生教得更聰明、更專業,我給大家看一個例子,這張圖其實一目了然,有藍天、白云、道路,上面也有車道線,中間有一個行人。
要解決這一類的問題其實很簡單,只要在你的教材里能夠覆蓋到這種場景。
對于 AI 來說,多樣化的場景,就像是一個個學生一樣,它需要我們的這些教材,或者說我們這些數據,不僅要覆蓋到,而且還要求精度足夠的高。這樣的話我們這些 AI 算法背后的工程師,或者說這些老師,才能夠更好地因材施教,把這些學生教成各個領域里面出類拔萃的學生。
我們把這些質量高、針對性強的數據叫做是好的數據。我們怎么區分一個數據的好壞呢?其實在這個行業里面,我們很容易把它分成三個維度:
第一,效率
第二,安全
第三,精準度或者說質量
我一一給大家解釋一下,我們先聊一聊效率,大家知道人工智能這個行業,其實迭代的速度會非常快,剛剛傅盛也提到他們做獵豹移動的機器人,每一代的機器人可能都是不一樣的,這么高的迭代速度,其實對于你怎么高效率獲得高質量的據作為教材,提出了非常高的要求,就是效率這個維度。
另外一個維度是安全,大家知道現在公民的隱私越來越受到關注和保護,我們如果要真的去做一個好的數據,作為 AI 算法的教材,一定要注意保護好公民的隱私,且獲取合法合規的授權,來保證你拿到的數據是沒有問題的。
然后就是質量,這個其實是非常顯而易見的,但是我唯一要強調的一點是說,因為整個 AI 現在落地場景的多元化,所以其實整個行業對于好教材或者是好數據的要求,必須是你能夠在你覆蓋的所場景下質量精準高。
可以說作為人工智能的三要素,如果沒有數據或者是沒有好的數據,人工智能肯定是沒有未來的。今天的大主題其實是下一個十年,我們知道如果想要展望未來,我們先要更好地回顧一下過去,看看我們有什么可以借鑒的地方。
我們跟大家先分享一下,整個數據的行業來龍去脈,其實我們知道整個互聯網經過了幾個浪潮,比如說 PC 互聯網、移動互聯網、智能互聯網或者說下一代的智能物聯網 IoT、AIoT,我們去看最早的時候,其實行業里面通過互聯網已經沉積了很多用戶的數據,比如說用戶的點擊和瀏覽的數據。
這些數據能夠干什么呢?其實大家今天已經享受到了非常多的應用,比如說你在進行新聞瀏覽的時候,它的推薦引擎會利用你過往瀏覽行為、點擊行為給你推薦你感興趣的內容。
另外就是通用型的數據產品,我給大家舉個例子,比如說你可能是一個 APP 的開發商,或者說做了一個 APP 的公司。然后你沉淀了很多用戶的數據,比如說你的用戶可能上傳了很多用戶的頭像。
我認為,從我們的角度去看這個行業的話,未來的 10 年定制化的數據服務,就是整個人工智能行業里面最主流的方式。
我們再聊一聊,什么是定制化數據,或者說定制化數據的整個發展趨勢里面最重要的哪些內容,其實我個人認為會有五大塊:
第一,設備的定制化
第二,場景的定制化
第三,樣本的定制化
第四,工作的協同化
第五,工作的專業化
隨著技術和行業的發展,慢慢地從單攝像頭的方案過渡到了多攝像頭的方案,隨著行業的進一步發展,有一些人選擇了多攝像頭純視覺的方案是不能滿足要求的,我們必須引入更多專業定制的設備,比如激光雷達。
我們先不去爭論在自動駕駛行業里未來到底是純視覺的多攝像頭解決方案,還是攝像頭+激光雷達的方案,哪一個會成為主流,但是我們去看的話,只看算法落地的效果,多攝像頭+激光雷達這種多維數據組合,用定制化設備進行多維數據組合的算法,精度確實得到了更多提升,這就是我們認為越來越多定制化的設備會出現在數據生產過程中的原因。
第二個趨勢,場景定制化。AI 一個很典型的應用是安防領域,如果你想要生產非常高質量、能夠覆蓋更多場景的數據或者教材,最高效率去實現這種場景覆蓋的方法就是搭建一個專業的場景實驗室,然后你去人為的模擬各種各樣的光線強度、角度,以覆蓋不同的場景,甚至是長尾場景的數據需求。
第三個趨勢,樣本的定制化,我們知道今天很多 AI 應用都是以人為中心,人其實是一個非常多元化、多樣化的物種,比如我們有黃種人、白人、黑人,比如說我們有各種各樣的方言,像普通話、四川話、廣東話等等,我們還有很多不同年齡段的圈層,比如說年輕人、老年人、兒童。AI 具有普惠性,如果你想要你做的 AI 服務好這些人群的話,就必須為這些樣本考慮,覆蓋各種各樣的樣本。
第四個趨勢,工作的協同化,這里面可以給大家分享一些背后的故事,在我們內部,整個數據制造的生態大概會有 30 多個環節,這些環節參與的人員、角色是多種多樣的,比如說產品經理、采集人員、標注人員、審核人員、質檢人員,以及提出需求的算法工程師、AI 應用的產品經理等,如何讓這些人更好地協作對于整個工作協同效率的提升提出了很高的要求。
第五個趨勢,行業背景的專業化,不知道大家有沒有了解過 X 光片診斷機器人背后是怎么實現的,如果你要去制作一個能夠訓練出一個好的 X 光片診斷機器人的教材(數據),你有可能需要副主任醫師以上級別的人,才能正確的標注 X 光片里面到底是什么疾病,這種專業的要求發生在醫療、教育、法律等非常多的細分領域上。
一個 AI 應用的成功直接關系到一個企業的效率、用戶的感受、產品的問題,如果我們說 AI 正在改變這個世界,其實從落地的角度上看,驅動 AI 改變世界的背后是數據正在發生作用。
Testin 云測一直秉持著一個獨立第三方的行業角色。在移動互聯網時代我們是云測試的開創者。在人工智能產業化落地的大趨勢下,我們以人工智能三要素之一的數據為抓手,成立 AI 數據標注品牌-云測數據。不到兩年的時間,云測數據已經發展成為國內 TOP 級的數據標注服務商?,F在我們在華北、華東、華南有著自建的數據場景實驗室和數據標注基地,目前有著千人規模的全職標注人員團隊,來做整個 AI 數據的生態。
除了這些硬件之外,我們也有行業領先的自研數據標注系統、數據采集系統、數據審核流程等等,通過專業的項目經理來把控,每一個數據生產的過程,以保證整個質量是合格的。
除此之外更重要的、也是我們 AI 數據服務的前置底線——數據安全。
第一,不濫用數據,數據交付后清毀數據不留底,絕不二次使用;
第二,不侵犯隱私,與所有數據采集的用戶都簽訂數據授權協議,確保 AI 企業用于訓練的數據合法合規;
第三,建立了相關的數據保障機制,如從防火墻的設置、內部信息系統的管護、乃至標準化的流程作業體系等。
這些都是云測數據正在全力在做的事情。
今天有機會來到極客公園,跟大家一起分享人工智能背后數據的生產制造過程,希望給大家分享的內容能讓大家意識到除了在 AI 應用之外,人工智能的背后還有這么多跟數據生產、制造相關的有意思的事情。
我們把 AI 應用看作一個個學生,那些老師就是他們背后的算法工程師,而云測數據做的就是生產好的教材,讓這些老師更好的因材施教,變成更好的 AI 應用。
? ? ? 責任編輯:ct
評論
查看更多