OpenAI擔心其NLP模型“過于強大”或遭濫用而不公開代碼及模型的做法似乎引發眾怒。今天外網AI圈幾乎全是對OpenAI的批評及嘲諷,盡管微弱的支援聲夾雜其中?!肮_代碼”再次成為焦點,這次你站在哪一邊?
OpenAI火了,雖然并非以他們希望的方式。
昨天,OpenAI在官博宣布,他們構建了一個強大的NLP模型,但正因為這個模型過于強大,能夠生成以假亂真的句子,為了避免其遭到濫用,他們決定不公開模型的具體結構和代碼 (而僅發布了一個小很多的樣例)。
“大型的通用語言模型可能會產生重大的社會影響,”OpenAI的官博這樣寫道,他們的這個模型現在公布出來,“可能被用于生成假新聞、在線假裝某人的身份、在社交媒體上發布虛假內容或故意誤導言論,以及自動生成垃圾郵件/網絡釣魚內容”。
OpenAI還援引了DeepFake,這是計算機視覺界一個臭名昭著的例子,DeepFake由于其強大的圖像生成能力,成了一個“假臉生成器/換臉器”,制造出大量惡意的虛假視頻、音頻和圖像而被禁用。
OpenAI還在博客中寫了對相關政策的討論,包括確保AI研究安全可靠,符合倫理道德標準。但沒想到的是,良苦的用心,卻遭到網友幾乎一邊倒的批評和譏諷。
OpenAI干脆改名“CloseAI”算了!
我也做了個超強大的MNIST模型,要不要擔心它被濫用而不公開呢?
更有甚者,比如下面這位Ben Recht,還發了一條Twitter長文進行嘲諷:
今天我要介紹我們的論文“Do ImageNet Classifiers Generalize to ImageNet?”我們嘗試按照原論文描述復現其結果,但發現這樣做實在太難!
……我們完全可以基于一個不能公開的數據集構建一個超大模型,在我們自己的標準ML范式中很難發生過擬合。
但是,測試集上的一個微小改動就會導致分布結果大幅變化,你可以想見把模型和代碼全都公布出來以后會發生什么!
PS 這篇論文還在arxiv等候審核發布,要不是我們的最終版PDF過大,那就是因為arxiv也學著OpenAI的做法,覺得AI/ML研究太過危險而不能公開。
OpenAI:新NLP模型很強大,公布后可能遭濫用
從研究的角度來看,OpenAI昨天宣布的“強大”NLP模型GPT-2,技術突破性體現在兩個方面。首先,是模型的容量空前巨大。
根據OpenAI的研究主管Dario Amodei介紹,GPT-2的參數有15億,是上一個版本GPT大小的12倍,訓練數據集則擴大了15倍。
GPT-2在一個包含約1000萬篇文章的數據集上進行訓練,而這些文章來源是從Reddit上點贊超過三票的鏈接里爬出來的,大小是40GB,相當于3.5萬本《白鯨記》(Moby Dick)。
實際上,GPT2就是一個自動文本生成器,但鑒于其訓練數據量直接影響模型的性能,也使GPT2成為一個更加通用的語言生成模型,這也正是其第二個突破所在:相比以往的文本模型,GPT2能完成更多的任務,包括機器翻譯、文本總結,以及閱讀理解,而且有的時候,其性能還超過了專門為某種任務——比如閱讀理解——構建的模型。
也正因如此,致使OpenAI違背其名稱中宣揚的“Open”理念,不公開這個模型?!叭绻銦o法預測模型能夠做什么,你就不得不去做各種實驗,但這個世界上有太多太多比我們更聰明更厲害,更善于拿這個模型去做壞事的人存在?!?/p>
OpenAI宣傳主管Jack Clark在接受《衛報》采訪時表示:“我們并不是說我們知道什么該做,我們也并不是在通過這種方法在表明這樣做就是對的,我們還在探討更嚴謹和謹慎的做法。我們算是摸著石頭過河?!?/p>
OpenAI給出了其模型強大的例子,可以參見昨天新智元的報道。
網友觀點:不公開代碼和訓練集就干脆別發表!
至于持反對觀點的網友這邊,很多人恰恰是因為了解模型在訓練集和測試集上表現的區別,才紛紛反對OpenAI不公開全部代碼和數據集的做法。
其次,OpenAI“擔心AI研究太危險而不公開”的理由,也成了眾矢之的。比如Denny Britz在Twitter上發文稱:
是不是又該舊話重提,“AI能自己生成語言,所以不能再研究AI了!”
去年,加拿大蒙特利爾大學的計算機科學家們希望展示一種新的語音識別算法,他們希望將其與一名著名科學家的算法進行比較。唯一的問題:該benchmark的源代碼沒有發布。研究人員不得不從已公開發表的描述中重現這一算法。但是他們重現的版本無法與benchmark聲稱的性能相符。蒙特利爾大學實驗室博士生Nan Rosemary Ke說:“我們嘗試了2個月,但都無法接近基準的性能。”
人工智能(AI)這個蓬勃發展的領域正面臨著實驗重現的危機,就像實驗重現問題過去十年來一直困擾著心理學、醫學以及其他領域一樣。AI研究者發現他們很難重現許多關鍵的結果,這導致了對研究方法和出版協議的新認識。法國國家信息與自動化研究所的計算神經科學家Nicolas Rougier說:“這個領域以外的人可能會認為,因為我們有代碼,所以重現性是有保證的。但完全不是這樣?!?/p>
AAAI 2018會議上,reproducibility問題被提上議程,一些團隊對這個問題進行了分析。挪威科技大學計算機科學家Odd Erik Gundersen報告了一項調查的結果,調查針對過去幾年在兩個AI頂會上發表的論文中提出的400種算法,結果只有6%的研究者分享了算法的代碼,只有三分之一的人分享了他們測試算法的數據,而只有一半分享了“偽代碼”。
針對主要會議上發表的400篇AI論文的調查顯示,只有6%的論文包含算法的代碼,約30%包含測試數據,54%包含偽代碼。
CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018
研究人員說,這些缺失的細節的原因有很多:代碼可能是一項正在進行中的工作,所有權歸某一家公司,或被一名渴望在競爭中保持領先地位的研究人員緊緊掌握。代碼可能依賴于其他代碼,而其他代碼本身未發布。或者代碼可能只是丟失了,在丟失的磁盤上或被盜的筆記本電腦上——Rougier稱之為“我的狗吃了我的程序”問題。
假設你可以獲得并運行原始代碼,它仍然可能無法達到你的預期。在機器學習領域,計算機從經驗中獲取專業知識,算法的訓練數據可以影響其性能。這也是這次OpenAI沒有公開其全部代碼和訓練集遭到網友反對的主要原因。
在這場意外掀起的激烈爭論中,你站在哪一邊呢?
-
AI
+關注
關注
87文章
31475瀏覽量
269869 -
代碼
+關注
關注
30文章
4821瀏覽量
68893 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46074
原文標題:OpenAI擔心自家AI太強大不公開代碼,網友嘲諷:改名CloseAI算了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論