色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集?

電子工程師 ? 來源:lq ? 2019-01-18 14:05 ? 次閱讀

近日,有網友在 reddit 上提出 Google AI 拒絕公開 Conceptual Captions 數據集(相關論文發表在 ACL 2018 上),谷歌除了發表相關論文以外還舉辦了使用該數據集的挑戰賽(比賽結果在 2018 年 NeurIPS 會議上公布)。這引發了網友對這種做法是對是錯、學術會議同行評審是否應該把論文復現作為重要考量因素等的激烈討論。

原帖主要內容是:

谷歌曾在 ACL 2018 上發表了一篇數據集論文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,該數據集 Conceptual Captions 共有大約 330 萬張圖像。但他發現了幾個問題:

谷歌拒絕共享預訓練模型,這使得基準測試變得異常艱難:

https://github.com/google-research-datasets/conceptual-captions/issues/3;

拒絕共享與每張圖像相關的 Alt 文本(諷刺的是這篇論文的標題中恰好有 Alt-text 一詞):

https://github.com/google-research-datasets/conceptual-captions/issues/6;

拒絕共享圖像/鏡像鏈接(盡管我認為這關乎法律問題,但僅有該數據集的幾百張圖像,社區很難對比不同模型):

https://github.com/google-research-datasets/conceptual-captions/issues/1

發帖人表示對此很難過。他希望社區意識到數據集論文是一項重大責任,如果存在阻擋數據集共享的法律問題,那么可以基于私人數據發表論文,但是基于同樣的模型或整個數據集舉辦挑戰賽的行為不太好。

此帖發出后,引發了網友的大量討論。有網友認為谷歌這么做沒什么問題,他們的任務是分享研究、把研究成果作為自己的優勢,而不是相反。但評論中更多的是對這種行為的反對。

反對此類行為

網友_michaelx99 表示:

DeepMind 發表的好幾篇論文也是僅依靠論文本身完全無法復現。這讓我意識到發表在 arXiv 或企業網站上的「論文」并不是真正的發表,其主要目標是表明該企業已經具備了某種能力。我并不是說所有大企業在線發表的論文都這樣,但其中一些確實如此。

ModernShoe 表示:

我曾聽吳恩達談論商業如何利用 AI 盈利。他說企業應該保護訓練/測試數據集,而不是保護某個算法。或許這與數據集論文不公布數據集有某種關系?

網友 epic:

這種行為不利于科學和機器學習的發展。雖然我們理解谷歌不發布數據集的原因,但這種行為仍然是不好的。尤其是數據集論文,在沒有數據的情況下復現研究及其困難。有能力的組織和人們應該作為表率來引領社區,而不是相反。

網友SkinnyJoshPeck:

這是對機器學習和機器學習專家的海量需求的后果嗎?我在一家大企業工作,與機器學習科學家接觸較多,他們當中一些人缺乏對科學方法的基本尊重,這令我非常驚訝。我認為這并非技巧的缺乏(一些研究已經發表),而是不明白「可觀的結果未必是準確、有效的」。

我的大學專業是數學,而且專門學習了代數。我了解表示論和代數幾何,因此我知道大多數模型和技術的底層數學基礎,這些讓我對這些專家能夠坐在現在的崗位上感到驚訝。

復現性

網友GoAwayStupidAI:

復現性是科學的重要標志。沒有相關數據、結果無法復現的研究都是垃圾。

網友kemfic:

論文就應該是可復現的。如果不能,那么期刊就不應該接收它們。

網友duckbill_principate:

讓我覺得困擾的不是共不共享模型、代碼或者數據集的問題,而是在這種事情發生的時候論文仍然被接收了。這某種程度上是同行評審的失敗,其責任則屬于我們每一個審稿人,因為這樣的論文往往是基于信任或權威而被接收的(我們知道盡管有雙盲評審,但我們不難推斷出某些論文一般會來自哪個研究組)。這更像是廣告而不是科學。

網友duckbill_principate:

在我實現的 20 多篇論文中,5 篇存在部分或完全影響研究結果驗證的錯誤/bug。而這些論文都是頂會上經過同行評審的論文。

我認為這是學術丑聞。

有些案例中問題被揪出來,作者進行了修改。但即使是在這種比較好的場景中,修改數字后的論文(可能使用了全新的超參數搜索!)靜悄悄地出現在 arXiv 上,而發表在會議上的論文并沒有修改,更不會被撤回。為什么?大家都知道原因,也熟悉那些辯護理由:「盡管我們的結果不如預想中的好,但我們認為這項技術非常棒,非常有前途……」不管是從數學角度,還是從沒有所謂的「當前最優結果」的論文不該被接收的角度,這種說法都非常糟糕。

網友 habanero_ass_fire 認為:

OpenImages 的圖片是從網上獲得的,其他幾個比較知名的數據集也是如此。就法律意義上來看,圖片的作者擁有版權,因此論文作者是不能共享這些圖片的。另外,無效的鏈接在現實中經常發生。因此我對這種沒有公開數據集的行為沒有意見,只要他們能夠分享一個預訓練模型即可;如果你可以依照論文訓練出自己模型,即使沒有預訓練模型也不會讓論文無效。

但這立刻遭到網友 duckbill_principate 的反駁:

如果你能夠訓練出一個模型精確復現,那沒問題。但如果你曾試圖復現論文時就會明白,實際情況往往是,即使那些發布了自己代碼且提供定義清晰且可用的數據集的論文,復現的結果也往往是不可預測的。他們是公布了自己的代碼和參數,但卻可能沒有說明自己的訓練過程;他們公布了訓練代碼,但卻可能遺漏了部分自定義庫;他們使用了公共數據集,但卻沒有明確說明他們對這些數據集做了什么樣的預處理;他們公布了代碼、數據集,甚至也對此做了大量且詳盡的說明,但卻可能遺漏一些非常關鍵的內容,等等不一而足。

事實是,如果沒有預訓練模型,或者沒有對訓練過程的完整描述,談復現性就是一個笑話。

正如網友所說,在沒有數據的情況下復現研究及其困難,尤其是數據集論文。

關于研究復現的討論由來已久,前段時間在某篇 CVPR 論文復現出現問題時,大家更是對頂會/期刊論文復現性進行了大量討論。不少人認為論文復現也應該作為同行評審中的重要部分。有網友表示「總體而言,論文評審過程不包含復現實驗結果。評審者不得不在很大程度上依靠作者的誠信」、「同行評審通常更關心論文中描述的方法。潛在的解決辦法是要求作者提交現成的實現(如通過 docker)。然而,在哪里運行仍然是一個問題。也許 AWS 資源等可以從提交費用中提取,供評審人員重新運行模型。然后,問題是確保評審人員不會「濫用」資源進行他們自己的實驗等。在任何情況下,「通過計算的方法」進行 DL 論文評審都很棘手」。

學術會議對研究復現也很重視。2017 年,ICML「機器學習復現 Workshop」就對這一問題進行過討論;2018 年,ICLR 舉辦了復現挑戰賽,旨在保證接收論文公布的結果是可靠的、可復現的。此外,為了鼓勵可復現性和高質量論文的提交,ICML 2019 在論文提交上做出了一些重要改變,如鼓勵提交的論文附帶代碼,結果的可復現性和代碼的易用性將作為論文接收和進一步決策的考慮因素。KDD 2019 的征稿通知中也表明:今年會議采取雙盲評審制度,論文接收結果公布之前投稿者不得將論文發布于 arXiv 等開放性平臺上。更重要的是,只有在論文中公開研究代碼和數據的論文才有資格競選「最佳論文獎」。

科學研究的復現性非常重要,機器學習社區一貫重視開放性、復現性,而這需要社區人們的維護。上述學術會議的變化無疑將促進研究復現性,鼓勵研究人員更加審慎地對待自己的研究、更加開放地共享研究的具體細節。那么具備強悍研究能力和開發能力的大型企業會不會做好表率呢?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1772

    瀏覽量

    57720
  • 谷歌
    +關注

    關注

    27

    文章

    6192

    瀏覽量

    105814
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24793

原文標題:Google AI發數據集論文、辦挑戰賽卻拒絕開放數據集?結果被懟了……

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    芯華章持續助力EDA精英挑戰賽

    日前,2024中國研究生創“芯”大賽·EDA精英挑戰賽(以下簡稱EDA競賽)決賽在南京江北新區舉辦。今年EDA競賽首次升級為國,在全國超過500個參賽隊伍中,來自華南理工大學的"EDA240931參賽隊"從芯華章賽道脫穎而出,斬獲僅有2支隊伍能獲得的菁英杯大獎,祝賀!
    的頭像 發表于 12-17 15:47 ?352次閱讀

    EDA精英挑戰賽果公布!思爾芯“戰隊”薪火相承斬獲“麒麟杯”

    2024中國研究生創芯大賽·EDA精英挑戰賽12月7-8日,2024中國研究生創芯大賽·EDA精英挑戰賽(原“集成電路EDA設計精英挑戰賽”)總決賽及頒獎典禮在南京成功舉辦。此次大賽,思爾芯作為核心
    的頭像 發表于 12-11 01:03 ?406次閱讀
    EDA精英<b class='flag-5'>挑戰賽</b><b class='flag-5'>賽</b>果公布!思爾芯“戰隊”薪火相承斬獲“麒麟杯”

    e絡盟社區攜手恩智浦發起智能空間樓宇自動化挑戰賽

    安富利旗下全球電子元器件產品與解決方案分銷商e絡盟社區與恩智浦聯合發起圍繞智能空間樓宇自動化設計的全新挑戰賽。本次挑戰賽邀請工程師和技術愛好者利用恩智浦FRDM MCX A 系列(A15X)開發套件,開發創新的解決方案。
    的頭像 發表于 11-14 10:44 ?274次閱讀
    e絡盟社區攜手恩智浦發起智能空間樓宇自動化<b class='flag-5'>挑戰賽</b>

    2024年ICPC與華為挑戰賽冠軍杯圓滿落幕

    近日,2024年ICPC&華為挑戰賽冠軍杯在深圳圓滿落幕。該活動由華為和ICPC聯合舉辦,匯聚全球頂尖的編程人才,共同探討和解決具有挑戰性的工業界真實問題,并對未來技術發展趨勢及關鍵挑戰展開討論。今年的
    的頭像 發表于 10-27 16:00 ?861次閱讀

    PI助力aCentauri車隊在太陽能車挑戰賽中大放異彩

    在2023年10月,Power Integrations (PI) 為當時舉行的普利司通世界太陽能車挑戰賽提供了先進的技術和支持。
    的頭像 發表于 10-27 14:08 ?352次閱讀
    PI助力aCentauri車隊在太陽能車<b class='flag-5'>挑戰賽</b>中大放異彩

    50萬獎金池!開放原子大賽——第二屆OpenHarmony創新應用挑戰賽正式啟動

    第二屆OpenHarmony創新應用挑戰賽作為開放原子大賽旗下的重要項,聚焦 OpenHarmony應用開發,致力提升開發者的動手實踐能力與開發創新應用的能力。 項要求開發者
    發表于 10-24 15:40

    NVIDIA為AI城市挑戰賽構建合成數據

    在一年一度的 AI 城市挑戰賽中,來自世界各地的數百支參賽隊伍在 NVIDIA Omniverse 生成的基于物理學的數據上測試了他們的 AI
    的頭像 發表于 09-09 10:04 ?529次閱讀

    AI4Science黑客松光子計算挑戰賽成功舉辦

    經過數月角逐,第二屆AI4Science黑客松競賽日前落下帷幕。在曦智科技主持的光子計算挑戰賽中,參賽選手何自強和來自東北大學的參賽隊伍The Power of Light獲得完優勝獎。
    的頭像 發表于 08-07 09:58 ?581次閱讀

    思爾芯題正式發布,邀你共戰EDA精英挑戰賽

    題發布COMPETITIONRELEASE2024中國研究生創芯大賽·EDA精英挑戰賽(原“集成電路EDA設計精英挑戰賽”)現已正式拉開帷幕。作為核心出題企業之一思爾芯(S2C),已經為你們準備了
    的頭像 發表于 08-03 08:24 ?723次閱讀
    思爾芯<b class='flag-5'>賽</b>題正式發布,邀你共戰EDA精英<b class='flag-5'>挑戰賽</b>!

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據
    的頭像 發表于 07-02 14:09 ?1957次閱讀

    浪潮信息獲CVPR2024自動駕駛挑戰賽&quot;Occupancy&amp; Flow&quot;冠軍

    北京2024年6月25日 /美通社/ -- 近日,在全球權威的CVPR 2024自動駕駛國際挑戰賽(Autonomous Grand Challenge)中,浪潮信息AI團隊所提交的"F-OCC
    的頭像 發表于 06-25 20:29 ?410次閱讀
    浪潮信息獲CVPR2024自動駕駛<b class='flag-5'>挑戰賽</b>&quot;Occupancy&amp; Flow&quot;冠軍

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪些原因?
    發表于 05-28 07:27

    開放原子開源大賽OpenHarmony智能化應用生態挑戰賽決賽路成功舉辦

    軟件定義世界,開源共筑未來。在江蘇省工信廳、市工信局、開放原子開源基金會及相關單位的指導和支持下,4月19-20日,由中軟國際教育科技集團聯合舉辦的開放原子開源大賽-OpenHarmony智能化應用生態挑戰賽決賽路演在鹽城市大
    的頭像 發表于 04-24 09:48 ?445次閱讀

    語音數據在智能駕駛中的關鍵作用與應用

    中的關鍵作用、應用、挑戰以及未來的發展趨勢。 二、語音數據在智能駕駛中的關鍵作用 訓練與優化:高質量的語音數據是訓練和優化語音識別模型的
    的頭像 發表于 01-31 16:22 ?532次閱讀

    語音數據:智能駕駛中車內語音識別技術的基石

    一、引言 在智能駕駛中,車內語音識別技術發揮著越來越重要的作用。語音數據作為這一技術的基石,其質量和規模對語音識別的性能有著至關重要的影響。本文將深入探討語音數據在智能駕駛中的應用
    的頭像 發表于 01-31 16:07 ?584次閱讀
    主站蜘蛛池模板: xxnx日本| 韩国免费啪啪漫画无遮拦健身教练 | 国产WW高清大片免费看 | 麻豆精选2021 | 黑人强伦姧人妻日韩那庞大的 | 全黄H全肉细节文NP 全黄h全肉细节全文 | 亚洲免费国产在线日韩 | 嫩草国产福利视频一区二区 | 青青app| 亚洲在线2018最新无码 | 国内精品国内自产视频 | 美女大鸡鸡 | 久久 这里只精品 免费 | 国产午夜精品理论片影院 | 国内精品久久久久久西瓜色吧 | 日韩一区精品视频一区二区 | 精品无码久久久久久国产百度 | 日本另类xxxx | 国产精品青草久久福利不卡 | 果冻传媒在线观看视频 | 亚洲精品第一页中文字幕 | 久久精品国产亚洲精品2020 | 天堂精品国产自在自线 | 女人会操出水图 | 毛片网站网址 | 激情丛林电影完整在线 | 秋霞成人午夜鲁丝一区二区三区 | aa级毛片毛片免费观看久 | 久久99蜜桃精品麻豆 | 久久久精品国产免费A片胖妇女 | 国产一区二区精品视频 | 国产在线自天天人人 | 日韩精品欧美亚洲高清有无 | 欧美含羞草免费观看全部完 | 欧美 亚洲 中文字幕 高清 | 俄罗斯雏妓的BBB孩交 | 亚洲大爷操 | 夜夜精品视频一区二区 | 中文字幕久久熟女人妻AV免费 | 妹妹我要色 | 99热在线观看精品 |