色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開源LLEMMA發布:超越未公開的頂尖模型,可直接應用于工具和定理證明

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-10-22 10:24 ? 次閱讀

今天向大家介紹一個新的開源大語言模型——LLEMMA,這是一個專為數學研究而設計的前沿語言模型。

8bca483e-7004-11ee-939d-92fbcf53809c.png

LLEMMA解數學題的一個示例

LLEMMA的誕生源于在Proof-Pile-2數據集上對Code Llama模型的深度訓練。這個數據集是一個科學論文、數學相關網頁和數學代碼的綜合體。

過去雖然有數學專用的模型,但許多模型都有各種限制。例如,有的模型是封閉訪問,這使得它們無法為更廣泛的研究所用。有的則技術上稍顯落后。

但LLEMMA的出現改變了這一局面。它不僅在MATH基準測試上創下了新高,甚至超越了某些還未對外公開的頂尖模型,如Minerva。更讓人欣喜的是,LLEMMA無需額外的調整,即可直接應用于工具和定理證明。

讓我們一起了解下這個模型背后的技術吧!

8bdb2e4c-7004-11ee-939d-92fbcf53809c.png

Paper:Llemma: An Open Language Model For Mathematics
Link:https://arxiv.org/pdf/2310.10631.pdf
Code:https://github.com/EleutherAI/math-lm

->輔導界的小米帶你沖刺ACL2024

數據集

LLEMMA是專為數學設計的大型語言模型,具有70億和340億參數。這一模型的訓練方法是在Proof-Pile-2.2.1數據集上繼續對Code Llama模型進行預訓練。以下是關于該數據集的簡要說明:

Proof-Pile-2:這是一個包含550億令牌的綜合數據集,融合了科學論文、數學相關的網絡內容和數學代碼,其知識截止于2023年4月(不包括特定的Lean證明步驟子集)。

代碼:為了適應數學家日益重視的計算工具,如數值模擬和計算代數系統,研究團隊創建了名為AlgebraicStack的源代碼數據集。這個數據集涉及17種編程語言,包括數值、符號和正式的數學內容,共計110億令牌。

網絡數據:研究團隊利用了OpenWebMath數據集,這是一個精選的、與數學相關的高質量網絡頁面集合,總計150億令牌。

科學論文:使用了名為RedPajama的ArXiv子集,其中包含290億令牌。

通用自然語言和代碼數據:作為訓練數據的補充,研究團隊還融合了一些通用領域的數據,并以Proof-Pile-2為主,還融合了Pile數據集和RedPajama的GitHub子集。

模型訓練

模型初始化:所有模型都從Code Llama初始化,隨后在Proof-Pile-2上接受更多的訓練。

訓練量:

LLEMMA 7B:2000億令牌的訓練。

LLEMMA 34B:500億令牌的訓練。

8bee637c-7004-11ee-939d-92fbcf53809c.png

訓練工具和硬件:使用GPT-NeoX庫在256個A100 40GB GPU上進行訓練。使用了各種先進技術如Tensor并行、ZeRO Stage 1分片優化器狀態、Flash Attention 2等以提高效率和減少內存需求。

訓練細節:

LLEMMA 7B:經過42,000步訓練,每個全局批次有400萬令牌,上下文長度為4096令牌,占用A100大約23,000小時。學習率開始從1 × 10^(-4)漸溫,然后逐漸減少。雖然計劃是48,000步訓練,但在42,000步時由于NaN損失中斷了。

LLEMMA 34B:經過12,000步訓練,每個全局批次有400萬令牌,上下文長度為4096令牌,約占用47,000個A100小時。學習率從5 × 10^(-5)開始逐漸增加,然后逐漸減少。

RoPE調整:在訓練LLEMMA 7B前,RoPE的基本周期從θ = 1,000,000減少到θ = 10,000,目的是為了在LLEMMA 7B上進行長上下文微調。而LLEMMA 34B維持了θ = 1,000,000的原始設置。

實驗設置與評估結果

作者通過少樣本評估對LLEMMA模型進行比較,并專注于沒有進行微調的最新模型。具體來說,他們使用了使用思維鏈推理和多數投票,在MATH和GSM8k等基準上進行了評估。

評估范圍:

數學問題求解:測試模型在思維鏈推理和多數投票的數學問題上的表現。

少樣本工具使用和正式定理證明:研究模型在這些方面的表現。

記憶和數據混合的影響:分析這些因素如何影響模型的表現。

使用CoT解決數學任務

評估數據集和任務:

MATH:一個來自高中數學競賽的問題集,模型必須生成一個LATEX的解決方案,且其答案需要與參考答案匹配。

GSM8k:包含中學數學問題的數據集。

OCWCourses:從MIT的開放課程Ware提取的STEM問題。

MMLU-STEM:MMLU基準中的18個子集,涵蓋57個主題。

SAT:包含2023年5月的SAT考試中不包含圖形的數學問題的數據集。

作者與以下模型進行了比較:

Minerva:這個模型在技術內容的數據集上繼續預訓練了PaLM語言模型。

Code Llama:LLEMMA繼續預訓練的初始化模型。

Llama 2:Code Llama在代碼上繼續預訓練的初始化模型。

對于開源的模型,作者使用他們的評估套件來報告分數,該套件是Language Model Evaluation Harness的一個分支。對于Minerva模型,作者報告了Lewkowycz等人在2022年文章中的基準分數。

LLEMMA在Proof-Pile-2上的繼續預訓練提高了五個數學基準測試的少樣本性能。LLEMMA 34B在GSM8k上比Code Llama提高了20個百分點,在MATH上提高了13個百分點;LLEMMA 7B的表現超過了專有的Minerva模型。到目前為止,LLEMMA在所有開放權重語言模型上均表現最佳。因此,可以得出結論,Proof-Pile-2上的繼續預訓練對于提高預訓練模型的數學問題解決能力是有效的。

8c04903e-7004-11ee-939d-92fbcf53809c.png

8c1decd2-7004-11ee-939d-92fbcf53809c.png

此外,LLEMMA是在與數學相關的多樣化數據上預訓練的,而不是為特定任務進行調優。因此,預期LLEMMA可以通過任務特定的微調和少樣本提示適應許多其他任務。

調用計算工具解決數學任務

這些任務涉及在有計算工具的情況下解決問題,主要評估了以下內容:

MATH+Python:模型被提示以自然語言交替描述解決方案的步驟,然后使用代碼執行該步驟。最后的答案是一個可以執行為數字類型或SymPy對象的程序。我們的少樣本提示包括使用內置數字操作、math模塊和SymPy的示例。

GSM8k+Python:通過編寫一個執行為整數答案的Python程序來解決GSM8k單詞問題。我們使用了Gao等人(2023)的提示。

如下表所示,LLEMMA在兩個任務上都優于Code Llama。它在MATH和GSM8k上使用工具的性能也高于它在沒有工具的這些數據集上的性能。

8c3da8e2-7004-11ee-939d-92fbcf53809c.png

形式化數學(數學證明)

交互式證明助手,例如Lean和Isabelle,使用特殊的編程語言來幫助驗證數學證明。但是,與常見的編程語言相比,這些特殊語言的數據非常少。

LLEMMA模型經過進一步的預訓練,以處理與這些證明相關的任務。在給定問題、非正式證明和正式聲明后,LLEMMA可以生成Isabelle代碼的正式證明。此外,模型還可以根據證明助手給出的狀態,生成證明的下一個步驟。

8c53de6e-7004-11ee-939d-92fbcf53809c.png

LLEMMA在Proof-Pile-2的預訓練包括從Lean和Isabelle提取的正式數學數據,總計超過15億個標記。作者對LLEMMA在兩個任務上的少樣本性能進行了評估:

非正式到正式的證明:根據非正式的說明,為數學問題生成正式的證明。

正式到正式的證明:在已知的證明步驟中,為下一個步驟生成代碼。

結果顯示,LLEMMA在Proof-Pile-2上的繼續預訓練提高了兩個正式定理證明任務的少樣本性能。

8c6b536e-7004-11ee-939d-92fbcf53809c.png

數據混合

在訓練語言模型時,經常會根據混合權重提高訓練數據中高質量子集的樣本頻率。作者通過在多個手動選擇的混合權重上進行短期訓練,然后選擇在高質量保留文本上(使用MATH訓練集)最小化困惑度的權重。通過這種方法,確定了訓練LLEMMA的最佳數據混合比例為21。

數據重疊和記憶

作者檢查了測試問題或解決方案是否出現在語料庫中。通過查找與測試序列中任何30-gram相匹配的文檔確定匹配程度。作者發現大約7%的MATH測試問題陳述和0.6%的解決方案在語料庫中有匹配。

在隨機抽取的100個匹配中,作者詳細檢查了測試問題與OpenWebMath文檔之間的關系。其中,41個案例沒有解決方案,49個提供了與MATH基準解決方案不同但答案相同的解決方案,9個答案錯誤或缺失,而只有1個與基準解決方案相同。

作者進一步探索了語料庫中的問題如何影響模型的性能。當將LLEMMA-34b應用于具有30-gram匹配的測試示例和沒有30-gram匹配的測試示例時,模型在難題上的準確率仍然較低,例如在具有匹配的Level 5問題上的準確率為6.08%,而在沒有匹配的問題上的準確率為6.39%。

8c7d175c-7004-11ee-939d-92fbcf53809c.png

作者發現,30-gram匹配與各個難度級別的準確性之間沒有明確的關系。這意味著測試示例和訓練文檔之間的重要匹配,并不意味著模型生成了一個記憶中的正確答案。

此外,作者還檢查了LLEMMA在MATH生成中與OpenWebMath之間的30-gram匹配,發現了13個匹配,這些匹配發生在模型生成了一系列常見的數字序列時,例如斐波那契數列,以及一次多項式因式分解的情況。這些觀察結果值得進一步研究。

結語

在這篇研究中,研究團隊成功地推出了LLEMMA和Proof-Pile-2,這是專為數學語言建模設計的大語言模型和語料庫。他們公開了模型、數據集和相關代碼。

研究揭示,LLEMMA在開放權重模型的數學問題解決標準測試上的表現尤為出眾,它不僅能通過Python代碼嫻熟地調用外部工具,還在定理證明中展示了少樣本策略預測的高效實用性。此外,該團隊深入探討了模型在解決數學問題時的卓越性能。

LLEMMA的出現,為我們展現了數學與人工智能融合的新前景。隨著LLEMMA和Proof-Pile-2的應用,期望在未來更能深化對語言模型的泛化能力、數據集結構的認知,探索將語言模型作為數學助手的可能性,并不斷提升其處理數學問題的能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3267

    瀏覽量

    48923
  • 語言模型
    +關注

    關注

    0

    文章

    530

    瀏覽量

    10297
  • python
    +關注

    關注

    56

    文章

    4799

    瀏覽量

    84817

原文標題:開源LLEMMA發布:超越未公開的頂尖模型,可直接應用于工具和定理證明

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    應用于聲音振動的高級信號處理算法-超越FFT pdf

    應用于聲音振動的高級信號處理算法-超越FFT 議程高級信號處理算法時頻分析小波分析倒譜分析AR建模應用實例軸承故障診斷, 儀表盤馬達質量檢測, 揚聲器生產測試, … [/hide][此貼子已經被作者于2009-10-30 9:01:19編輯過]
    發表于 10-30 08:54

    MSO9000的偏斜校準可以直接應用于AUX BNC輸出嗎

    MSO9000系列示波器上的AUX輸出位于設備背面,有時在執行偏斜校準時難以訪問。我的問題是:Q1)E2655偏移校正夾具直接應用于AUX BNC輸出有多重要? Q2)校準高速探頭時,AUX輸出
    發表于 01-02 17:00

    開源指南針發布在即:估量有尺,開源有道

    難題,此次發布會將全面介紹 OSS Compass 背后的理論研究及實踐成果,同時還將公布 OSS Compass 開源社區治理結構、評估工具以及首份開源項目評估白皮書。
    發表于 02-17 16:15

    費馬大定理證明

    提出了一個R猜想和定理,運用初等數論證明了此定理和R猜想。再利用R猜想成功地證明了費馬大定理;而且反向利用費馬大
    發表于 12-07 13:59 ?18次下載

    柔性射頻濾波器,可直接應用于柔性電子無線射頻通訊

    12日從天津大學獲悉,該校精密測試技術及儀器國家重點實驗室龐慰團隊在柔性電子設備實現高速無線通訊能力方面取得突破性進展,成功開發出了柔性射頻濾波器,可直接應用于柔性電子無線射頻通訊。未來有望讓
    發表于 06-20 08:04 ?1368次閱讀

    最大功率傳輸定理證明

    本文首先介紹了最大功率傳輸定理的概念,其次闡述了最大功率傳輸定理證明,最后陳述了最大功率傳輸定理內容及使用范圍。
    的頭像 發表于 08-22 16:51 ?1.8w次閱讀

    到底該怎么將這些頂尖工具用到我的模型里呢?

    然而,讓小編翻開他們的paper,發現每一個上面都寫著四個大字:“弱者退散”,到底該怎么將這些頂尖工具用到我的模型里呢,Hugging Face 的大神們,緊跟前沿,將所有的預訓練語言模型
    的頭像 發表于 02-24 10:43 ?2501次閱讀
    到底該怎么將這些<b class='flag-5'>頂尖</b><b class='flag-5'>工具</b>用到我的<b class='flag-5'>模型</b>里呢?

    基于定理證明的內存安全驗證工具算法綜述

    兩方面的問題,是插樁程序的加入可能會改變源程序的行為及語義,二是插樁程序并不能有效保證內存安全。為了解決這些問題,文中提出了一種使用Coq定理證明器來判定內存安全驗證工具算法是否正確的形式化方法,并使用該方法對
    發表于 04-20 14:42 ?5次下載
    基于<b class='flag-5'>定理</b><b class='flag-5'>證明</b>的內存安全驗證<b class='flag-5'>工具</b>算法綜述

    Nano BRK Arduino公開發布開源

    電子發燒友網站提供《Nano BRK Arduino公開發布開源.zip》資料免費下載
    發表于 08-24 09:56 ?2次下載
    Nano BRK Arduino<b class='flag-5'>公開發布</b>板<b class='flag-5'>開源</b>

    線性電路的基本定理

      作為線性系統(包含線性電路)最基本的性質—線性性質,它包含可加性與齊次性兩方面。 疊加定理是可加性的反應,它是線性電路的一個重要定理。 可加性的概念可以說是貫穿于電路分析之中,并在疊加定理中得到
    的頭像 發表于 03-09 11:50 ?7244次閱讀
    線性電路的基本<b class='flag-5'>定理</b>

    搭載ESP32芯片,體積小巧,接口方便,上手簡單,可直接應用于物聯網低功耗項目

    雙電源下自動切換電源功能,并支持USB充電方式。體積小巧,接口方便,上手簡單,可直接應用于物聯網低功耗項目。 BPI-Leaf-S3開發板在軟件方面支持ESP-IDF、Arduino
    的頭像 發表于 04-18 09:10 ?1544次閱讀

    【開發實例】搭載ESP32芯片,體積小巧,接口方便,上手簡單,可直接應用于物聯網低功耗項目

    雙電源下自動切換電源功能,并支持USB充電方式。 體積小巧,接口方便,上手簡單,可直接應用于物聯網低功耗項目。 BPI-Leaf-S3開發板在軟件方面支持ESP-IDF、Arduino
    的頭像 發表于 04-20 09:40 ?2277次閱讀

    清華等開源工具學習基準」ToolBench,微調模型ToolLLaMA性能超越ChatGPT

    最近,清華大學自然語言處理實驗室等支持的開源社區OpenBMB (Open Lab for Big Model Base)發布了ToolBench項目,可以幫助開發者構建開源、大規模、高質量的指令調優數據,促進構建具有通用
    的頭像 發表于 06-08 11:39 ?595次閱讀
    清華等<b class='flag-5'>開源</b>「<b class='flag-5'>工具</b>學習基準」ToolBench,微調<b class='flag-5'>模型</b>ToolLLaMA性能<b class='flag-5'>超越</b>ChatGPT

    亥姆霍茲定理證明過程 亥姆霍茲方程的推導

    亥姆霍茲定理證明過程 亥姆霍茲方程的推導 亥姆霍茲定理(Helmholtz Theorem)是物理學中的一個基本定理,描述了向量場的分解和表示問題,是研究電磁場、流體力學等現代物理學
    的頭像 發表于 08-29 17:09 ?1.2w次閱讀

    eBay驚現AMD未公開發布的神秘新品:霄龍4004

    近期,ChipHell 論壇網友 zcyandrew 在eBay 發現了尚未發布的AMD EPYC 4004 系列處理器,其中包括大量未公開的 5820x,以及一款未知型號的新品。
    的頭像 發表于 04-28 11:17 ?520次閱讀
    主站蜘蛛池模板: 在线一本码道高清| 国产 亚洲 中文字幕 在线| 国产小视频免费看| 亚洲欧洲日产国码久在线| 久久精品国产久精国产果冻传媒| 在线看片成人免费视频| 欧美精品v欧洲高清| 国产高清视频免费在线观看| 亚洲三级视频在线观看| 老师的脚奴| 国产51麻豆二区精品AV视频| 亚洲精品久久久无码| 男男肉肉互插腐文| 国产成人精品免费青青草原app| 亚洲高清一区二区三区电影| 久久中文字幕综合不卡一二区 | 粗好大用力好深快点漫画| 亚洲精品高清视频| 美女张开腿露尿口给男人亲| 国产成人无码区免费内射一片色欲 | 久久国产亚洲精品AV麻豆| chinesetoilet美女沟| 亚洲AV精品一区二区三区不卡| 免费无码又爽又黄又刺激网站| 国产36d在线观看| 中文字幕成人| 忘忧草在线社区WWW日本直播| 久久免费资源福利资源站| 动漫美女的禁| 最近中文字幕2018MV高清在线| 我把寡妇日出水好爽| 欧美含羞草免费观看全部完| 国产在线播放91| 大胸美女裸身色诱网站| 最近日本免费观看MV免费| 亚洲国产高清在线| 日本人奶水中文影片| 老师你奶真大下面水真多| 国内精品久久影视免费| 床伴在线观看免费高清完整泰剧第四集| 亚洲视频 在线观看|