正如我們在前幾章中所見,深度神經網絡帶有大量在訓練過程中學習的參數或權重。除此之外,每個神經網絡都有額外的 超參數需要用戶配置。例如,為了確保隨機梯度下降收斂到訓練損失的局部最優(參見第 12 節),我們必須調整學習率和批量大小。為了避免在訓練數據集上過度擬合,我們可能必須設置正則化參數,例如權重衰減(參見第 3.7 節)或 dropout(參見 第 5.6 節)). 我們可以通過設置層數和每層單元或過濾器的數量(即權重的有效數量)來定義模型的容量和歸納偏差。
不幸的是,我們不能簡單地通過最小化訓練損失來調整這些超參數,因為這會導致訓練數據過度擬合。例如,將正則化參數(如 dropout 或權重衰減)設置為零會導致較小的訓練損失,但可能會損害泛化性能。
圖 19.1.1機器學習中的典型工作流程,包括使用不同的超參數多次訓練模型。
如果沒有不同形式的自動化,就必須以反復試驗的方式手動設置超參數,這相當于機器學習工作流程中耗時且困難的部分。例如,考慮在 CIFAR-10 上訓練 ResNet(參見第 8.6 節g4dn.xlarge),這需要在 Amazon Elastic Cloud Compute (EC2)實例上訓練 2 個多小時。即使只是依次嘗試十個超參數配置,這也已經花費了我們大約一天的時間。更糟糕的是,超參數通常不能直接跨架構和數據集傳輸 (Bardenet等人,2013 年,Feurer等人,2022 年,Wistuba等人,2018 年),并且需要針對每個新任務重新優化。此外,對于大多數超參數,沒有經驗法則,需要專業知識才能找到合理的值。
超參數優化 (HPO)算法旨在以一種有原則的和自動化的方式解決這個問題 (Feurer 和 Hutter,2018 年),將其定義為一個全局優化問題。默認目標是保留驗證數據集上的錯誤,但原則上可以是任何其他業務指標。它可以與次要目標結合或受其約束,例如訓練時間、推理時間或模型復雜性。
最近,超參數優化已擴展到神經架構搜索 (NAS) (Elsken等人,2018 年,Wistuba等人,2019 年),目標是找到全新的神經網絡架構。與經典 HPO 相比,NAS 在計算方面的成本更高,并且需要額外的努力才能在實踐中保持可行性。HPO 和 NAS 都可以被視為 AutoML 的子領域 ( Hutter et al. , 2019 ),旨在自動化整個 ML 管道。
在本節中,我們將介紹 HPO 并展示我們如何自動找到第 4.5 節介紹的邏輯回歸示例的最佳超參數。
19.1.1. 優化問題
我們將從一個簡單的玩具問題開始:搜索第 4.5 節SoftmaxRegression中 的多類邏輯回歸模型的學習率,以最小化 Fashion MNIST 數據集上的驗證錯誤。雖然批量大小或輪數等其他超參數也值得調整,但為簡單起見,我們只關注學習率。
import numpy as np import torch from scipy import stats from torch import nn from d2l import torch as d2l
在運行 HPO 之前,我們首先需要定義兩個要素:目標函數和配置空間。
19.1.1.1。目標函數
學習算法的性能可以看作是一個函數 f:X→R從超參數空間映射x∈X到驗證損失。對于每一個評價f(x),我們必須訓練和驗證我們的機器學習模型,對于在大型數據集上訓練的深度神經網絡,這可能是時間和計算密集型的。鑒于我們的標準f(x)我們的目標是找到 x?∈argminx∈Xf(x).
沒有簡單的方法來計算的梯度f關于 x,因為它需要在整個訓練過程中傳播梯度。雖然最近有工作 (Franceschi等人,2017 年,Maclaurin等人,2015 年)通過近似“超梯度”驅動 HPO,但現有方法中沒有一種與最先進的方法具有競爭力,我們將不在這里討論它們。此外,評估的計算負擔f 要求 HPO 算法以盡可能少的樣本接近全局最優。
神經網絡的訓練是隨機的(例如,權重是隨機初始化的,mini-batches 是隨機采樣的),因此我們的觀察結果會很嘈雜:y~f(x)+?,我們通常假設?~N(0,σ) 觀察噪聲呈高斯分布。
面對所有這些挑戰,我們通常會嘗試快速識別一小組性能良好的超參數配置,而不是準確地達到全局最優值。然而,由于大多數神經網絡模型的大量計算需求,即使這樣也可能需要數天或數周的計算時間。我們將在19.4 節中探討如何通過分布搜索或使用目標函數的評估成本更低的近似值來加快優化過程。
我們從計算模型驗證誤差的方法開始。
class HPOTrainer(d2l.Trainer): #@save def validation_error(self): self.model.eval() accuracy = 0 val_batch_idx = 0 for batch in self.val_dataloader: with torch.no_grad(): x, y = self.prepare_batch(batch) y_hat = self.model(x) accuracy += self.model.accuracy(y_hat, y) val_batch_idx += 1 return 1 - accuracy / val_batch_idx
我們優化了關于超參數配置的驗證錯誤config,由learning_rate. 對于每個評估,我們訓練我們的模型max_epochsepochs,然后計算并返回其驗證錯誤:
def hpo_objective_softmax_classification(config, max_epochs=8): learning_rate = config["learning_rate"] trainer = d2l.HPOTrainer(max_epochs=max_epochs) data = d2l.FashionMNIST(batch_size=16) model = d2l.SoftmaxRegression(num_outputs=10, lr=learning_rate) trainer.fit(model=model, data=data) return trainer.validation_error().detach().numpy()
19.1.1.2。配置空間
隨著目標函數f(x),我們還需要定義可行集x∈X優化過來,稱為配置空間或搜索空間。對于我們的邏輯回歸示例,我們將使用:
config_space = {"learning_rate": stats.loguniform(1e-4, 1)}
這里我們使用loguniformSciPy 中的對象,它表示對數空間中 -4 和 -1 之間的均勻分布。這個對象允許我們從這個分布中抽樣隨機變量。
每個超參數都有一個數據類型,例如floatfor learning_rate,以及一個封閉的有界范圍(即下限和上限)。我們通常為每個超參數分配一個先驗分布(例如,均勻分布或對數均勻分布)以從中進行采樣。一些正參數(例如learning_rate)最好用對數標度表示,因為最佳值可能相差幾個數量級,而其他參數(例如動量)則采用線性標度。
下面我們展示了一個配置空間的簡單示例,該配置空間由多層感知器的典型超參數組成,包括它們的類型和標準范圍。
表 19.1.1多層感知機配置空間示例
姓名 | 類型 | 超參數范圍 | 對數刻度 |
---|---|---|---|
學習率 | 漂浮 | [10?6,10?1] | 是的 |
批量大小 | 整數 | [8,256] | 是的 |
勢頭 | 漂浮 | [0,0.99] | 不 |
激活函數 | 明確的 | {tanh,relu} | |
單位數 | 整數 | [32,1024] | 是的 |
層數 | 整數 | [1,6] | 不 |
一般來說,配置空間的結構X 可能很復雜,也可能與Rd. 在實踐中,一些超參數可能取決于其他超參數的值。例如,假設我們嘗試調整多層感知器的層數,以及每一層的單元數。的單位數目l?th只有當網絡至少有l+1層。這些高級 HPO 問題超出了本章的范圍。我們建議感興趣的讀者參閱 (Baptista 和 Poloczek,2018 年,Hutter等人,2011 年,Jenatton等人,2017 年)。
配置空間對于超參數優化起著重要作用,因為沒有算法可以找到不包含在配置空間中的東西。另一方面,如果范圍太大,找到性能良好的配置的計算預算可能變得不可行。
19.1.2. 隨機搜索
隨機搜索是我們將考慮的第一個超參數優化算法。隨機搜索的主要思想是從配置空間中獨立采樣,直到用盡預定義的預算(例如最大迭代次數),并返回最佳觀察到的配置。所有評估都可以并行獨立執行(請參閱第 19.3 節),但這里我們為簡單起見使用順序循環。
errors, values = [], [] num_iterations = 5 for i in range(num_iterations): learning_rate = config_space["learning_rate"].rvs() print(f"Trial {i}: learning_rate = {learning_rate}") y = hpo_objective_softmax_classification({"learning_rate": learning_rate}) print(f" validation_error = {y}") values.append(learning_rate) errors.append(y)
validation_error = 0.17659997940063477
最好的學習率就是驗證錯誤率最低的那個。
best_idx = np.argmin(errors) print(f"optimal learning rate = {values[best_idx]}")
optimal learning rate = 0.24202220709278127
由于其簡單性和通用性,隨機搜索是最常用的 HPO 算法之一。它不需要任何復雜的實現,并且可以應用于任何配置空間,只要我們可以為每個超參數定義一些概率分布。
不幸的是,隨機搜索也有一些缺點。首先,它沒有根據迄今為止收集的先前觀察結果調整抽樣分布。因此,與性能較好的配置相比,同樣可能對性能較差的配置進行采樣。其次,所有配置都花費了相同數量的資源,即使有些配置可能顯示出較差的初始性能并且不太可能勝過之前看到的配置。
在接下來的部分中,我們將研究更多樣本高效的超參數優化算法,這些算法通過使用模型來指導搜索來克服隨機搜索的缺點。我們還將研究自動停止對性能不佳配置的評估過程以加快優化過程的算法。
19.1.3. 概括
在本節中,我們介紹了超參數優化 (HPO) 以及如何通過定義配置空間和目標函數將其表述為全局優化。我們還實現了我們的第一個 HPO 算法,隨機搜索,并將其應用于簡單的 softmax 分類問題。
雖然隨機搜索非常簡單,但它是網格搜索的更好替代方案,后者只評估一組固定的超參數。隨機搜索在某種程度上減輕了維數災難 ( Bellman, 1966 ),并且如果標準最強烈地依賴于超參數的一小部分,則它可以比網格搜索更有效。
19.1.4。練習
在本章中,我們優化了在不相交的訓練集上訓練后模型的驗證錯誤。為簡單起見,我們的代碼使用 Trainer.val_dataloader,它映射到 周圍的加載器 FashionMNIST.val。
說服自己(通過查看代碼)這意味著我們使用原始 FashionMNIST 訓練集(60000 個示例)進行訓練,并使用原始測試集(10000 個示例)進行驗證。
為什么這種做法會有問題?提示:重新閱讀 第 3.6 節,尤其是關于模型選擇的內容。
我們應該怎么做呢?
我們在上面說過,通過梯度下降進行超參數優化是很難做到的。考慮一個小問題,例如在 FashionMNIST 數據集(第 5.2 節)上訓練一個批量大小為 256 的雙層感知器。我們想調整 SGD 的學習率,以便在一個訓練周期后最小化驗證指標.
為什么我們不能為此目的使用驗證錯誤?您將使用驗證集的什么指標?
在訓練一個時期后(粗略地)繪制驗證指標的計算圖。您可以假設初始權重和超參數(例如學習率)是該圖的輸入節點。提示:重新閱讀 第 5.3 節中有關計算圖的內容。
粗略估計在此圖的前向傳遞過程中需要存儲的浮點值的數量。提示:FashionMNIST 有 60000 個案例。假設所需的內存由每層之后的激活決定,并在第 5.2 節中查找層寬度。
除了需要大量的計算和存儲之外,基于梯度的超參數優化還會遇到哪些其他問題?提示:重新閱讀 第 5.4 節中關于梯度消失和爆炸的內容。
進階:閱讀(Maclaurin等人,2015 年),了解基于梯度的 HPO 的優雅(但仍然有些不切實際)方法。
網格搜索是另一個 HPO 基線,我們在其中為每個超參數定義一個等距網格,然后迭代(組合)笛卡爾積以建議配置。
我們在上面說過,如果標準最強烈地依賴于超參數的一小部分,那么在大量超參數上隨機搜索比網格搜索 HPO 更有效。為什么是這樣?提示:閱讀 (Bergstra等人,2011 年)。
Discussions
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100899 -
pytorch
+關注
關注
2文章
808瀏覽量
13250
發布評論請先 登錄
相關推薦
評論