成年女人免费碰碰视频-国产精品一区二区熟女不卡-激情视频一区二区三区-毛片黄色片在线观看-碰超免费人妻中文字幕-少妇与黑人一二三区无码

首頁 > 生活分享 > 免費教學 > DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

發布時間:2025-02-07 19:15:56
RTX 3080 移動版能訓練哪種大模型?本文為那些 GPU 資源有限時使用 GRPO 訓練的開發者提供了寶貴的指導。
 
自 DeepSeek-R1 發布以來,群組相對策略優化(GRPO)因其有效性和易于訓練而成為大型語言模型強化學習的熱門話題。R1 論文展示了如何使用 GRPO 從遵循 LLM(DeepSeek-v3)的基本指令轉變為推理模型(DeepSeek-R1)。
 
GRPO 是一種在線學習算法(online learning algorithm),它通過使用訓練過程中由訓練模型自身生成的數據來進行迭代改進。GRPO 的目標是最大化生成補全(completions)的優勢函數(advantage),同時確保模型保持在參考策略(reference policy)附近。
 
 
本文的目的是幫你節省一些時間,讓你根據硬件預算選擇合適的模型大小。在開始微調時,你必須做出的重要決定是選擇模型大小,以及你是執行完全微調還是參數高效微調(PEFT)。
 
文章作者來自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。
 
 
原文鏈接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor
 
作者表示,他發現 trl 庫中已經有一個易于使用的 GRPO 實現,便立刻開始了訓練,使用的硬件是配備了 16GB 顯存的 Nvidia GeForce RTX 3080 的小型筆記本電腦。正如大家可能遇到的問題,作者發現示例代碼中的參數設置導致了一個巨大的顯存不足(OOM,out of memory )錯誤。
 
torch
.
OutOfMemoryError
:
CUDA
out
of memory
.
Tried
to allocate
1.90
 
GiB
.
GPU
0
has a total capacity of
15.73
 
GiB
of which
1.28
 
GiB
 
is
free
.
 
Including
non
-
PyTorch
memory
,
 
this
process has
14.43
 
GiB
memory
in
 
use
.
 
Of
the allocated memory
11.82
 
GiB
 
is
allocated
by
 
PyTorch
,
 
and
 
2.41
 
GiB
 
is
reserved
by
 
PyTorch
but unallocated
.
 
If
reserved but unallocated memory
is
large
try
setting PYTORCH_CUDA_ALLOC_CONF
=
expandable_segments
:
True
to avoid fragmentation
.
 
See
documentation
for
 
Memory
 
Management
 
(
https
:
//pytorch.org/docs/stable/notes/cuda.html#environment-variables)
實際使用情況
 
作者表示,他們進行了一系列實驗,以確定訓練各種大小的模型所需的顯存(VRAM)要求。參數數量從 5 億到 140 億不等,他們比較了權重的完全微調與參數高效微調(使用 LoRA),所有訓練運行都在英偉達 H100 上完成,因此這里的 OOM 意味著 >80GB 的 VRAM。
 
 
在表格中,你可以找到 GSM8K 數據集上訓練的前 100 步中的峰值內存使用情況。用于實驗的模型是:
 
 
所有實驗均使用 Shadeform 的 GPU 市場完成,因此每次實驗只需要花費幾美元 H100。
 
實驗結果表明,內存需求隨著模型大小和訓練方式的不同而顯著變化。例如,全參數微調比 PEFT 需要更多的內存。
 
為什么 GRPO 對內存需求較高
 
這要從 GRPO 的原理說起,這是它的流程圖。
 
 
GRPO 對內存需求較高的原因在于,其內部涉及多個模型,并且在訓練數據中每個查詢會產生多個輸出。上圖中的策略模型、參考模型和獎勵模型各自都是一個需要進行推理的 LLM。(盡管從技術上講,獎勵模型可能不需要參數化,可以只是一個 Python 函數或正則表達式,但不影響 GRPO 對內存的高需求。)
 
為什么 8-Bit 優化和梯度檢查點有助于減少內存占用?
 
通常來講,訓練一個大型語言模型需要在內存中存儲三種主要類型的信息:模型參數、模型學習所需的梯度、優化器的跟蹤數據。
 
對上述內容我們可以這樣理解:如果模型的參數占用了 X 的空間,那么梯度也會占用大約相同的空間。然后,像 AdamW 這樣的優化器需要更多的空間,因為它們就像一個記錄員,跟蹤最近的更新歷史,以便更好地決定未來的優化。
 
為了減輕這種內存負擔,通常采用兩種技術:
 
首先,可以使用像 AdamW 這樣的 8-bit 優化器版本,它們能更高效地存儲跟蹤數據,同時仍保持良好的性能 —— 類似于壓縮照片可以節省空間,同時保留大部分圖像質量;
其次,使用梯度檢查點技術,這就像在訓練過程中拍攝快照,而不是記錄所有內容。雖然這會使訓練速度減慢約 20-30%,但它顯著減少了內存使用。
結合這些技術,即使對 GPU 資源有限的人來說,也能夠訓練更大的模型。
 
代碼示例
 
像 trl 這樣的庫已經開始支持 GRPO,使得微調由 transformers 構成的 LLM 變得非常簡單。代碼也非常簡潔,只需將訓練器替換為 GRPOTrainer 并定義一些獎勵即可。GRPO 的最小代碼量大約只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 這樣的小型模型和像 openai/GSM8K 這樣的數據集,可以非常快速地啟動。

免費教學更多>>

縣城手機店快沒了:10家關7家,打工人回村連修個屏都找不著地兒 羽衣甘藍沒想到自己因奶茶火了 解碼中國奶茶的“地域密碼” 字母哥不滿雄鹿裁掉利拉德 雙方僅聯手兩個賽季 孫女中考744分被奶奶狂親!網友:隔著屏幕都感受到愛! 18歲高中生當上CEO 給母校捐了10萬元 破案了在網場邊看王欣瑜比賽的不是吳尊也不是周杰倫而是陳冠希! 南京地鐵車廂內喝水不罰了 各地地鐵飲水規定大不同 客服:實在渴了喝一兩口 別影響到其他乘客就行 福建龍巖高考咨詢會:有人圍著民辦院,985展位冷清 楊冪拉親閨女比嫩?38歲硬剛11歲小糯米雌競!? 家有兒女小雨變暴雨了! 20年前高考成績可查 還記得你的“青春答卷”嗎 納指收跌0.8% 特斯拉跌超5% 小米汽車可“提前交付”、“支付插隊費”?官方回應:切勿相信,更不要涉及金錢交易! 網上有人自稱“小米汽車交付專員”,宣稱可以提前交付車輛?小米汽車辟謠:請大家切勿相信,以APP為準 《以法之名》直到洪亮重返東平,才知,李人駿或許成為關鍵人物 王欣瑜2比0擊敗穆霍娃晉級溫網女單第二輪 貓眼就誤放周杰倫演唱會回流票致歉 世俱杯-貢薩洛頭球制勝 皇馬1-0尤文晉級八強 “楊”帆啟航!官宣:開拓者正式簽下楊瀚森 短暫的婚姻,改變了李福貴的人生,泥濘土地里最終開出了向陽的花 胡一天正面回應2年沒進劇組:退休了,曾公開推薦表示自己很便宜 回憶殺!“古早”萬能充電器仍在熱賣 24小時內超過百人購買 宋佳獲獎后開派對秦嵐喝多走路踉蹌,宋佳秦嵐誰更漂亮? 又多了一個“高山”?鄭欽文回應溫網出局:她不克我!高溫不是輸球理由 董晴的爆火出圈證明了實力才是硬道理! 保時捷女銷冠又成銷冠:半年賣近百臺 陳赫回應鹿晗暴瘦:不要瞎擔心,現在他狀態可好了,每天在運動 為何發布充電寶緊急通知?民航局回應 煙臺海面變“草原”了 三星醞釀AI服務單獨收費?AI手機徹底完犢子了!
主站蜘蛛池模板: 在线播放真实国产乱子伦| 国产香蕉97碰碰视频va碰碰看| 无码人妻丰满熟妇区视频| 亚洲精品成人无码中文毛片不卡| 久久久喷潮一区二区三区| 欧美性色老妇人| 久草热8精品视频在线观看| 国产精品青青青在线观看 | 日韩精品dvd| 99久久国产综合精品成人影院| 国产免费午夜福利片在线| 女人18毛片水最多| 亚洲欧洲日产经典| 一本大道东京热无码一区| 亚洲男同gv在线观看| 风韵丰满熟妇啪啪区老老熟女百度| 99精品国产一区二区三区| 国产免费午夜a无码v视频| 国产日韩av在线播放| 九九九九精品视频在线观看| 毛色毛片免费观看| 日本乱伦蜜桃| 久久久久av无码免费网| 精品一区二区久久久久久久网站| 久久久精品妓女影院妓女网| 青青草av一区二区三区| 久久69精品久久久久久hb| 国产精品高清一区二区三区| 夜夜爽夜夜叫夜夜高潮| 色综合色狠狠天天综合色| 99久久国产亚洲高清观看| 日本在线观看| 国产精品线路在线播放| 国产成人无码精品久久二区三区| 国产欧美日韩一区二区三区在线| 无码纯肉动漫在线观看| 精品无码人妻一区二区免费蜜桃| 亚洲乱码中文字幕综合234| 久久精品欧美日韩精品| 久久99热精品免费观看牛牛| 人妻互换一二三区激情视频|