探索 2025-12-19 07:15:38 579

如何在 NVIDIA GPU 上使用 Unsloth 微調(diào)大語言模型(LLM)

現(xiàn)代工作流展示了生成式 AI 和代理式 AI 在 PC 上的上使無限可能性。

這些應用場景包括讓聊天機器人處理產(chǎn)品支持問題，用U言?；蜃鳛楣芾砣粘痰奈⒄{(diào)個人助理。但如何讓小語言模型(SLM)在執(zhí)行專用的大語代理式任務時持續(xù)以高準確率進行響應，仍然是上使一個挑戰(zhàn)。

這正是用U言模微調(diào)發(fā)揮作用的地方。

Unsloth 是微調(diào)全球應用最廣泛的開源大語言模型(LLM)微調(diào)框架之一，為模型定制提供了一個易于上手的大語途徑。它針對 NVIDIA GPU 進行了高效、上使低顯存占用的用U言模訓練優(yōu)化，覆蓋 GeForce RTX 臺式機和筆記本電腦、微調(diào)RTX PRO 工作站，大語以及全球最小的上使 AI 超級計算機 DGX Spark。

另一個強大的用U言模微調(diào)起點是剛剛發(fā)布的 NVIDIA Nemotron 3 系列開放模型、數(shù)據(jù)和代碼庫。微調(diào)Nemotron 3 引入了目前最高效的開放模型系列，適合用于代理式 AI 的微調(diào)。

教會 AI 新招式

微調(diào)就像是為 AI 模型進行一次有針對性的訓練。通過與特定主題或工作流程相關的示例，模型可以學習新的模式并適應當前任務，從而提升準確性。

為模型選擇哪種微調(diào)方法，取決于開發(fā)者希望對原始模型進行多大程度的調(diào)整。根據(jù)不同目標，開發(fā)者可以采用三種主要的微調(diào)方法之一：

參數(shù)高效微調(diào)（如 LoRA 或 QLoRA）：

工作原理：僅更新模型的一小部分，以更快、更低成本完成訓練。這是一種在不大幅改變模型的情況下提升能力的高效方式。適用場景：幾乎適用于所有傳統(tǒng)需要完整微調(diào)的場景，包括引入領域知識、提升代碼準確性、使模型適配法律或科學任務、改進推理能力，或對語氣和行為進行對齊。要求：小到中等規(guī)模的數(shù)據(jù)集（100–1,000組示例提示詞對）。

完整微調(diào)：

工作原理：更新模型的所有參數(shù)，適用于訓練模型遵循特定格式或風格。適用場景：高級應用場景，例如構建 AI 智能體和聊天機器人，這些系統(tǒng)需要圍繞特定主題提供幫助、遵循既定的約束規(guī)則，并以特定方式進行響應。要求：大規(guī)模數(shù)據(jù)集（1,000+ 組示例提示詞對）。

強化學習：

工作原理：通過反饋或偏好信號來調(diào)整模型行為。模型通過與環(huán)境交互進行學習，并利用反饋不斷改進自身。這是一種復雜的高級技術，將訓練與推理交織在一起，并且可以與參數(shù)高效微調(diào) 和完整微調(diào) 技術結合使用。詳情請參考 Unsloth 的強化學習指南。適用場景：提升模型在特定領域（如法律或醫(yī)學）中的準確性，或構建能夠為用戶設計并執(zhí)行動作的自主智能體。要求：一個包含行為模型、獎勵模型和可供模型學習的環(huán)境的流程。

另一個需要考慮的因素是各種方法的顯存需求。下表提供了在 Unsloth 上運行每種微調(diào)方法的需求概覽。

Unsloth：在 NVIDIA GPU 上實現(xiàn)快速微調(diào)的高效路徑

LLM 微調(diào)是一種對內(nèi)存和計算要求極高的工作負載，在每個訓練步驟中都需要進行以十億次記的矩陣乘法來更新模型權重。這類重型并行計算需要依托 NVIDIA GPU 的強大算力，才能高效、快速地完成。

Unsloth 在這類負載中表現(xiàn)出色，可將復雜的數(shù)學運算轉化為高效的定制 GPU kernel，從而加速 AI 訓練。

Unsloth 可在 NVIDIA GPU 上將 Hugging Face transformers 庫的性能提升至 2.5 倍。這些針對 GPU 的優(yōu)化與 Unsloth 的易用性相結合，使微調(diào)對更廣泛的 AI 愛好者和開發(fā)者更加易于上手。

框架專為 NVIDIA 硬件構建并優(yōu)化，覆蓋從 GeForce RTX 筆記本電腦，到 RTX PRO 工作站以及 DGX Spark，在降低顯存占用的同時提供巔峰性能。

Unsloth 提供了一系列實用的指南，幫助用戶快速上手并管理不同的 LLM 配置、超參數(shù)和選項，以及示例 notebook 和分步驟工作流程。

訪問以下鏈接查看 Unsloth 指南：

● Fine-Tuning LLMs With NVIDIA RTX 50 Series GPUs and Unsloth

● Fine-Tuning LLMs With NVIDIA DGX Spark and Unsloth

查看鏈接了解如何在 NVIDIA DGX Spark 上安裝 Unsloth。閱讀 NVIDIA 技術博客，深入了解在 NVIDIA Blackwell 平臺上進行微調(diào)和強化學習的相關內(nèi)容。

現(xiàn)已發(fā)布：NVIDIA Nemotron 3 開放模型系列

全新的 Nemotron 3 開放模型系列 —— 包含 Nano、Super 和 Ultra 三種規(guī)模 —— 基于全新的異構潛在混合專家 (Mixture-of-Experts, MoE) 架構打造，帶來了兼具領先準確率與高效率的開放模型系列，非常適合用于構建代理式 AI 應用。

目前已發(fā)布的 Nemotron 3 Nano 30B-A3B 是該系列中計算效率最高的模型，針對軟件調(diào)試、內(nèi)容摘要、AI 助手工作流和信息檢索等任務進行了優(yōu)化，具備較低的推理成本。其異構 MoE 設計帶來以下優(yōu)勢：

推理 token 數(shù)量最多減少 60%，顯著降低推理成本。支持 100 萬 token 的上下文處理能力，使模型在長時間、多步驟任務中能夠保留更多信息。

Nemotron 3 Super 是一款面向多智能體應用的高精度推理模型，而 Nemotron 3 Ultra 則適用于復雜的 AI 應用。這兩款模型預計將在 2026 年上半年推出。

NVIDIA 于 12 月 15 日還發(fā)布了一套開放的訓練數(shù)據(jù)集合集以及先進的強化學習庫。Nemotron 3 Nano 的微調(diào)現(xiàn)已在 Unsloth 上提供。

Nemotron 3 Nano 現(xiàn)可在 Hugging Face 獲取，或通過 Llama.cpp 和 LM Studio 進行體驗。

DGX Spark：緊湊而強大的 AI 算力引擎

DGX Spark 支持本地微調(diào)，將強大的 AI 性能集成在緊湊的桌面級超級計算機形態(tài)中，讓開發(fā)者獲得比普通 PC 更多的內(nèi)存資源。

DGX Spark 基于 NVIDIA Grace Blackwell 架構打造，最高可提供 1 PFLOP 的 FP4 AI 性能，并配備 128GB 的 CPU-GPU 統(tǒng)一內(nèi)存，使開發(fā)者能夠在本地運行更大規(guī)模的模型、更長的上下文窗口以及更高負載的訓練工作。

在微調(diào)方面，DGX Spark 可實現(xiàn)：

支持更大規(guī)模的模型。參數(shù)規(guī)模超過 30B 的模型往往會超出消費級 GPU 的 VRAM 容量，但可以輕松運行在 DGX Spark 的統(tǒng)一內(nèi)存中。支持更高級的訓練技術。完整微調(diào)和基于強化學習的工作流對內(nèi)存和吞吐量要求更高，在 DGX Spark 上運行速度顯著更快。本地控制，無需云端排隊。開發(fā)者可以在本地運行高計算負載任務，無需等待云端實例或管理多個環(huán)境。

DGX Spark 的優(yōu)勢不僅限于在 LLM 上。高分辨率擴散模型通常需要超過普通桌面系統(tǒng)所能提供的內(nèi)存。借助 FP4 支持和大容量統(tǒng)一內(nèi)存，DGX Spark 可在短短幾秒內(nèi)生成1000張圖像，并為創(chuàng)意或多模態(tài)工作流提供更高的持續(xù)吞吐量。

下表展示了在 DGX Spark 上對 Llama 系列模型進行微調(diào)的性能表現(xiàn)。

隨著微調(diào)工作流的不斷發(fā)展，全新的 Nemotron 3 開放模型系列為 RTX 系統(tǒng)和 DGX Spark 提供了可擴展的推理能力與長上下文性能優(yōu)化。

請訪問鏈接了解 DGX Spark 如何支持高強度 AI 任務。

#別錯過 — NVIDIA RTX AI PC 的最新進展

🚀FLUX.2 圖像生成模型現(xiàn)已發(fā)布，并針對 NVIDIA RTX GPU 進行優(yōu)化

Black Forest Labs 推出的新模型支持 FP8 量化，可降低顯存占用并將性能提升40%。

✨Nexa.ai 通過 Hyperlink 為 RTX PC 擴展本地 AI，實現(xiàn)代理式搜索

這款全新的本地搜索智能體可將檢索增強生成(RAG)索引速度提升3倍，將 LLM 推理速度提升2倍，使一個高密度1GB 文件夾的索引時間從約 15 分鐘縮短至僅 4 到 5 分鐘。DeepSeek OCR 現(xiàn)已通過 NexaSDK 以 GGUF 形式在本地運行，可在 RTX GPU 上即插即用地解析圖表、公式以及多語言 PDF。

🤝 Mistral AI 發(fā)布全新模型家族，并針對 NVIDIA GPU 進行優(yōu)化

全新的 Mistral 3 模型從云端到邊緣端均經(jīng)過優(yōu)化，可通過 Ollama 和 Llama.cpp 進行快速的本地實驗。

🎨 Blender 5.0 正式發(fā)布，帶來 HDR 色彩與性能提升

本次版本新增 ACES 2.0 廣色域/HDR 色彩支持，加入 NVIDIA DLSS，可將毛發(fā)與皮毛渲染速度提升最高達 5 倍，并改進了對大規(guī)模幾何體的處理能力，同時為 Grease Pencil 增加了動態(tài)模糊效果。

NVIDIA RTX AI PC的相關信息請關注微博、抖音及嗶哩嗶哩官方賬號。

軟件產(chǎn)品信息請查看聲明。

相關文章