現(xiàn)代工作流展示了生成式 AI 和 代理式 AI 在 PC 上的上使無限可能性。
這些應(yīng)用場景包括讓聊天機(jī)器人處理產(chǎn)品支持問題,用U言模或作為管理日程的微調(diào)個(gè)人助理。但如何讓小語言模型(SLM)在執(zhí)行專用的大語代理式任務(wù)時(shí)持續(xù)以高準(zhǔn)確率進(jìn)行響應(yīng),仍然是上使一個(gè)挑戰(zhàn)。
這正是用U言模微調(diào)發(fā)揮作用的地方。
Unsloth 是微調(diào)全球應(yīng)用最廣泛的開源大語言模型(LLM)微調(diào)框架之一,為模型定制提供了一個(gè)易于上手的大語途徑。它針對(duì) NVIDIA GPU 進(jìn)行了高效、上使低顯存占用的用U言模訓(xùn)練優(yōu)化,覆蓋 GeForce RTX 臺(tái)式機(jī)和筆記本電腦、微調(diào)RTX PRO 工作站,大語以及全球最小的上使 AI 超級(jí)計(jì)算機(jī) DGX Spark。
另一個(gè)強(qiáng)大的用U言模微調(diào)起點(diǎn)是剛剛發(fā)布的 NVIDIA Nemotron 3 系列開放模型、數(shù)據(jù)和代碼庫。微調(diào)Nemotron 3 引入了目前最高效的開放模型系列,適合用于代理式 AI 的微調(diào)。
教會(huì) AI 新招式
微調(diào)就像是為 AI 模型進(jìn)行一次有針對(duì)性的訓(xùn)練。通過與特定主題或工作流程相關(guān)的示例,模型可以學(xué)習(xí)新的模式并適應(yīng)當(dāng)前任務(wù),從而提升準(zhǔn)確性。
為模型選擇哪種微調(diào)方法,取決于開發(fā)者希望對(duì)原始模型進(jìn)行多大程度的調(diào)整。根據(jù)不同目標(biāo),開發(fā)者可以采用三種主要的微調(diào)方法之一:
參數(shù)高效微調(diào)(如 LoRA 或 QLoRA):
工作原理:僅更新模型的一小部分,以更快、更低成本完成訓(xùn)練。這是一種在不大幅改變模型的情況下提升能力的高效方式。適用場景:幾乎適用于所有傳統(tǒng)需要完整微調(diào)的場景,包括引入領(lǐng)域知識(shí)、提升代碼準(zhǔn)確性、使模型適配法律或科學(xué)任務(wù)、改進(jìn)推理能力,或?qū)φZ氣和行為進(jìn)行對(duì)齊。要求:小到中等規(guī)模的數(shù)據(jù)集(100–1,000組示例提示詞對(duì))。
完整微調(diào):
工作原理:更新模型的所有參數(shù),適用于訓(xùn)練模型遵循特定格式或風(fēng)格。適用場景:高級(jí)應(yīng)用場景,例如構(gòu)建 AI 智能體和聊天機(jī)器人,這些系統(tǒng)需要圍繞特定主題提供幫助、遵循既定的約束規(guī)則,并以特定方式進(jìn)行響應(yīng)。要求:大規(guī)模數(shù)據(jù)集(1,000+ 組示例提示詞對(duì))。
強(qiáng)化學(xué)習(xí):
工作原理:通過反饋或偏好信號(hào)來調(diào)整模型行為。模型通過與環(huán)境交互進(jìn)行學(xué)習(xí),并利用反饋不斷改進(jìn)自身。這是一種復(fù)雜的高級(jí)技術(shù),將訓(xùn)練與推理交織在一起,并且可以與 參數(shù)高效微調(diào) 和 完整微調(diào) 技術(shù)結(jié)合使用。詳情請(qǐng)參考 Unsloth 的強(qiáng)化學(xué)習(xí)指南。適用場景:提升模型在特定領(lǐng)域(如法律或醫(yī)學(xué))中的準(zhǔn)確性,或構(gòu)建能夠?yàn)橛脩粼O(shè)計(jì)并執(zhí)行動(dòng)作的自主智能體。要求:一個(gè)包含行為模型、獎(jiǎng)勵(lì)模型和可供模型學(xué)習(xí)的環(huán)境的流程。
另一個(gè)需要考慮的因素是各種方法的顯存需求。下表提供了在 Unsloth 上運(yùn)行每種微調(diào)方法的需求概覽。
Unsloth:在 NVIDIA GPU 上實(shí)現(xiàn)快速微調(diào)的高效路徑
LLM 微調(diào)是一種對(duì)內(nèi)存和計(jì)算要求極高的工作負(fù)載,在每個(gè)訓(xùn)練步驟中都需要進(jìn)行以十億次記的矩陣乘法來更新模型權(quán)重。這類重型并行計(jì)算需要依托 NVIDIA GPU 的強(qiáng)大算力,才能高效、快速地完成。
Unsloth 在這類負(fù)載中表現(xiàn)出色,可將復(fù)雜的數(shù)學(xué)運(yùn)算轉(zhuǎn)化為高效的定制 GPU kernel,從而加速 AI 訓(xùn)練。
Unsloth 可在 NVIDIA GPU 上將 Hugging Face transformers 庫的性能提升至 2.5 倍。這些針對(duì) GPU 的優(yōu)化與 Unsloth 的易用性相結(jié)合,使微調(diào)對(duì)更廣泛的 AI 愛好者和開發(fā)者更加易于上手。
框架專為 NVIDIA 硬件構(gòu)建并優(yōu)化,覆蓋從 GeForce RTX 筆記本電腦,到 RTX PRO 工作站以及 DGX Spark,在降低顯存占用的同時(shí)提供巔峰性能。
Unsloth 提供了一系列實(shí)用的指南,幫助用戶快速上手并管理不同的 LLM 配置、超參數(shù)和選項(xiàng),以及示例 notebook 和分步驟工作流程。
訪問以下鏈接查看 Unsloth 指南:
● Fine-Tuning LLMs With NVIDIA RTX 50 Series GPUs and Unsloth
● Fine-Tuning LLMs With NVIDIA DGX Spark and Unsloth
查看鏈接了解如何在 NVIDIA DGX Spark 上安裝 Unsloth。閱讀 NVIDIA 技術(shù)博客,深入了解在 NVIDIA Blackwell 平臺(tái)上進(jìn)行微調(diào)和強(qiáng)化學(xué)習(xí)的相關(guān)內(nèi)容。
現(xiàn)已發(fā)布:NVIDIA Nemotron 3 開放模型系列
全新的 Nemotron 3 開放模型系列 —— 包含 Nano、Super 和 Ultra 三種規(guī)模 —— 基于全新的異構(gòu)潛在混合專家 (Mixture-of-Experts, MoE) 架構(gòu)打造,帶來了兼具領(lǐng)先準(zhǔn)確率與高效率的開放模型系列,非常適合用于構(gòu)建代理式 AI 應(yīng)用。
目前已發(fā)布的 Nemotron 3 Nano 30B-A3B 是該系列中計(jì)算效率最高的模型,針對(duì)軟件調(diào)試、內(nèi)容摘要、AI 助手工作流和信息檢索等任務(wù)進(jìn)行了優(yōu)化,具備較低的推理成本。其異構(gòu) MoE 設(shè)計(jì)帶來以下優(yōu)勢:
推理 token 數(shù)量最多減少 60%,顯著降低推理成本。支持 100 萬 token 的上下文處理能力,使模型在長時(shí)間、多步驟任務(wù)中能夠保留更多信息。
Nemotron 3 Super 是一款面向多智能體應(yīng)用的高精度推理模型,而 Nemotron 3 Ultra 則適用于復(fù)雜的 AI 應(yīng)用。這兩款模型預(yù)計(jì)將在 2026 年上半年推出。
NVIDIA 于 12 月 15 日還發(fā)布了一套開放的訓(xùn)練數(shù)據(jù)集合集以及先進(jìn)的強(qiáng)化學(xué)習(xí)庫。Nemotron 3 Nano 的微調(diào)現(xiàn)已在 Unsloth 上提供。
Nemotron 3 Nano 現(xiàn)可在 Hugging Face 獲取,或通過 Llama.cpp 和 LM Studio 進(jìn)行體驗(yàn)。
DGX Spark:緊湊而強(qiáng)大的 AI 算力引擎
DGX Spark 支持本地微調(diào),將強(qiáng)大的 AI 性能集成在緊湊的桌面級(jí)超級(jí)計(jì)算機(jī)形態(tài)中,讓開發(fā)者獲得比普通 PC 更多的內(nèi)存資源。
DGX Spark 基于 NVIDIA Grace Blackwell 架構(gòu)打造,最高可提供 1 PFLOP 的 FP4 AI 性能,并配備 128GB 的 CPU-GPU 統(tǒng)一內(nèi)存,使開發(fā)者能夠在本地運(yùn)行更大規(guī)模的模型、更長的上下文窗口以及更高負(fù)載的訓(xùn)練工作。
在微調(diào)方面,DGX Spark 可實(shí)現(xiàn):
支持更大規(guī)模的模型。參數(shù)規(guī)模超過 30B 的模型往往會(huì)超出消費(fèi)級(jí) GPU 的 VRAM 容量,但可以輕松運(yùn)行在 DGX Spark 的統(tǒng)一內(nèi)存中。支持更高級(jí)的訓(xùn)練技術(shù)。完整微調(diào)和基于強(qiáng)化學(xué)習(xí)的工作流對(duì)內(nèi)存和吞吐量要求更高,在 DGX Spark 上運(yùn)行速度顯著更快。本地控制,無需云端排隊(duì)。開發(fā)者可以在本地運(yùn)行高計(jì)算負(fù)載任務(wù),無需等待云端實(shí)例或管理多個(gè)環(huán)境。
DGX Spark 的優(yōu)勢不僅限于在 LLM 上。高分辨率擴(kuò)散模型通常需要超過普通桌面系統(tǒng)所能提供的內(nèi)存。借助 FP4 支持和大容量統(tǒng)一內(nèi)存,DGX Spark 可在短短幾秒內(nèi)生成1000張圖像,并為創(chuàng)意或多模態(tài)工作流提供更高的持續(xù)吞吐量。
下表展示了在 DGX Spark 上對(duì) Llama 系列模型進(jìn)行微調(diào)的性能表現(xiàn)。
隨著微調(diào)工作流的不斷發(fā)展,全新的 Nemotron 3 開放模型系列為 RTX 系統(tǒng)和 DGX Spark 提供了可擴(kuò)展的推理能力與長上下文性能優(yōu)化。
請(qǐng)?jiān)L問鏈接了解 DGX Spark 如何支持高強(qiáng)度 AI 任務(wù)。
#別錯(cuò)過 — NVIDIA RTX AI PC 的最新進(jìn)展
🚀FLUX.2 圖像生成模型現(xiàn)已發(fā)布,并針對(duì) NVIDIA RTX GPU 進(jìn)行優(yōu)化
Black Forest Labs 推出的新模型支持 FP8 量化,可降低顯存占用并將性能提升40%。
✨Nexa.ai 通過 Hyperlink 為 RTX PC 擴(kuò)展本地 AI,實(shí)現(xiàn)代理式搜索
這款全新的本地搜索智能體可將檢索增強(qiáng)生成(RAG)索引速度提升3倍,將 LLM 推理速度提升2倍,使一個(gè)高密度1GB 文件夾的索引時(shí)間從約 15 分鐘縮短至僅 4 到 5 分鐘。DeepSeek OCR 現(xiàn)已通過 NexaSDK 以 GGUF 形式在本地運(yùn)行,可在 RTX GPU 上即插即用地解析圖表、公式以及多語言 PDF。
🤝 Mistral AI 發(fā)布全新模型家族,并針對(duì) NVIDIA GPU 進(jìn)行優(yōu)化
全新的 Mistral 3 模型從云端到邊緣端均經(jīng)過優(yōu)化,可通過 Ollama 和 Llama.cpp 進(jìn)行快速的本地實(shí)驗(yàn)。
🎨 Blender 5.0 正式發(fā)布,帶來 HDR 色彩與性能提升
本次版本新增 ACES 2.0 廣色域/HDR 色彩支持,加入 NVIDIA DLSS,可將毛發(fā)與皮毛渲染速度提升最高達(dá) 5 倍,并改進(jìn)了對(duì)大規(guī)模幾何體的處理能力,同時(shí)為 Grease Pencil 增加了動(dòng)態(tài)模糊效果。
NVIDIA RTX AI PC的相關(guān)信息請(qǐng)關(guān)注微博、抖音及嗶哩嗶哩官方賬號(hào)。
軟件產(chǎn)品信息請(qǐng)查看聲明。