欧美成人免费在线观看,波多野结衣福利片,91精品国产综合久久香蕉最新版,差差漫画在线页面免费阅读弹窗,麻豆video

據(jù)悉，昇思昇思MindSpore開源社區(qū)將于 2025 年 12 月 25 日在杭州舉辦昇思人工智能框架峰會。人工本次峰會在展區(qū)、框架CodeLabs、基于WorkShop等環(huán)節(jié)提供了豐富的玩轉(zhuǎn)案例，本篇文章以其中CodeLabs中的昇思DeepSeek-OCR為例，深入介紹其技術實現(xiàn)，人工更多案例歡迎來到峰會現(xiàn)場進行體驗和實操。框架

當文本遇見視覺，基于AI模型正重新定義信息壓縮的玩轉(zhuǎn)邊界

在人工智能快速發(fā)展的今天，DeepSeek團隊于2025年10月推出的昇思DeepSeek-OCR模型帶來了一場文本處理范式的革命。這一創(chuàng)新模型不僅實現(xiàn)了10倍壓縮率下97%的人工解碼精度，更探索了通過視覺模態(tài)壓縮長上下文的框架全新路徑。而昇思MindSpore框架的基于day0支持能力，則為這一前沿技術的玩轉(zhuǎn)快速部署應用提供了堅實基礎。

DeepSeek-OCR：重新定義文本壓縮的邊界

DeepSeek-OCR 是 DeepSeek AI 于 2025 年 10 月發(fā)布的多模態(tài)模型，以探索視覺 - 文本壓縮邊界為核心目標，為文檔識別、圖像轉(zhuǎn)文本提供創(chuàng)新方案。其采用 DeepEncoder 視覺編碼器與 DeepSeek3B-MoE-A570M 混合專家解碼器的雙模塊架構(gòu)，從 LLM 視角重新定義視覺編碼器功能，聚焦 “文檔解碼所需最少視覺 token” 這一核心問題，對研究 “一圖勝千言” 原理具有重要意義。

模型的核心技術突破體現(xiàn)在三個方面：

高壓縮比下的精度保持：實驗表明，當文本令牌數(shù)量在視覺令牌數(shù)量的10倍以內(nèi)（即壓縮比<10倍）時，模型可以實現(xiàn)97%的解碼精度，即使在20倍壓縮率下仍保有約60%準確率。

分層視覺編碼設計：DeepEncoder采用三階段處理流程——首先使用SAM-base進行局部感知（窗口注意力看清細節(jié)），然后通過卷積層進行16倍下采樣，最后使用CLIP-large進行全局語義理解。這種設計能夠在高分辨率輸入下保持低激活內(nèi)存。

多分辨率支持：模型提供Tiny/Small/Base/Large/Gundam五種配置，支持從512 x 512到1280×1280的不同分辨率輸入，其中Gundam版本專門針對大尺寸復雜文檔優(yōu)化。

在實際性能方面，DeepSeek-OCR在OmniDocBench測試中表現(xiàn)卓越，僅使用100個視覺token即超越GOT-OCR2.0模型，800個視覺token優(yōu)于MinerU2.0模型。支持PDF轉(zhuǎn)圖像、批量處理及Markdown格式輸出。

Day0支持：MindSpore NLP快速支持DeepSeek-OCR

MindSpore NLP作為基于昇思MindSpore的開源NLP庫，其核心優(yōu)勢在于與Hugging Face生態(tài)的全面兼容。這種兼容性設計使得任何基于Transformers架構(gòu)的模型都能在昇思MindSpore框架上無縫運行，為DeepSeek-OCR的快速部署提供了技術基礎。

新增2行代碼，即可實現(xiàn)基于昇思MindSpore的一鍵適配

具體而言，MindSpore NLP提供了與Hugging Face完全一致的API接口，開發(fā)者可以使用熟悉的AutoModel、AutoTokenizer等類直接加載和運行模型。這種設計極大降低了模型遷移的技術門檻，確保新發(fā)布的模型能夠?qū)崿F(xiàn)“day0”支持。

基于MindSpore NLP的兼容性特性，DeepSeek-OCR在昇思MindSpore上的部署變得異常簡潔。整個過程主要包含三個關鍵步驟：

· 環(huán)境配置：安裝MindSpore NLP及相關依賴庫，確保昇思MindSpore版本兼容性

· 模型加載：使用MindSpore NLP+Transformers接口直接加載DeepSeek-OCR預訓練權重

· 推理執(zhí)行：調(diào)用統(tǒng)一的API進行文檔理解和視覺-文本壓縮任務

代碼如下圖所示：

這種標準化流程消除了復雜的模型轉(zhuǎn)換環(huán)節(jié)，使研究者能夠?qū)Ｗ⒂趹瞄_發(fā)而非環(huán)境適配。無論是處理掃描文檔、PDF轉(zhuǎn)換還是長文本壓縮，開發(fā)者都可以利用熟悉的Hugging Face編程習慣在昇思MindSpore生態(tài)中高效運行DeepSeek-OCR。

如下圖所示，運行腳本后，模型可識別掃描件中的文字，并轉(zhuǎn)換為MarkDown文件。

基于Expert合并的小MoE模型加速：權重融合計算優(yōu)化策略

DeepSeek-OCR的解碼器采用混合專家（MoE）架構(gòu)，激活參數(shù)約570M。針對MoE模型訓練中的性能挑戰(zhàn)，昇思MindSpore提供了基于Expert合并的優(yōu)化方案，顯著提升了小MoE模型的效率。

基于Expert合并的小MoE模型加速技術核心在于通過權重預融合策略，將傳統(tǒng)動態(tài)路由計算轉(zhuǎn)化為統(tǒng)一計算流，從根本上解決MoE架構(gòu)中的Host端調(diào)度瓶頸問題。

1、傳統(tǒng)MoE計算瓶頸分析

傳統(tǒng)MoE模型采用“專家視角”的計算模式，其核心瓶頸體現(xiàn)在兩個方面：

· 細碎算子調(diào)度開銷：傳統(tǒng)實現(xiàn)方式需要遍歷每個專家，為每個專家獨立執(zhí)行前向計算。這種循環(huán)遍歷模式導致大量小規(guī)模算子的頻繁調(diào)度，特別是當專家數(shù)量增多時，Host端的算子下發(fā)和調(diào)度開銷呈線性增長。

· 負載不均衡問題：由于不同專家處理的token數(shù)量差異顯著，計算過程中容易出現(xiàn)負載不均衡。某些熱門專家需要處理大量token，而其他專家可能處于空閑狀態(tài)，這種不均衡進一步加劇了設備利用率的下降。

2、權重預融合技術原理

基于Expert合并的加速方案通過FFN權重預融合技術，將多個專家的計算任務合并為單一計算流：

· 權重合并機制：在模型初始化階段，將所有專家的FFN層權重進行拼接融合，形成一個統(tǒng)一的超大型權重矩陣。以8專家MoE層為例，每個專家FFN層的輸入維度為d_model，中間維度為d_ffn，合并后的權重矩陣形狀從8個獨立的[d_model, d_ffn]矩陣轉(zhuǎn)變?yōu)榻y(tǒng)一的[8×d_model, d_ffn]矩陣。

· 統(tǒng)一計算流程：路由網(wǎng)絡輸出的選擇權重不再用于動態(tài)激活不同專家，而是作為加權系數(shù)直接應用于融合后的計算結(jié)果。具體而言，模型首先通過融合權重矩陣執(zhí)行一次統(tǒng)一的前向計算，然后根據(jù)路由權重對輸出進行加權組合，避免了傳統(tǒng)的專家遍歷過程。

針對DeepSeekV2（DeepSeek-OCR LLM模塊）的改進代碼如下：

在昇思MindSpore+昇騰的軟硬件協(xié)同環(huán)境中，這一技術大幅提升了DeepSeek-OCR的執(zhí)行速度，相較于原版實現(xiàn)，推理token生成的性能提升3-4x，算力利用率由8%提升至30%+。這種基于Expert合并的加速思路，為小規(guī)模MoE模型的部署提供了一種新的優(yōu)化范式，特別是在對推理延遲敏感的端側(cè)和應用場景中具有重要價值。

總結(jié)

DeepSeek-OCR與昇思MindSpore在昇騰硬件上的深度結(jié)合，標志著文檔智能處理進入了一個全新的發(fā)展階段。這一技術組合不僅展現(xiàn)了前沿AI模型的創(chuàng)新潛力，更體現(xiàn)了從算法、框架到硬件的全棧優(yōu)化價值。

展望未來，隨著多模態(tài)大模型技術的持續(xù)演進和昇騰算力基礎設施的不斷完善，OCR模型與昇思MindSpore的深度結(jié)合將釋放更大潛力。從簡單的文檔識別到復雜的知識抽取，從單頁處理到跨文檔分析，這一技術路徑正在開啟文檔智能的新篇章，為企業(yè)數(shù)字化轉(zhuǎn)型和AI普惠應用提供堅實的技術底座。

本次在杭州舉辦的昇思人工智能框架峰會，將會邀請思想領袖、專家學者、企業(yè)領軍人物及明星開發(fā)者等產(chǎn)學研用代表，共探技術發(fā)展趨勢、分享創(chuàng)新成果與實踐經(jīng)驗。歡迎各界精英共赴前沿之約，攜手打造開放、協(xié)同、可持續(xù)的人工智能框架新生態(tài)！

作者:熱點

昇思人工智能框架峰會 基于MindSpore NLP玩轉(zhuǎn)DeepSeek

昇思人工智能框架峰會基于MindSpore NLP玩轉(zhuǎn)DeepSeek