豆包手機助手發聲：無法截屏銀行鍵盤等受保護內容

百科 2025-12-14 18:58:05 99

12月13日消息，豆包等受有網友稱“豆包手機助手通過READ_FRAME_BUFFER權限，手機從GPU渲染的助手圖形緩沖區拿走圖像數據，不需要走上層的發聲截圖API。還用了CAPTURE_SECURE_VIDEO_OUTPUT權限，無法可以獲取銀行安全鍵盤等受保護的截屏鍵盤界面內容”。

豆包手機助手官方表示，銀行這是保護對豆包手機助手技術實現方式的錯誤解讀，豆包手機助手采用的內容是原生截屏接口，嚴格遵循應用聲明的豆包等受Secure標記，無法截屏銀行安全鍵盤等聲明受保護的手機界面內容。

任何持有豆包手機助手技術預覽版的助手用戶，都可以自己寫一個帶有受保護頁面的發聲APK進行測試，讓AI講解頁面內容，無法可以驗證AI是截屏鍵盤無法看到的。

網友提到的READ_FRAME_BUFFER權限，是為了讓AI可以在后臺完成操作，豆包手機助手讓三方應用運行在虛擬屏空間中。

為了獲取虛擬屏中運行的應用截圖內容（對應方法WindowManagerService.captureDisplay）提供給豆包大模型推理，所以需要READ_FRAME_BUFFER權限，但該方法以及權限無法讀取到包括銀行APP在內的任何三方應用設置為Secure的內容。

CAPTURE_SECURE_VIDEO_OUTPUT權限的使用，是因為受保護的頁面在虛擬屏的投影（即點擊靈動島打開的粉色邊緣的應用界面）中會顯示為黑屏，用戶無法查看和操作。

所以需要此權限將受保護的內容正常展示給用戶并能夠被用戶操作，但在投影后，受保護的頁面仍會標記為Secure，僅能被用戶查看，無法被截屏。

豆包手機助手操作手機功能的實現原理是：用戶下達指令-截屏發送給云端豆包大模型-模型理解后返回具體操作-手機端執行操作指令，不斷重復直到完成任務。因此每一步操作后都需要再截圖上傳給云端大模型分析，每步操作間隔約為3秒鐘。

由于分析界面所需的大模型參數較大，受限于芯片性能暫時無法運行在手機端側，需要截圖上傳云端處理，目前國內多家手機廠商具有AI操作能力的助手產品，也是同樣的實現原理，也會使用READ_FRAME_BUFFER等系統權限。

需要強調的是，豆包手機助手僅在有用戶指令時才會開始截屏，且無法截屏三方應用Secure標記頁面，上傳至云端大模型的截屏僅用于視覺理解和推理，完成任務后不會存儲在云端。

本文僅代表作者觀點，不代表本站立場。
本文系作者授權發表，未經許可，不得轉載。

文物化身“掌中餐” 中國多地博物館成年輕人新“社交餐桌”

XPERI × 當虹：把中國車企出海的“屏”與“聲” 做成一整套生意

中關村科金發布“3+2+2”全棧產品矩陣定義企業級智能體落地新標準

聚焦文化體驗和興趣探索豆瓣推出“我的簽到足跡”功能

華為nova 15系列來襲：三劍齊發麒麟9系加持

霸氣！長江存儲公開起訴美國商務部等不該被列入實體名單

小米汽車公布燃油液位顯示專利能解決油表跳變難題

長安汽車宣布第3000萬輛汽車下線，到2030年將力爭實現年產銷500萬輛