12月13日消息,豆包等受有網(wǎng)友稱(chēng)“豆包手機(jī)助手通過(guò)READ_FRAME_BUFFER權(quán)限,手機(jī)從GPU渲染的助手圖形緩沖區(qū)拿走圖像數(shù)據(jù),不需要走上層的發(fā)聲截圖API。還用了CAPTURE_SECURE_VIDEO_OUTPUT權(quán)限,無(wú)法可以獲取銀行安全鍵盤(pán)等受保護(hù)的截屏鍵盤(pán)界面內(nèi)容”。
豆包手機(jī)助手官方表示,銀行這是保護(hù)對(duì)豆包手機(jī)助手技術(shù)實(shí)現(xiàn)方式的錯(cuò)誤解讀,豆包手機(jī)助手采用的內(nèi)容是原生截屏接口,嚴(yán)格遵循應(yīng)用聲明的豆包等受Secure標(biāo)記,無(wú)法截屏銀行安全鍵盤(pán)等聲明受保護(hù)的手機(jī)界面內(nèi)容。
任何持有豆包手機(jī)助手技術(shù)預(yù)覽版的助手用戶(hù),都可以自己寫(xiě)一個(gè)帶有受保護(hù)頁(yè)面的發(fā)聲APK進(jìn)行測(cè)試,讓AI講解頁(yè)面內(nèi)容,無(wú)法可以驗(yàn)證AI是截屏鍵盤(pán)無(wú)法看到的。
網(wǎng)友提到的READ_FRAME_BUFFER權(quán)限,是為了讓AI可以在后臺(tái)完成操作,豆包手機(jī)助手讓三方應(yīng)用運(yùn)行在虛擬屏空間中。
為了獲取虛擬屏中運(yùn)行的應(yīng)用截圖內(nèi)容(對(duì)應(yīng)方法WindowManagerService.captureDisplay)提供給豆包大模型推理,所以需要READ_FRAME_BUFFER權(quán)限,但該方法以及權(quán)限無(wú)法讀取到包括銀行APP在內(nèi)的任何三方應(yīng)用設(shè)置為Secure的內(nèi)容。
CAPTURE_SECURE_VIDEO_OUTPUT權(quán)限的使用,是因?yàn)槭鼙Wo(hù)的頁(yè)面在虛擬屏的投影(即點(diǎn)擊靈動(dòng)島打開(kāi)的粉色邊緣的應(yīng)用界面)中會(huì)顯示為黑屏,用戶(hù)無(wú)法查看和操作。
所以需要此權(quán)限將受保護(hù)的內(nèi)容正常展示給用戶(hù)并能夠被用戶(hù)操作,但在投影后,受保護(hù)的頁(yè)面仍會(huì)標(biāo)記為Secure,僅能被用戶(hù)查看,無(wú)法被截屏。
豆包手機(jī)助手操作手機(jī)功能的實(shí)現(xiàn)原理是:用戶(hù)下達(dá)指令-截屏發(fā)送給云端豆包大模型-模型理解后返回具體操作-手機(jī)端執(zhí)行操作指令,不斷重復(fù)直到完成任務(wù)。因此每一步操作后都需要再截圖上傳給云端大模型分析,每步操作間隔約為3秒鐘。
由于分析界面所需的大模型參數(shù)較大,受限于芯片性能暫時(shí)無(wú)法運(yùn)行在手機(jī)端側(cè),需要截圖上傳云端處理,目前國(guó)內(nèi)多家手機(jī)廠(chǎng)商具有AI操作能力的助手產(chǎn)品,也是同樣的實(shí)現(xiàn)原理,也會(huì)使用READ_FRAME_BUFFER等系統(tǒng)權(quán)限。
需要強(qiáng)調(diào)的是,豆包手機(jī)助手僅在有用戶(hù)指令時(shí)才會(huì)開(kāi)始截屏,且無(wú)法截屏三方應(yīng)用Secure標(biāo)記頁(yè)面,上傳至云端大模型的截屏僅用于視覺(jué)理解和推理,完成任務(wù)后不會(huì)存儲(chǔ)在云端。







