




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2024年AI手機行業專題報告:AI手機走向AIOS_系統級AI定位端側智能助理1.云端協同是AI手機未來,端側AI成本、隱私安全多方面占優AI手機是基于大模型的高智能化手機終端。根據IDC定義,AI手機是NPU算力大于30TOPS(INT8)、搭載支持生成式AI的SoC并支持端側大模型的手機。《AI手機白皮書》認為基于大模型的AI手機需具備強大的計算能力、復雜信息感知能力、自學習能力與創作能力。通過重構手機現有服務生態與操作系統,賦予用戶全新AI體驗。云端大模型協同滿足AI手機不同場景需求。云側:(1)具備高算力,適宜進行模型訓練。可支持參數量千億以上的大模型,推理與多模態交互能力強;(2)知識儲備豐富,如GPT-4-Turbo外部文檔和數據庫截止日期更新至2023年4月;(3)泛化能力強,可作為AI應用開發基座。端側:(1)成本低,避免數據中心高昂的運營、網絡傳輸、能耗成本;(2)隱私安全性高,用戶隱私信息存儲及處理均在終端進行;(3)低延時,僅為單一用戶服務,避免需求高峰時任務處理擁擠;(4)支持離線使用。基于云側及端側大模型特點,我們認為云側大模型適用于復雜度高、專業性強、涉及多模態交互的任務處理,端側大模型適用于復雜度低、隱私敏感度高的任務以及離線任務處理。針對復雜度高且涉及用戶隱私的復合任務場景,可首先在端側進行信息脫敏,再上傳至云側進行處理;并且端側大模型可通過學習用戶個人信息,在復雜任務處理中給予云側大模型更佳提示,賦予用戶更佳服務體驗。基于云側、端側大模型協同的AI手機可滿足用戶不同場景需求,更高效地利用資源并提供更佳服務體驗。端側模型推理成本是云側模型1/100以下。根據高通《混合AI是AI未來》,生成式AI單次搜索查詢成本是傳統搜索方法的10倍,目前每天搜索查詢次數超過100億次,每年增量成本可能達到數十億美元。并且由于大模型的推理成本與終端用戶數量正相關,云側大模型推理成本將伴隨日活用戶數量及使用頻率快速增長,規模化拓展難以持續。根據面壁智能CEO李大海測算,以搭載驍龍855的OPPO手機為例,假定搭載參數量2B、每秒處理量7.5Tokens的MiniCPM端側模型,運行5年后報廢,推理成本約為600元,測算可得170萬Tokens推理成本僅1元,是Mistral的1/100,GPT-4的1/360。根據OpenAI,其在5月13日最新發布的GPT-4o可免費向用戶提供服務,但仍在用量方面進行限制。根據OpenAIDeveloperForum,免費用戶在3小時內僅允許向ChatGPT發送40條以內的消息。ChatGPT能耗達50萬千瓦時/天,終端部署大模型降低數據傳輸能耗。根據紐約客報道,ChatGPT每天需處理約2億個用戶請求,消耗超過50萬千瓦時電力,相當于1.7萬個美國家庭平均一天的用電量。根據《混合AI是AI未來》,手機終端能夠以很低的能耗運行生成式AI模型,可有效避免數據傳輸至云服務器中導致的高能耗。端側AI保障用戶隱私安全,并可基于用戶信息提供個性化服務。生成式AI由于交互方式革新,不僅可收集用戶郵箱、手機號等可唯一標識個人的信息,也會收集用戶語音聊天記錄,一旦泄露會嚴重影響用戶的個人隱私安全。2023年3月ChatGPT的API出現錯誤,導致Redis內存中的數據并未及時清除,用戶的聊天記錄片段,甚至信用卡的最后四位數字、到期日期、姓名、電子郵件地址和付款地址等信息可能泄露至其他ChatGPT使用者。根據OpenAI官方調查報告,約有1.2%的ChatGPTPlus用戶面臨數據泄露。與云側AI相比,端側AI模型將用戶個人信息儲存在本地,無需上傳至云服務器中,并且手機終端可通過安全芯片或操作系統進一步保護用戶信息安全。同時端側AI可在不犧牲用戶隱私安全的前提下,利用儲存在終端的用戶信息以及用戶的表情、喜好和個性等進行學習和演進,增強和打造定制化的生成式AI提示,提供更個性化的服務體驗。高推理需求可導致云側模型宕機,端側模型可靠性好且延時低。生成式AI查詢對云側模型需求達到高峰時可能會出現高時延甚至拒絕服務。2023年11月ChatGPT更新導致用戶需求火爆,ChatGPT及其API出現周期性中斷,OpenAI耗時3個多小時解決問題,期間收到用戶6614份中斷報告;2024年3月20日Kimi受系統流量持續異常升高影響,用戶無法正常使用。終端側AI模型針對單一用戶提供服務,可有效避免短期需求大幅提升,可靠性更佳。并且端側AI在無網絡連接情況下仍可正常使用,用戶可隨時隨地享受AI服務體驗。2.AI手機仍處早期階段,AIOS賦予完整AI體驗2.1.初級AI手機形態:基礎AI應用+AI增強功能目前AI手機主要是在原有操作系統上集成AI功能或AI應用。集成AI功能:以原有操作系統為基礎,通過搭載端側大模型增加或增強AI功能,如增加AI助理智能摘要生成、實時翻譯功能等;集成AI應用:通過OpenAI發布的GPTStore下載定制化、個性化的AIAPP,如ChatGPTAPP等,可通過自然語言交互實現旅行規劃、智能問答、圖像識別生成等功能。基于生成式AI的美圖秀秀APP可支持AI繪畫、AI修圖、AI美容等功能。基于原有操作系統的AI手機通過集成AI應用或AI功能,能夠以自然語言與用戶進行交互并高效處理任務,但本質仍是通過API接口調用生成式AI模型,未實現AI系統級應用。GalaxyAI賦能多項應用,GalaxyS24系列AI體驗全面升級。GalaxyAI首創即圈即搜功能,用戶只需長按Home鍵并在當前文本、圖片或視頻界面圈選圖像即可獲得優質結果。GalaxyS24系列內置筆記助手,可根據內容智能排版、生成摘要和封面;內置轉錄助手可識別多人講話并轉錄為支持編輯的文本,也可直接翻譯錄音并生成摘要;原生通話應用程序引入通話實時翻譯功能,支持13種語言實時雙向和文本翻譯;圖像應用具有智能修圖建議、生成式編輯等功能,可快速去除反光、改變人物或對象位置大小等。谷歌Pixel8系列增強圖像編輯,個人助理Gemini智能提升。谷歌Pixel8系列內置的MagicEditor可以通過生成式人工智能編輯照片,ZoomEnhance通過生成式AI預測照片細節,填充像素間間隙,增強變焦;個人助理Gemini支持文本、語音及圖片交互,可幫助朗讀和翻譯網頁并生成摘要;錄音機增加AI功能,可自動總結對話并生成摘要;AudioMagicEraser通過AI識別聲音,可直接從視頻刪除不想要聲音。HarmonyOS4率先接入AI大模型,小藝同學增加多項AI功能。HarmonyOS4采用全新華為方舟引擎,與HarmonyOS3相比,滑動流暢性提升約20%,續航增加約30分鐘;并且對超級中轉站等進行優化,支持手機、平板、PC等不同端口,具備跨端流轉能力。HarmonyOS4將AI大模型技術接入小藝,全新小藝增強自然語言理解能力,支持用戶更日常的表述方式;增加智能摘要和文案輔助創作功能;可依托多模態大模型技術,對已有圖像進行個性化二次創作。小米14搭載底層重構的澎湃OS,支持人車家全生態。小米澎湃OS重構子系統,優化內存管理提高應用啟動速度。澎湃OS擁有AI大模型植入系統,基于端側大模型的小愛助手可智能創作文本、快速撰寫購物評價、生成發言稿等。小米14內嵌圖像應用可實現AI妙畫、AI搜圖、AI寫真、AI擴圖等功能。搭載的XiaomiHyperConnect可實現所有智能設備實時統一組網,可在手機、平板等設備的“融合設備中心”進行快捷控制。搭載ColorOS14的OPPOFindX7實現AndesGPT模型端云協同。ColorOS14系統端側支持70億參數的AndesGPT·Tiny大模型,云端支持AndesGPT·Turbo/Titan大模型。OPPOFindX7搭載ColorOS14系統,內置小布助手具有智能摘要、智能消除、內容創作等AI功能,并且系統內置的圖像軟件具有AIGC消除效果,可智能生成寫真照片。VivoOriginOS4搭載自研BlueLM,X100系列具備豐富AI功能。基于10億參數BlueLM的VivoX100系列,其內置的AI助手“藍心小v”具備超能語義搜索、超能問答、超能寫作、超能創圖和超感智慧交互等功能,能夠實現智能問答、文案撰寫、摘要生成、圖片編輯。攝影應用基于生成式AI,通過人像識別、場景識別等功能可優化拍攝效果。2.2.進階版AI手機:基于意圖交互的AIOS意圖交互升華AI認知,AIOS深度融合端側大模型。AIOS改變原有操作系統指令式的工作邏輯,通過集成智能感知技術實時獲取用戶行為、偏好等環境信息,實現意圖式人機交互,使AI或系統可更好地理解用戶當下所處場景及基于自然語言的用戶指令;通過將端側大模型融入底層架構,AIOS可持續從與用戶交互過程中學習并優化自身性能,為用戶提供更個性化、精準的服務;基于AIOS的AI助理可理解應用界面及相應功能,通過調用應用APP,自動完成用戶任務,簡化重復枯燥的操作過程。榮耀MagicOS8.0首次實現意圖識別人機交互。與主要負責管理硬件資源的傳統OS內核不同,MagicLive平臺級AI負責“管理”與人相關的因子,如個人知識庫、位置與狀態、習慣與畫像等,幫助OS精準識別用戶意圖,高效調度系統服務。基于MagicLive平臺級AI的場景感知、意圖決策、用戶理解能力,MagicOS8.0支持自然語言、語音、圖片、手勢、眼動等多模態交互方式,可智能識別用戶意圖,進行快速推理決策,主動提供個人化服務,提升交互效率。MagicOS8.0內嵌的任意門功能可基于意圖識別讓服務實現跨應用、跨設備一步直達、智慧流轉,支持100多款國內主流應用服務,覆蓋出行、辦公、社交、搜索、娛樂、購物、美食等應用場景。內置的YOYO智能助理可理解用戶意圖,高效安全地連接云側大模型,分發、融合、調度原子化服務,完成復雜任務閉環。蘋果FerretUI模型增強iOS意圖識別,致力打造AIOS。FerretUI以Ferret模型為基礎,通過將手機UI界面分割為更小的子圖像捕捉UI界面細節特征,并將所有子圖像單獨編碼獲取圖像特征,最后將子圖像與全局圖像特征輸入端側大模型中,使端側大模型可更好地捕捉UI界面細節信息。并且FerretUI通過收集各種初級UI任務的訓練數據,如圖標識別、查找文本、組件列表等,以精準定位和理解UI組件;通過收集與AI交互相關的高級任務數據集,如詳細描述、感知/交互對話和功能推理,以增強模型與UI相關的推理能力。基于FerretUI可顯著增強AIOS對手機UI界面的理解能力,并可根據用戶指令找到具體元素完成交互。iPhone環境下FerretUI性能接近或超過GPT-4V。FerretUI模型可完成簡單的UI定位和查詢任務,在iPhone環境下130億參數的FerretUI模型在初級UI任務中超越GPT-4V。并且可根據UI與用戶進行感知對話、交互對話,告訴用戶相應位置具體的UI內容,如何與UI進行交互,根據UI元素推斷軟件功能,在高級任務中的表現與GPT-4V接近。若將FerretUI與AI助理進行結合,AI助理可深入理解用戶意圖,并基于用戶自然語言指令與手機APP進行交互,實現AI系統級應用。Siri將迎來重大革新,iOS18預計搭載更多AI功能。根據彭博社,蘋果正在改進Siri和消息應用程序間的交互,使Siri更有效地自動生成文本并回答復雜問題;根據Theinformation報道,Siri將與Shortcuts應用程序進行更深入的集成,進而可自動執行復雜任務。2024年5月13日OpenAI發布GPT-4o,其具備強大的語音和視覺感知功能。用戶無需等待模型完成發言即可插話,回應音頻輸入平均時間僅為320毫秒,較GPT-3.5/GPT-4下降88.6%/94.1%,并且可根據語氣判斷用戶情緒,針對用戶情緒改變自身語氣,擬人化程度大幅提升。根據OpenAI官網,GPT-4o在MMLU、GPQA、MATH、HumanEval等推理測試中超越GPT-4Turbo、Claude3Opusn、GeminiPro1.5等前沿模型,并且在MLS基準測試中優于Whisper-v3以及Meta、谷歌的語音模型。根據彭博社報道,蘋果已與OpenAI達成合作協議,計劃在6月11日WWDC全球開發者大會公布一系列全新人工智慧技術。OpenAI技術加持的Siri有望以低延遲進行語音對話,提高人機語音交互的自然流暢度。并且有望增強用戶情緒感知,大幅提升擬人化水平。根據彭博社,蘋果與OpenAI雙方正確認一項新協議,將ChatGPT技術應用在iOS18中。根據macrumors,iOS18中多款應用程序如Spotlight、AppleMusic、Keynote、Shortcuts等將具備生成式AI功能。2.3.高級版AI手機:全自主執行能力的AIAgentAIOS的最終形態是具有全自主執行能力的數字人格。《PERSONAL大模型AGENTS:INSIGHTSANDSURVEYABOUTTHECAPABILITY,EFFICIENCYANDSECURITY》基于AIAgent智能水平將其分為L1-L5五個級別。具有意圖交互與自我學習能力的AIOS將幫助AI助理深入理解用戶需求,持續學習用戶個人習慣等信息。伴隨手機硬件配置升級以及端側大模型推理性能提升,基于AIOS的AI助理有望成長為高度智能化的數字人格,可根據用戶指令自主生成任務規劃,完美執行用戶任務并進行反饋。AutoGPT具備長期和短期記憶管理,可實現任務自主規劃及執行。AutoGPT是基于GPT-3.5或GPT-4API接口開發的AIAgent,其可將用戶提出的復雜任務拆解為多項子任務,自動生成相應任務提示并執行,無需用戶進行干預和指導。并且可以基于互聯網搜索獲取最新數據、新聞等信息,實現知識庫實時更新。通過集成Pinecone數據庫,AutoGPT可保存與用戶的對話、文本和上下文信息,并在對話中快速檢索相關的內容,回顧歷史對話,進而更好地理解用戶需求,提供更個性化的服務。Mobile-agent打破APP界限,聯用多款應用實現擬人化操作。Mobile-Agent基于視覺感知模塊可從設備屏幕截圖中準確定位視覺和文本元素以及圖標信息,并通過視覺信息將語言模型生成的操作指令映射到具體的屏幕位置執行點擊等操作。其具備自主規劃能力,能夠根據操作歷史和系統提示自主規劃新的任務。并且引入自我反思機制,在執行過程中若遇到錯誤或無效操作,可根據屏幕截圖和操作歷史進行反思,嘗試替代操作或修改當前操作的參數。目前Mobile-agent已學會阿里巴巴、TikTok、Youtube等10項APP使用,并在部分跨應用場景中取得出色的結果。2.4.具備豐富大模型技術儲備、出色AIOS與硬件開發能力的手機廠商將取得領先地位高性能端側大模型、AIOS與出色硬件配置是AI手機核心。端側大模型是AI手機智能核心,其性能將直接影響AI手機的使用體驗;將端側大模型融入底層架構的AIOS具備出色的意圖交互能力,深化AI手機對用戶需求的理解,并且可更好地調用硬件資源,充分發揮端側大模型性能;CPU、GPU和NPU等硬件滿足端側大模型運算的算力需求,具有更高硬件配置的AI手機可率先搭載更強性能的端側大模型,為用戶提供更佳AI服務體驗。蘋果AIOS系統開發領先,自研芯片性能強勁,端側大模型進展順利,有望率先開發具備完整AI體驗的AI手機。AIOS:蘋果開發的FerretUI模型增強AIOS對手機UI界面的理解能力,可根據用戶指令與手機應用進行交互。結合AI助理將賦予AI助理對手機應用的深度理解,有望實現AI助理自主調用APP,完美執行用戶指令。通過與OpenAI進行合作,預計將實現Siri重大革新并且iOS18將增加多項AI功能;芯片:蘋果自研A系列芯片性能出眾,根據Geekbench6,最新的A17Pro單核性能較驍龍8Gen3高26%,NPU算力達35TOPS;端側大模型:2024年4月蘋果在HuggingFace發布4款OpenELM,參數量分別為2.7億、4.5億、11億和30億。其采用層級縮放策略,通過在Transformer模型的每一層有效分配參數,顯著提升模型的準確率。根據《OpenELM:AnEfficientLanguageModelFamilywithOpenTrainingandInferenceFramework》,在使用1/2的預訓練數據下,參數1B的OpenELM在零樣本訓練、leaderbroad任務和大模型360任務中的準確性較OLMo高1.28%/2.36%/1.72%。蘋果有望憑借出色的芯片研發能力以及對操作系統的深刻理解,在AI手機開發中取得領先地位。谷歌率先布局大模型,積極推進Tensor處理器研發彌補硬件短板。端側大模型:2023年谷歌發布具備萬億參數的大模型,Gemini。并以Gemini為基座模型開發參數量1.8B/3.25B的GeminiNano,目前已應用至谷歌Pixel8pro、三星GalaxyS24系列手機中。AIOS:谷歌發布的screenAI模型通過采用圖像編碼器和語言編碼器提取圖像與文本特征,可以識別UI元素的類型和位置,增強圖像理解等多模態任務能力,深化對手機界面的理解。最新推出的Android14系統搭載AI助理Gemini,增加生成式AI功能。AICore可調用管理GeminiNano等端側模型,便于開發者進行大模型調整和創新,助力構建AI應用生態;處理器:TensorG3處理器CPU單核及多核性能分別為A17Pro的60.4%/61.7%。自研TPU芯片,可提高AI手機中AI消除、AI視頻強化等性能。根據9to5google,TensorG4將采用三星4nm制程工藝與更先進的FOWLP封裝工藝,進一步提高能效比以及散熱水平,為AI手機提供更佳性能支持。谷歌在大模型、操作系統領域具有豐富的技術積累,但自研處理器性能具有較大改進空間,未來仍需增強處理器性能以將更高性能端側大模型搭載至AI手機。3.AIOS需搭載10B~100B端側大模型,高性能需求掀起硬件革新浪潮AIOS的端側大模型參數量應在百億~千億水平。意圖交互能力是實現AIOS的前提,可使AI手機更懂用戶訴求,提供更優質的服務體驗。通過進一步增加端側大模型參數量、改進端側大模型的自學習性能可提高AIAgent的智能化水平,實現AIAgent自主規劃并完美執行用戶指令,無需用戶進行干預。因此AI手機搭載的端側大模型,其參數量至少需達到意圖交互功能所需的參數量要求,然后通過硬件性能優化等方式支撐更高性能端側大模型,逐步接近高智能AIAgent所需參數水平。根據榮耀官網,MagicOS8.0系統搭載的端側大模型模型參數量為7B,蘋果FerretUI模型的參數量為13B,意圖交互能力所需端側大模型參數在百億級別。可實現任務自主規劃及執行的AutoGPT和具備出色視覺感知、可自主規劃并調用Tiktok、淘寶等應用程序的Mobile-Agent分別依賴參數量175B的GPT-3.5及參數量萬億以上的GPT-4V。考慮到手機終端算力性能有限,我們認為手機搭載的AIAgent所需端側大模型參數量將顯著低于ChatGPT的175B,預計將通過模型壓縮等方法將模型參數量降低至千億以下。3.1.異構計算突破算力瓶頸,驍龍、天璣、蘋果A更新迭代提供堅實算力支撐百億參數端側大模型峰值算力需求達100TOPS以上。蘋果提出的具有意圖識別能力的FerretUI模型參數量達13B,我們基于此計算搭載AIOS的AI手機所需最低算力。假定用戶手機屏幕分辨率為1920*1080,用戶最大可允許屏幕推理時間為2s,硬件算力利用率為60%。根據OpenAI,1張高分辨率圖像=85+170*(圖像分辨率/512×512)tokens,經測算模型所需峰值算力達99TOPS。因此搭載AIOS的AI手機,處理器算力需達到100TOPS以上。集成NPU的異構計算具備最高能效比。生成式AI部署增加手機終端計算需求,主要可分為:(1)按需型需求,由用戶觸發需立即響應,包括圖像生成、代碼和會議摘要生成等;(2)持續型需求,運行時間較長,包括語音識別、視頻優化、實時翻譯等;(3)泛在型需求,在后臺持續運行,包括始終開啟的預測性AI助手、基于情境感知的AI個性化和高級文本自動填充。手機終端搭載的通用CPU和GPU難以滿足生成式AI嚴苛且多樣化的計算訴求。通過集成專為AI定制的NPU,以降低部分易編程性為代價可實現更高的峰值性能、能效和面積效率,進而可運行機器學習所需的大量乘法、加法和其他運算。基于CPU+GPU+NPU異構計算的處理器能夠實現最佳手機應用性能、能效和電池續航,賦予增強的生成式AI體驗。驍龍8Gen3搭載全新HexagonNPU,AI算力大幅升級。驍龍8Gen3搭載HexagonNPU為持續型AI推理帶來98%性能提升和40%能效提升,處理器整體峰值算力達73TOPS,支持100億參數端側大模型。通過升級微切片推理降低內存帶寬占用,并支持4.8GHzLPDDR5x,內存帶寬可達77GB/s。CPU和GPU性能較前代提升30%/25%,能效提升20%/25%。高通在MWC2024宣布驍龍8Gen4將采用臺積電3nm工藝制程,放棄Arm公版架構,采用高通自研Oryon內核,并將集成Adreno830GPU,有望進一步提升處理器算力。天璣9300+內置硬件級生成式AI引擎,最高支持330億參數AI模型。天璣9300+是業界首款生成式AI端側雙LORA融合的芯片,Llama2-7B端側大模型運行速度可達22tokens/秒,最高支持運行330億參數模型。聯發科與百度、百川智能、阿里云、谷歌、Meta等國內外大模型巨頭達成合作,支持阿里云通義千問、百川大模型、文心大模型、谷歌GeminiNano、零一萬物等AI大模型。根據CNMO,天璣9400預計將在2024Q4發布,采用臺積電3nm制程并沿用ARM內核,CPU大核由Cortex-X4升級至Cortex-X5。蘋果A17Pro率先采用3nm制程工藝,NPU算力達35TOPS。A17Pro搭載16核神經網絡引擎,NPU算力較A16Bionic提高100%。CPU和GPU均采用6核設計,性能核心提升最高可達10%/20%。根據9to5Mac,A18芯片具備更大的尺寸,并將大幅增加內置AI計算核心數量,預計將搭載至iPhone16和iPhone16Pro。根據GIZMOCHINA,A18Pro在Geekbench6上的單核和多核跑分分別為3570/9310,較A17Pro高22%/28%。工藝制程升級+先進封裝是處理器未來發展方向。根據臺積電,與5nm制程技術相比,3nm制程的邏輯密度增加約70%,可實現相同功耗下頻率提升10-15%,或相同頻率下功耗降低25-30%,進一步提高芯片的運算能力以及能效比。目前臺積電規劃的3nm制程包括N3B、N3E、N3P、N3X、N3AE,其中N3B已應用至蘋果的A17Pro,預計驍龍8Gen4將使用成本優化后的N3E。N3P性能將進一步提升,預計2024年下半年投產;N3X聚焦高性能計算設備,預計2025年進入量產階段。以Chiplet為代表的3D封裝技術,通過芯片封裝小型化、高密度化,可實現異質異構的系統集成以及高互聯密度與低信號傳輸延遲。并且先進封裝有望延續摩爾定律,持續提升芯片性能并降低先進制程工藝成本。AI手機處理器有望基于先進封裝突破摩爾定律限制,持續增強AI算力。圖20:以Chiplet為代表的先進封裝技術將持續提升處理器算3.2.內存升級+模型優化加速AI手機智能進化端側大模型部署驅動手機內存升級,16GB是AI手機基本配置。根據智源社區,FP32全精度的llama213B模型推理所需最低內存為52GB,經過Int4量化后,其推理占用內存仍有6.5GB,考慮到手機運行安卓操作系統使用內存為4GB左右,后臺運行其他手機APP需要6GB左右內存,累計內存需求達16.5GB。根據IDC,16GB內存將成為AI手機基礎配置。目前OPPO、vivo、小米、榮耀等安卓廠商AI手機的最大內存達到16GB,可滿足百億參數端側大模型運行的基本要求。蘋果手機受益于更高效的iOS系統,內存占用需求更低,目前iPhone15Pro及iPhone15ProMax的最大內存為8GB。伴隨具有更高智能水平與更多參數量的端側大模型部署至AI手機,AI手機內存容量有望升級至24GB以上。基于模型壓縮可在有限內存下部署更高性能端側大模型。目前模型壓縮方法主要包括數值量化、稀疏化處理、知識蒸餾等。數值量化通過簡化數據或減少表示數值的比特數壓縮模型大小。根據OPPO,FindX7部署的70億參數AndesGPT-Tiny模型,正常的內存占用為28GB,無法搭載至AI手機中。經過INT4對模型進行壓縮后,內存占用由28GB降低至3.9GB,實現AndesGPT-Tiny模型端側部署。稀疏化處理主要是去除模型中數值為0或接近0的權值。微軟提出的SliceGPT技術可在保持llama-270B模型99%零樣本任務性能的前提下,剪除25%模型參數。知識蒸餾則是基于參數多、結構復雜的教師網絡訓練小參數學生網絡,以期獲得相似或更好性能。通過模型壓縮可突破內存限制,加速更高參數端側大模型部署,加快打造智能化AIOS。蘋果通過優化閃存內存交互和內存管理,可加載較設備DRAM大兩倍的端側大模型。目前調用大模型的方法是將整個模型加載至DRAM中進行推理,需占用較大內存容量。蘋果提出將模型參數存儲在容量更高的閃存中,在推理過程中僅從閃存中加載所需參數。其通過滑動窗口技術僅增量加載與之前不同的神經元數據并釋放滑窗外token占用的內存。同時以行列捆綁方式讀取更大數據塊,提高閃存數據吞吐量。通過及時刪除冗余神經元、將新神經元插入預先分配數據結構消除DRAM重新分配內存和復制現有數據的需要,減少推理延遲。基于該方法可加載較設備DRAM大兩倍的端側大模型,并且在CPU和GPU上加載速度分別比傳統方法提高4-5倍和20-25倍。內存帶寬限制AI手機性能,LPDDR6預計將加速滲透。根據聯發科,運行130億參數端側大模型所需內存帶寬為130GB/s,目前已發布的AI手機搭載的最優DRAM為LPDDR5×,數據傳輸速度為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 偃師疫情捐款活動方案
- 假期實踐室內活動方案
- 假期活動攝影展活動方案
- 假期讀書會活動方案
- 做客設計活動方案
- 做蛋糕活動方案
- 健康中國運動會活動方案
- 健康出行活動方案
- 健康小科普活動方案
- 健康教育保育活動方案
- 直流分流器(光CT)國產化研究和實際應用情況
- 40篇短文搞定高考英語3500詞(共42頁)
- 設備基礎維護培訓系列之氣動元件故障診斷維護(課堂PPT)
- 銷售配合與帶動課件
- 混凝土的攪拌站應急處置預案
- 架空絕緣導線全參數
- (完整word版)機械加工工藝卡片模板
- 柴油發電機運行記錄
- 機械制造技術課程設計-泵體加工工藝及鉆4-M6螺紋孔夾具設計
- 班組長安全培訓ppt課件.ppt
- 石蛙養殖可行性報告 (2)
評論
0/150
提交評論