基于MobileFlow的終端自動化測試效能躍升實踐_第1頁
基于MobileFlow的終端自動化測試效能躍升實踐_第2頁
基于MobileFlow的終端自動化測試效能躍升實踐_第3頁
基于MobileFlow的終端自動化測試效能躍升實踐_第4頁
基于MobileFlow的終端自動化測試效能躍升實踐_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

唐曉璇|螞蟻集團螞蟻集團-CIOMobileFlow算法負責人就職于螞蟻集團,專注于研發效能優化方向,主要工作方向為AI驅動的研發效能體系創新。作為MobileFlow技術團隊的算法工程師,聚焦多模態大模型與智能體技術的前沿探索,主要研究方向包括:1)視覺-語言聯合建雜任務分解與動態規劃能力優化;3)跨平臺界面操作智能體的端到端自動化測試框架構建。為復雜場景下的研發效率與質量提升提供技術驅動力。I.智能體發展的背景與趨勢目錄II目錄III.螞蟻MobileFlow平臺介紹IV.MobileFlow平臺多模態技術介紹V.工業級場景落地與應用VI.思考與展望什么是基于大語言模型的智能體(LLM-basedAgent)?任務規劃,推理,文本生成存儲歷史狀態和經驗通過預定義接口調用外部工具(如數據庫、API、代碼執行器)執行具體動作基于大語言模型的智能體是一種能夠自主感知環境、規劃決策并執行動作的系統,其核心能力由大語言模型驅動。這類智能體通過整合語智能體交互流程示例關輸入(如語音、文本、圖像、生理信號等構建完整的上下文感知能力解可執行的子任務并動態調整計劃并以用戶友好的方式反饋結果(如可視化圖表、語音總智能體常用場景在大模型和智能體迅速發展的背景下,智能體評測的方式也在不斷進化。傳統的評測方法已經難以滿足移動端智能體和多輪對話智能體發展趨勢復雜度低,耗時短的任務更符合用戶習慣的多模態輸入復雜度高,需要調用多種工具智能體評測通用痛點多在理想或簡化的條件下測試,無法完全模擬真實的移動端使用和用戶行為。例如節假日第三方發起的營銷活動等場景很難通過人工有效覆蓋,或者直接導致評測腳本執行報錯。不同用戶不同行為智能體評測通用痛點傳統方式使用精準文字或圖片匹配作為腳本規則路由方式。無法有效評測圖片、語音等多模態信息的理解和處智能體評測通用痛點因為待評測模型產出存在不確定性,當擴展到多輪對話交互后,使用傳統RPA+規則腳本驅動的方式覆蓋成本成指數級增加,并且執行穩定性差、成功率低。實際還需要依靠人工兜底,評測無法窮盡的多輪對話五花八門的報錯信息MobileFlow平臺能力待評測移動端智能體待評測移動端智能體MobileFlowMobileFlow智能體智能體評測痛點智能體評測痛點測試動線自動化生成測試動線自動化生成MobileFlow平臺架構支持業務場景終端智控平終端智控平臺多模態算法技術系統平臺能力云真機資源MobileFlow平臺介紹–交互演示Demo進入螞蟻森林,點擊找MobileFlow平臺介紹–多模態能力單步操作生成通用圖文斷言意圖驅動生成單步操作生成通用圖文斷言意圖驅動生成MobileFlow云真機能力云真機:遠程操控云端手機線上問題復現日志抓取,Mocking,收集性能問題支持多種型號,多種操作系統設備,產品覆蓋全便捷端云協同聯調支持遠程仿真環境聯調,把手機拉取到本地調試MobileFlow–多模態大模型驅動測試腳本生成MobileFlow–多模態大模型驅動測試腳本生成選擇任意商品并進行下MobileFlow-多模態大模型驅動測試腳本生成“click”,"point":““click”,“click”,“click”,"point":MobileFlow-模型結構混合視覺編碼:理解頁面布局結構、控件的手機UI場景視覺理解編碼器視覺語言對齊:網絡結構優化+多任務訓練,強化大模型跨模態任務能力VisualQuestionAnsweringMobileFlow–模型效果評測在真實手機UI場景測評,小樣本SFT微調后場景能力超越GPT-4v等業界領先模型/方案MobileFlow-大小模型協同小小模型協同利用專門訓練的小模型來識別頁面上的彈窗,并解決加載過程中出現的黑白屏等異常問題,確保動線執行過程中的穩定性和準確性。小模型輔助大模型應對終端環境的不穩定性(頁面異常)通過控件識別的小模型提供額外的頁面解析信息,確保大模型擁有充分的先驗知識支持,補充開源多模態大模型在視覺上的不足,如對彈窗下視圖、卡片式布局理解薄弱的問題。MobileFlow模型訓練數據飛輪回歸問題本質,通過大模型和人類意圖能夠良好對齊的特性,實現多樣UI場景的兼容以數據為核心,利用平臺多年沉淀的UI自動化任務執行數據,構建手機場景多模態大模型訓練數據緊貼業務場景,大模型+Agent+產品的綜合解決方案工業級場景落地與應用-某平臺助理應用案例?安全性評測財富助理財富助理智能助理?功能性評測?數據生產工業級場景落地與應用–支持支付寶質量管控提效嚴格控制三端設備(IOS,),一次操作,同時控制三端設測試門檻工業級場景落地與應用–鳴謝Accessibility”(WW思考與展望–多種硬件設備智控平臺設備集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論