91系列在线播放_久久精品国产秦先生_校园春色 亚洲_99精品视频在线观看_久久久久无码精品国产_精品久久久久久亚洲精品 _不卡视频在线看_国产成人精品综合_91高潮大合集爽到抽搐_国产一区二区无遮挡_亚洲欧洲国产综合_亚洲成人av片在线观看

登錄
首頁 > 今日新聞 > 任務(wù)級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務(wù)級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發(fā)布時(shí)間:2025-07-20 15:46:08

現(xiàn)有Mobile/APP Agent的工作可以適應(yīng)實(shí)時(shí)環(huán)境,并執(zhí)行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導(dǎo)代理預(yù)測每一步中最佳的單一動作,因此難以應(yīng)對不斷變化的移動環(huán)境。

比如一句指令:“打開飛豬,進(jìn)入酒店套餐,進(jìn)入熱門直播,找到飛豬超級VIP,并關(guān)注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團(tuán)算法技術(shù)-未來生活實(shí)驗(yàn)室&點(diǎn)淘算法團(tuán)隊(duì)聯(lián)合提出,采用多回合、任務(wù)導(dǎo)向的學(xué)習(xí)方式,結(jié)合在線學(xué)習(xí)和軌跡糾錯(cuò),也許能提高Agent的適應(yīng)性和探索能力。

他們提出了個(gè)具有任務(wù)級獎勵(Task-level Reward)的交互式強(qiáng)化學(xué)習(xí)框架,即Mobile-R1。

為了確保訓(xùn)練的穩(wěn)定性,團(tuán)隊(duì)提出了一個(gè)三階段訓(xùn)練過程:格式微調(diào)、動作級訓(xùn)練和任務(wù)級訓(xùn)練。此外引入新的中文基準(zhǔn)和高質(zhì)量軌跡數(shù)據(jù)集,證明了該方法在移動代理領(lǐng)域的有效性。

結(jié)果Mobile-R1順利地完成了這一任務(wù)。

軌跡數(shù)據(jù)集

團(tuán)隊(duì)使用Qwen2.5-VL-3B執(zhí)行一系列任務(wù)獲得初始軌跡,并人工標(biāo)注這些初始軌跡,得到了高質(zhì)量的軌跡數(shù)據(jù)集。

其構(gòu)造可以分為數(shù)據(jù)收集和軌跡標(biāo)注兩部分,最終得到了4,635條高質(zhì)量的人工標(biāo)注軌跡,包含24,521個(gè)單步數(shù)據(jù)。

軌跡數(shù)據(jù)集構(gòu)造流程

首先,選擇了28個(gè)中國移動應(yīng)用程序,通過人工設(shè)計(jì)和自動生成相結(jié)合的方法創(chuàng)建了多樣化的任務(wù)指令,隨后統(tǒng)一經(jīng)過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執(zhí)行這些指令后,成功收集了大量動作執(zhí)行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執(zhí)行的動作以及對應(yīng)的工具調(diào)用。

得到軌跡后,針對模型的輸出做了以下三個(gè)維度的標(biāo)注:

  • 邏輯思考:將所有思考修正為“當(dāng)前狀態(tài)+下一步的動作+動作目的”的格式,比如“當(dāng)前在手機(jī)主屏(當(dāng)前狀態(tài)),下一步是點(diǎn)擊淘寶圖標(biāo)(下一步動作)來進(jìn)入淘寶(動作目的)”。如果原思考內(nèi)容錯(cuò)誤也會人工標(biāo)注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執(zhí)行操作的一句話描述,動作應(yīng)符合思考的內(nèi)容并且可推動任務(wù)的完成。

  • 準(zhǔn)確調(diào)用:人工標(biāo)注者會修正錯(cuò)誤的操作調(diào)用,包括類型錯(cuò)誤以及參數(shù)錯(cuò)誤。

訓(xùn)練流程

訓(xùn)練流程由三個(gè)階段構(gòu)成,基于Qwen2.5-VL-3B。這三個(gè)階段分別是初始格式微調(diào)、動作級在線訓(xùn)練和任務(wù)級在線訓(xùn)練。

Stage1:初始格式微調(diào)

在第一階段,對模型進(jìn)行初始格式微調(diào)。這一步是通過監(jiān)督微調(diào)(SFT)的方式進(jìn)行的,使用的是之前人工標(biāo)注的高質(zhì)量軌跡數(shù)據(jù)集。在微調(diào)過程中,模型不僅會學(xué)習(xí)如何將用戶的指令與當(dāng)前的GUI狀態(tài)對應(yīng)起來,還會調(diào)整輸出格式以符合預(yù)期的結(jié)構(gòu),包括邏輯思考、清晰動作和準(zhǔn)確調(diào)用。

Stage2:動作級在線訓(xùn)練

在第二階段,模型通過群體相對策略優(yōu)化(GRPO)進(jìn)行動作級在線訓(xùn)練。此階段使用動作級獎勵(Action-level Reward)來評估每個(gè)動作的正確性,同時(shí)確保輸出格式的完整性。動作級獎勵由可驗(yàn)證動作獎勵和格式獎勵組成,其中可驗(yàn)證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結(jié)構(gòu)化、可解釋的。

  • 動作級獎勵。1)對于基于坐標(biāo)的動作(如點(diǎn)擊、滑動),如果預(yù)測的坐標(biāo)落在目標(biāo)GUI元素的真實(shí)邊界框內(nèi),則獎勵為1,否則為0。2)對于非坐標(biāo)的動作(如輸入文本),如果預(yù)測的動作或參數(shù)與真實(shí)值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標(biāo)簽和結(jié)構(gòu)要求的輸出,確保響應(yīng)的邏輯思考、動作以及工具調(diào)用的格式化。

Stage3:任務(wù)級在線訓(xùn)練

在第三階段,通過多步驟任務(wù)級在線訓(xùn)練來提高模型的泛化能力和探索能力。

在動態(tài)的移動環(huán)境中,模型需要進(jìn)行自由探索和錯(cuò)誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務(wù)級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個(gè)軌跡中保持對響應(yīng)格式的遵循,同時(shí)評估任務(wù)的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個(gè)歷史互動軌跡,確保步驟和動作的一致性以及任務(wù)的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個(gè)軌跡計(jì)算平均格式獎勵,并通過[-1, 1]的范圍來對錯(cuò)誤施加更嚴(yán)格的懲罰,以增強(qiáng)輸出的精確度。

訓(xùn)練的部分階段在淘天自研的強(qiáng)化學(xué)習(xí)框架ROLL上進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中,主要評估了模型在自定義benchmark上的性能,并進(jìn)行了針對模型泛化能力的魯棒性分析,以驗(yàn)證Mobile-R1的表現(xiàn)。

整體實(shí)驗(yàn)結(jié)果,粗體表示最佳結(jié)果,下劃線表示次優(yōu)結(jié)果

結(jié)果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現(xiàn)類似。

其中,AgentCPM-8B 由于專為中國移動生態(tài)系統(tǒng)優(yōu)化,因此在中文場景中表現(xiàn)優(yōu)異。更為顯著的是,Mobile-R1在所有基準(zhǔn)中表現(xiàn)最佳,任務(wù)成功率達(dá)到49.40,比最優(yōu)秀的baseline model高出將近20點(diǎn)。

Stage 3的訓(xùn)練進(jìn)一步增強(qiáng)了Mobile-R1的表現(xiàn),其成功率比只有階段1和階段2訓(xùn)練的模型高出1.4點(diǎn),這得益于任務(wù)級GRPO的有效應(yīng)用。

特別值得注意的是,通過階段1和階段2的訓(xùn)練,Qwen2.5-VL-3B模型的表現(xiàn)超越了其標(biāo)準(zhǔn)版本,并在多項(xiàng)指標(biāo)上領(lǐng)先于其他基準(zhǔn)模型,突顯了動作級和任務(wù)級獎勵機(jī)制的重要性。

Stage 3訓(xùn)練的獎勵曲線

此過程中,Stage 3的獎勵分?jǐn)?shù)顯示出在前四個(gè)訓(xùn)練步驟中穩(wěn)步增長,表明學(xué)習(xí)過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進(jìn)或探政策的改變導(dǎo)致的不穩(wěn)定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優(yōu)化和改進(jìn)。

Mobile-R1在處理未見應(yīng)用時(shí)表現(xiàn)出良好的泛化性,而其他模型在泛化能力上存在挑戰(zhàn)。Mobile-R1的優(yōu)異表現(xiàn)主要?dú)w功于Stage 3的訓(xùn)練,這一階段有效增強(qiáng)了模型的魯棒性和適應(yīng)性。

魯棒性分析結(jié)果,粗體表示最佳結(jié)果

最后總結(jié),在本文中,Mobile-R1通過在動態(tài)環(huán)境中整合交互式強(qiáng)化學(xué)習(xí)與任務(wù)級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調(diào)、動作級GRPO訓(xùn)練和任務(wù)級GRPO訓(xùn)練在內(nèi)的三階段訓(xùn)練過程,克服了以往方法僅依賴單一動作預(yù)測的局限性。

實(shí)驗(yàn)結(jié)果表明,Mobile-R1在所有指標(biāo)上都超越了所有基準(zhǔn)。此外,團(tuán)隊(duì)計(jì)劃全面開源相關(guān)資源以促進(jìn)進(jìn)一步的研究。

Copyright 2019-2024 我要98 版權(quán)所有  京ICP備2019123967號
亚洲影视中文字幕| 亚洲偷熟乱区亚洲香蕉av| 青草青草久热精品视频在线网站| 国产免费黄色小视频| 久青草视频在线观看| 久久一区二区视频| 精品国产国产综合精品| 粉嫩av一区二区夜夜嗨| 婷婷亚洲久悠悠色悠在线播放| 97色在线观看免费视频| 污视频网址在线观看| 熟妇高潮一区二区三区| 欧美精品三级在线观看| 国产私拍一区| 日本天堂中文字幕| 亚洲四区在线观看| 欧美在线欧美在线| 日本69式三人交| 国产精品99久久久久| 色多多国产成人永久免费网站 | 99精彩视频| 精品一区二区三区蜜桃在线| 国产日韩欧美精品在线| 2018中文字幕一区二区三区| 日本一二三四区视频| 蜜桃视频一区二区三区在线观看 | 国产又粗又硬视频| 欧美激情综合在线| 日本视频久久久| 亚洲国产av一区| 国产精品美女视频| 成人写真福利网| 日本在线一级片| 亚洲精品videosex极品| 国产伦精品一区二区三区在线| 免费人成年激情视频在线观看| 伊人开心综合网| 97人人澡人人爽| 日韩精品一区二区三区国语自制| 午夜久久电影网| 欧美一区免费视频| 久久久999久久久| 欧美理论电影在线| 日韩欧美精品免费| 日本aⅴ精品一区二区三区| 中文字幕日韩免费视频| 国产日韩专区在线| 视频一区二区在线| 精品国产青草久久久久96| 欧美日韩一区 二区 三区 久久精品| 久久偷窥视频| 自拍偷拍福利视频| 日韩精品在线视频观看| 五月激情婷婷在线| 久久亚洲私人国产精品va媚药| 国产精品久久久久国产a级| 亚洲AV成人无码网站天堂久久| 一区二区三区四区乱视频| 国产伦精品一区二区三区免费视频 | 波多野结衣啪啪| 欧美精品久久一区二区三区| 久操网在线观看| 久久精品国产99国产精品| 韩剧1988在线观看免费完整版| 国产黄色网址在线观看| 亚洲va中文字幕| 成年人免费观看的视频| 日韩精品欧美精品| 欧美亚洲视频在线看网址| 欧美日韩偷拍视频| 欧美一区二区在线免费播放 | 午夜精品久久久| 伊人久久大香线蕉成人综合网| 爽爽淫人综合网网站| 91国内免费在线视频| 中文字幕电影av| 欧美一区二区私人影院日本| 欧美成人福利在线观看| 国产免费观看久久| 翔田千里亚洲一二三区| 捆绑紧缚一区二区三区视频| 国产日韩欧美电影在线观看| 亚洲 小说区 图片区| 尤物九九久久国产精品的分类| 亚洲av成人片色在线观看高潮| 性做久久久久久久免费看| 日韩日韩日韩日韩日韩| 99re成人在线| 亚洲国产日韩综合一区| 亚洲精品无码久久久久久| 精品人妻伦一二三区久久| 久久久噜噜噜久久中文字免| 中文字幕在线观看免费视频| 国产午夜精品全部视频播放| 午夜激情福利电影| 亚洲精品美女久久久久| 小早川怜子久久精品中文字幕| 欧美在线观看一区二区| 中文字幕第10页| 在线免费观看日韩欧美| 国产精品19p| 欧美性欧美巨大黑白大战| 午夜啪啪小视频| 亚洲成人福利片| 黄色在线视频网| 欧美日韩激情小视频| 日本黄大片一区二区三区| 亚洲不卡一区二区三区| 国产成人黄色网址| 色域天天综合网| 99精品视频国产| 欧美在线看片a免费观看| 精品熟女一区二区三区| 欧美一区二区三区在线电影| 国产中年熟女高潮大集合| 精品国产91乱码一区二区三区 | 久久亚洲影音av资源网| 久久久久久久久久免费视频| 欧美激情视频网| 99热在线只有精品| 成人综合网网址| 蜜桃久久久久久| 日本高清久久一区二区三区| av电影在线观看不卡| 一区二区三区国| 中文字幕一区二区三区精华液| 爱福利视频一区二区| 懂色av中文一区二区三区天美| 日本少妇一区二区三区| 欧美成人bangbros| 久久精品欧美一区二区| 国产91对白在线播放| 久久亚洲国产精品一区二区| 久久99久久精品国产| 久久综合色一综合色88| 妞干网在线免费视频| www.久久久久久久| 欧美精品777| 国产高潮流白浆| 久久国产精品久久久久久久久久| 亚洲图片中文字幕| 亚洲在线www| 91丝袜美腿高跟国产极品老师| 国产网站免费在线观看| 欧美日韩国产欧美日美国产精品| 亚洲少妇xxx| 欧美国产一区二区三区| 三级欧美在线一区| 日韩不卡一二区| 亚洲国产成人tv| 3d动漫精品啪啪一区二区下载 | 久久久久香蕉视频| 57pao国产精品一区| 美女国产一区二区| 91丨porny丨探花| 欧美视频在线播放| 伊人久久综合视频| 91美女高潮出水| 91色视频在线| 伊人色在线视频| 一二美女精品欧洲| 污污视频在线观看网站| 特级西西444| 欧美精品粉嫩高潮一区二区| 看黄色一级大片| 精品视频第一区| 亚洲一线二线三线久久久| www久久久久久久| 91高清在线免费观看| 国产91精品露脸国语对白| 一级片视频免费观看| 精品一区二区三区三区| 国产美女免费看| 色播亚洲婷婷| 欧美日韩国产小视频| 午夜精品免费观看| 区一区二区三区中文字幕| 亚洲一区精品在线| 亚洲精品午夜久久久久久久| 97se国产在线视频| 亚洲一区二区三区四区在线免费观看 | 中文字幕一区二区三区四区五区 | 亚洲欧美国产77777| 黄色小视频大全| 日韩精品综合一本久道在线视频| 91黄色在线视频| 在线观看视频黄色| 日韩一区二区三区电影| 亚洲精品久久久狠狠狠爱| av片在线免费| 亚洲欧美在线看| 朝桐光av在线一区二区三区| 成年人看片网站| 亚洲激情久久久| 欧美一区二区三区日韩| 青青草自拍偷拍| 91在线中文字幕| 亚洲成人www| 你懂的国产在线| 亚洲一区三区在线观看| 制服丝袜亚洲网站| 国产精品成人一区二区三区夜夜夜| 亚洲精品mv在线观看| 在线视频观看一区| 一区二区三区少妇| 国产性一乱一性一伧一色| 欧美孕妇毛茸茸xxxx| 国产精品嫩草影院com| 国产精品热视频| 91福利国产精品| 精品午夜福利在线观看| 久久精品在这里| yw.139尤物在线精品视频| 成人免费高清视频| 亚洲中国色老太| 精品国产乱码久久久久酒店 | 亚洲精品一区二区三区99| 午夜性色福利视频| 手机在线观看日韩av| 国产精品久久久久77777| 精品人伦一区二区三区蜜桃网站 | 六月丁香婷婷在线| 国内精品伊人久久| 一区二区三区91| 99久久精品国产色欲| 欧美日韩一区二区三区69堂| 国产激情久久久| 色www精品视频在线观看| 日日躁夜夜躁白天躁晚上躁91| 中文字幕乱码在线人视频| 久久国产麻豆精品| 欧美精品一区免费| 日产精品99久久久久久| 精品免费在线观看| 五月婷婷六月丁香综合| 国产特黄级aaaaa片免| 日本一区免费| www.欧美三级电影.com| 亚洲美女偷拍久久| 黄色一级大片在线免费看国产| 色诱av手机版| 欧美xxxx黑人又粗又长密月| 亚洲欧美www| 国产精品国产自产拍高清av | 欧美激情一区二区三区高清视频| 亚洲色图清纯唯美| 亚洲男人第一天堂| 中文字幕免费高清| 黄黄视频在线观看| 91精品国产乱码久久久久久久久| 色婷婷亚洲一区二区三区| 麻豆精品视频在线观看免费| 成年人av电影| 国产一级片黄色| 999视频在线免费观看| 亚洲欧洲黄色网| 中文字幕一区二区三区不卡| 免费观看黄色av| av片在线免费看| 成年人午夜视频在线观看| 国产精品久久久久久久久久ktv| 91麻豆精品国产| 久久久久久**毛片大全| 国产精选久久久| 久久久久亚洲av无码专区桃色| 亚洲成年人专区| 国产999在线| 日韩成人中文字幕| 亚洲一级二级三级在线免费观看| 青青国产91久久久久久| 国产一级中文字幕| 黄色a级三级三级三级| 亚洲午夜精品一区二区| 国产福利精品av综合导导航| 日韩精品视频在线播放| 性欧美疯狂xxxxbbbb| 国产成人精品一区二区三区四区| 91丝袜一区二区三区| 久久久久99人妻一区二区三区| 亚洲精品自在在线观看| 国产精品久久久| 亚洲老头同性xxxxx| 国产伦理一区二区| 亚洲高清资源综合久久精品| 国产成人精品一区二区三区| 日韩天堂在线观看| 亚洲男同1069视频| 国产美女精品人人做人人爽| ,一级淫片a看免费| 国精产品一区一区二区三区mba| 久久婷婷综合色| 91国在线高清视频| 精品国产一区二区三区四区精华 | 欧洲亚洲精品在线| 亚洲国产成人一区二区三区| 免费xxxx性欧美18vr| 亚洲性生活大片| 精品视频一区二区在线观看| 亚洲av人人澡人人爽人人夜夜| 欧美一级视频免费看| 美乳视频一区二区| 国产精品尤物福利片在线观看| 欧美精品在线网站| 亚洲天堂2020| 欧美一区二区国产| 第一福利永久视频精品| 亚洲欧美自拍偷拍色图| 99久久夜色精品国产网站| 久久精品国产一区二区| 国产99久一区二区三区a片| 国产在线观看99| 国产精品久久久免费看| 欧美xxxxx精品| 爱情岛论坛亚洲首页入口章节| 亚洲天堂第一区| 日韩不卡av| 麻豆成人在线播放| 99国产精品久久久久老师| 国产精品久久久一区| 青草青草久热精品视频在线网站| 色综合久久88色综合天天看泰| 亚洲午夜久久久久久久| 亚洲第一国产精品| 欧美一级二级在线观看| 欧美精品自拍偷拍| 欧美日韩你懂得| 色综合久久综合网欧美综合网 | 国产一区二区麻豆| 日韩精品中文字幕在线| www.成年人| 国产成人无码专区| 国产精品草莓在线免费观看 | 日韩av网址在线| 日韩午夜激情av| 日韩三级视频在线观看| 欧美一区二区性放荡片| 欧美一区二区三区视频免费播放| 欧美视频在线一区二区三区 | 91蜜桃视频在线观看| 69xx绿帽三人行| 日韩免费毛片视频| 奇米精品一区二区三区四区 | 91精品视频网| 亚洲人精选亚洲人成在线| 亚洲精品人成| 五月天婷婷久久| 国产精品国产馆在线真实露脸| 中文字幕久久久av一区| 99精品视频播放| 久久99精品久久久久婷婷| 69堂精品视频| 四季av一区二区三区| av影院午夜一区| 欧美综合在线第二页| 蜜桃精品成人影片| 亚洲综合免费观看高清完整版在线 | 亚洲欧美二区三区| 久久艹精品视频| 欧美精品v日韩精品v国产精品| 农民人伦一区二区三区| 99re这里只有精品视频首页| 99久久久精品免费观看国产| 亚洲av无码乱码国产麻豆 | 色香阁99久久精品久久久| 亚洲精品91在线| 亚洲精品一区二区久| 永久免费观看片现看| 亚洲欧美激情在线视频| 青娱乐国产在线视频| 日韩你懂的在线观看| 国产精品久久久视频| 精品视频久久久久久| 无码人妻av一区二区三区波多野| 一个色综合导航| 日韩在线播放中文字幕| 亚洲欧洲制服丝袜| 在线观看你懂的视频| 日韩免费性生活视频播放| 青娱乐国产在线| 国产精品av电影| 美日韩一区二区| 国产资源第一页| 亚洲成人你懂的| 亚洲精品视频大全| 久久精品色欧美aⅴ一区二区| 一区二区视频免费| 亚洲一区美女视频在线观看免费| 黑人巨大精品欧美一区| 蜜臀av色欲a片无码精品一区| 在线免费精品视频| 久久久久亚洲av片无码| 欧美激情一级二级| 美日韩一区二区三区| 18禁网站免费无遮挡无码中文 | 91影视免费在线观看| www成人在线观看| 一本色道久久hezyo无码| 99久久精品国产观看| 国产乱人伦精品一区二区三区| 欧美日韩亚洲高清| 自拍偷拍亚洲天堂| 欧美伊久线香蕉线新在线| 国产精品66部| 国产日韩视频一区| 国语自产精品视频在线看| 久久精品久久99精品久久| 日韩av在线综合| 日韩亚洲精品电影| 国产高清精品久久久久| 中文字幕第九页|