自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局

發(fā)布于 2025-5-19 01:59
瀏覽
0收藏

從1920年的小說《R.U.R》到《鋼鐵俠》中的JARVIS,在過去的一個(gè)世紀(jì)里,人們一直夢(mèng)想著構(gòu)建能夠自動(dòng)化日常工作的Digital Agents(數(shù)字代理)。如今,隨著視覺語言模型(VLMs)的蓬勃發(fā)展,構(gòu)建這樣的Agents成為了可能。

1-1 Agent for GUI Control

想要構(gòu)建一個(gè)有效的Computer Use Agents,其必須擁有兩個(gè)能力:(1)Planning能力,即規(guī)劃Computer-use任務(wù)的能力,能將用戶給定的(高階)指令分步劃分為多個(gè)子目標(biāo)**(2)Action能力**,即根據(jù)當(dāng)前目標(biāo),執(zhí)行相應(yīng)的動(dòng)作(比如點(diǎn)擊,輸入,滑動(dòng)等等)。在現(xiàn)有的研究中,典型的有**(1)以O(shè)S-Copilot和UFO-Agent為代表的GUI agents**,它們通過調(diào)用API和a11ytree來與數(shù)字世界(如手機(jī)、網(wǎng)站)中的GUI進(jìn)行交互。(2)以SeeClick,OS-ATLAS為代表的Action model(動(dòng)作模型),根據(jù)用戶的指令執(zhí)行動(dòng)作,比如預(yù)測(cè)GUI中的元素坐標(biāo)并進(jìn)行點(diǎn)擊等動(dòng)作。這些工作雖已有所成效,但在實(shí)際應(yīng)用中依然有局限性,前者依賴GPT4o等閉源模型,只能通過提示詞交互且成本較高;后者需要在動(dòng)作模型外搭配一個(gè)planner模型一起使用。 從實(shí)際應(yīng)用角度,構(gòu)建一個(gè)統(tǒng)一的、基于開源模型的GUI Agent將會(huì)對(duì)通用的GUI控制大有裨益。然而,想要端到端地完成這類Agent構(gòu)建絕非易事,其最大的瓶頸便是訓(xùn)練數(shù)據(jù)。

1-2 Data Bottleneck

在構(gòu)建高質(zhì)量的GUI agent時(shí),GUI軌跡數(shù)據(jù)能最有效地讓agent學(xué)習(xí)如何完成任務(wù),其數(shù)據(jù)稀缺性是當(dāng)前digital agent領(lǐng)域最關(guān)鍵挑戰(zhàn)之一。以下是一個(gè)典型的GUI軌跡數(shù)據(jù)示例,它包括以下部分:

  • 高階指令:明確規(guī)定任務(wù)目標(biāo),例如“將菜單應(yīng)用中的‘Avocado Toast with Egg’標(biāo)記為收藏”。
  • 低階指令:分解為具體的操作步驟,例如“點(diǎn)擊‘Avocado Toast with Egg’以查看更多選項(xiàng)”。
  • 動(dòng)作:與低階指令相關(guān)的具體操作,如“CLICK [Avocado Toast with Egg]”。
  • 狀態(tài):包括執(zhí)行動(dòng)作前后的可視化和文本化表示,例如屏幕截圖和GUI的a11ytree結(jié)構(gòu)。

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)

現(xiàn)有的軌跡數(shù)據(jù)采集方法通常依賴于人工監(jiān)督或基于預(yù)定義任務(wù)(Task-Driven)的合成數(shù)據(jù)生成。這些方法在實(shí)際應(yīng)用中存在以下局限性:

  • 人工采集的過高成本:人工標(biāo)注軌跡數(shù)據(jù)需要大量的人力資源,不僅需要手動(dòng)設(shè)計(jì)高階指令,還需逐步記錄每一步操作。這使得數(shù)據(jù)收集過程成本高昂且效率低下。
  • 合成數(shù)據(jù)的局限性:基于模型生成的軌跡數(shù)據(jù)雖然可以緩解人工標(biāo)注的成本問題,但通常依賴于預(yù)定義的高階任務(wù)。這種方法不僅限制了生成數(shù)據(jù)的多樣性,還容易導(dǎo)致與真實(shí)環(huán)境的差距。特別是在中間步驟出錯(cuò)或任務(wù)目標(biāo)/環(huán)境不匹配時(shí),生成的軌跡可能是不完整或不連貫的。

因此,如何在成本可控的情況下,有效地構(gòu)建GUI Agents軌跡是一個(gè)非常重要的課題。在此動(dòng)機(jī)下,本文提出了OS-Genesis:一套無需人工監(jiān)督的高質(zhì)量GUI數(shù)據(jù)合成框架。

方法

OS-Genesis的在數(shù)據(jù)構(gòu)建上的核心思想是:通過先探索性地交互GUI環(huán)境,捕捉每一步動(dòng)作及其前后狀態(tài)變化。

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)


然后基于這些變化逆向生成高質(zhì)量的低階指令(Low-level instruction,比如’點(diǎn)擊Chrome APP’),再根據(jù)環(huán)境導(dǎo)出一個(gè)高階指令(High-level instruction,比如’添加日程:看機(jī)器之心推文’)。隨后,讓模型執(zhí)行這一合成的指令,此過程完全擺脫了人工干預(yù)和任務(wù)預(yù)定義的限制,實(shí)現(xiàn)了GUI軌跡數(shù)據(jù)生成的高效性和多樣性。我們認(rèn)為,本工作可以為構(gòu)建通用的GUI agent提供新的思路,其具體方法如下所示

2-1 反向任務(wù)合成

OS-Genesis的核心是反向任務(wù)合成(Reverse Task Synthesis),它使得我們?cè)跇?gòu)建GUI軌跡數(shù)據(jù)時(shí)擺脫需要人工/機(jī)器預(yù)定義任務(wù)(pre-defiend task)的局限。其流程如下所示

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)


? 動(dòng)作記錄與狀態(tài)捕捉(Record)

在沒有預(yù)定義任務(wù)的情況下,OS-Genesis通過在GUI環(huán)境中系統(tǒng)性地執(zhí)行基本動(dòng)作(例如CLICK、TYPE、SCROLL等),生成大量的三元組數(shù)據(jù) ?狀態(tài)前,動(dòng)作,狀態(tài)后?,即 ?spre, action, spost?。這些三元組記錄了每個(gè)動(dòng)作對(duì)環(huán)境狀態(tài)的影響,為后續(xù)的任務(wù)合成提供了原始數(shù)據(jù)。

?低階指令生成(Low-Level Isntruction)

利用GPT-4o模型,將每個(gè)三元組 ?Screen1, Action, Screen2? 轉(zhuǎn)化為描述具體操作的低階指令(Low-level Instruction)。例如,若動(dòng)作CLICK使某菜單展開,低階指令可能為“點(diǎn)擊下拉菜單以顯示選項(xiàng)”。

?高階任務(wù)生成(High-Level Isntruction)

在低階指令的基礎(chǔ)上,OS-Genesis進(jìn)一步生成高階指令(High-level Instruction)。高階指令通過結(jié)合低階步驟和當(dāng)前GUI環(huán)境,描述了一個(gè)更為抽象且目標(biāo)明確的任務(wù),例如“配置應(yīng)用程序設(shè)置”。這種從低階到高階的逐步生成方法不僅確保了指令的邏輯一致性,還能最大化利用GUI環(huán)境中的動(dòng)態(tài)特性。

通過上述反向任務(wù)合成,OS-Genesis可以在沒有人工干預(yù)的情況下構(gòu)建多樣化、語義豐富的任務(wù)集合,顯著提升了數(shù)據(jù)生成的效率和質(zhì)量。

2-2 軌跡構(gòu)建與獎(jiǎng)勵(lì)模型

反向任務(wù)合成生成的高階指令隨后被用作探索GUI環(huán)境的起點(diǎn),進(jìn)一步構(gòu)建完整的軌跡數(shù)據(jù)(Trajectory)。為了確保生成軌跡的質(zhì)量,OS-Genesis引入了一個(gè)獎(jiǎng)勵(lì)模型(Trajectory Reward Model, TRM),對(duì)生成的軌跡進(jìn)行質(zhì)量評(píng)估和篩選。以下是軌跡構(gòu)建與獎(jiǎng)勵(lì)模型的詳細(xì)流程:

  • 軌跡執(zhí)行

利用反向任務(wù)合成生成的高階指令,GUI agent會(huì)執(zhí)行一系列動(dòng)作以完成任務(wù)。每條軌跡由以下內(nèi)容組成:高階指令、低階指令、動(dòng)作序列以及狀態(tài)(包含截圖和a11ytree)。

  • 軌跡獎(jiǎng)勵(lì)模型(Trajectory Reward Model)

為避免低質(zhì)量或不完整軌跡對(duì)模型訓(xùn)練的負(fù)面影響,OS-Genesis使用TRM對(duì)每條軌跡分配一個(gè)獎(jiǎng)勵(lì)分?jǐn)?shù)。獎(jiǎng)勵(lì)分?jǐn)?shù)基于以下兩個(gè)指標(biāo):

完成度(Completion):衡量一條GUI軌跡是否成功完成High-level 任務(wù),包括每個(gè)步驟的正確性和邏輯連貫性。

一致性(Coherence):評(píng)估軌跡的邏輯是否恰當(dāng),確保動(dòng)作序列能夠高效地實(shí)現(xiàn)任務(wù)目標(biāo)。

  • Reward-driven的數(shù)據(jù)篩選方法

根據(jù)獎(jiǎng)勵(lì)分?jǐn)?shù),軌跡數(shù)據(jù)會(huì)被優(yōu)先用于模型訓(xùn)練。與傳統(tǒng)的二元過濾方法(即拋棄執(zhí)行失敗的任務(wù))不同,TRM允許部分不完整但具有探索價(jià)值的軌跡保留在數(shù)據(jù)集中,從而最大化地利用生成的數(shù)據(jù)。

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)


通過結(jié)合反向任務(wù)合成和獎(jiǎng)勵(lì)模型,OS-Genesis實(shí)現(xiàn)了從任務(wù)生成到軌跡構(gòu)建的端到端流程。實(shí)驗(yàn)結(jié)果表明,OS-Genesis生成的數(shù)據(jù)在質(zhì)量和多樣性上均顯著優(yōu)于現(xiàn)有方法,為構(gòu)建通用GUI agent提供了可靠的數(shù)據(jù)支持。

3 實(shí)驗(yàn)

為了驗(yàn)證OS-Genesis在動(dòng)態(tài)環(huán)境中生成高質(zhì)量軌跡數(shù)據(jù)的能力,本文在動(dòng)態(tài)環(huán)境上進(jìn)行了實(shí)驗(yàn)。對(duì)于Mobile場(chǎng)景選擇了AndroidWorld和AndroidControl,對(duì)于Web場(chǎng)景則使用了WebArena作為測(cè)評(píng)基準(zhǔn)。在這些復(fù)雜的環(huán)境中,我們測(cè)試用OS-Genesis合成數(shù)據(jù)訓(xùn)練的agent表現(xiàn)相對(duì)傳統(tǒng)方法效果如何。

3-1 模型與基線

VLMs. 我們?cè)趯?shí)驗(yàn)中選擇了代表性的VLSs作為GUI agent的基礎(chǔ)模型,以便全面評(píng)估OS-Genesis生成的數(shù)據(jù)在不同模型上的的影響:

  • InternVL2-4B/8B:上海人工智能實(shí)驗(yàn)室開發(fā)的一種支持高分辨率動(dòng)態(tài)輸入的開源VLM,主要用于視覺-語言任務(wù)。其擴(kuò)展版本InternVL2-8B具有更大的模型容量。
  • 2Qwen2-VL-7B-Instruct:一種多模態(tài)模型,具備一定的GUI交互能力,專為指令執(zhí)行任務(wù)優(yōu)化。

此外,我們還額外添加了GPT-4o作為一個(gè)強(qiáng)baseline,來比較我們所訓(xùn)練的開源模型和商業(yè)模型之間的差距

Baselinse. 所有的baseline接受的狀態(tài)信息均為 Screenshots + a11ytree

  • Zero-Shot:直接使用未經(jīng)過額外訓(xùn)練的模型完成任務(wù)。這種方法用于評(píng)估模型的原始能力。
  • Task-Driven:利用預(yù)定義任務(wù)和固定策略生成數(shù)據(jù),廣泛應(yīng)用于傳統(tǒng)數(shù)據(jù)生成流程。
  • Self-Instructions:在Task-Driven的基礎(chǔ)上,引入自我指令生成機(jī)制來擴(kuò)展任務(wù)的和覆蓋范圍。

3-2 Mobile

? 在**AndroidWorld(In-domain Mobile場(chǎng)景實(shí)驗(yàn))**中,OS-Genesis所生成的數(shù)據(jù)顯著提升了GUI agents的任務(wù)成功率,從baseline VLMs的的9.82%提升至17.41%,幾乎可以做到翻倍。尤其是在任務(wù)規(guī)劃和復(fù)雜操作中,OS-Genesis的數(shù)據(jù)展現(xiàn)了更強(qiáng)的適應(yīng)性和泛化能力。

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)

mobile-exp

? 在AndroidControl中**(OOD實(shí)驗(yàn))**,OS-Genesis生成的軌跡在高階和低階任務(wù)中均表現(xiàn)出色,特別是在高階任務(wù)中,其規(guī)劃能力提升尤為明顯。此外,OS-Genesis在未見過的應(yīng)用場(chǎng)景下表現(xiàn)出了較強(qiáng)的泛化能力,驗(yàn)證了其生成數(shù)據(jù)的高質(zhì)量和多樣性。

3-3 Web

OS-Genesis在WebArena(In-domain Web場(chǎng)景實(shí)驗(yàn))中的表現(xiàn)也顯著優(yōu)于baselines。對(duì)于復(fù)雜的交互式網(wǎng)頁任務(wù)(如GitLab和Reddit),由OS-Genesis訓(xùn)練而來的agent相比Task-Driven方法提升了約50%。在多個(gè)動(dòng)態(tài)網(wǎng)頁場(chǎng)景中,通過OS-Genesis生成的數(shù)據(jù),agent表現(xiàn)出了更高的多樣性和泛化能力,特別是在需要多步操作的任務(wù)中,其生成軌跡更符合邏輯和用戶意圖。

人工標(biāo)注太貴,合成數(shù)據(jù)不夠好?看OS-Genesis如何破解數(shù)據(jù)困局-AI.x社區(qū)

本文轉(zhuǎn)載自??????NLP PaperWeekly??????,作者:NLP PaperWeekly

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦