崗位職責(zé):
1、主導(dǎo)研發(fā)基于計(jì)算機(jī)視覺和多模態(tài)大模型的UI理解技術(shù)。讓Agent能夠?qū)崟r(shí)“看懂”屏幕上的內(nèi)容,精準(zhǔn)識(shí)別并定位窗口、按鈕、輸入框、圖片等各類UI元素,并理解其功能與上下文關(guān)系。
2、構(gòu)建一個(gè)通用的、跨平臺(tái)的設(shè)備控制層,將底層的鼠標(biāo)、鍵盤、手機(jī)觸摸等操作封裝為大模型可調(diào)用的原子能力,解決在不同分辨率、操作系統(tǒng)和應(yīng)用界面下的操作泛化性難題。
3、設(shè)計(jì)和研發(fā)專為GUI交互設(shè)計(jì)的長程規(guī)劃與決策能力,研發(fā)自我糾錯(cuò)與反思機(jī)制,當(dāng)操作失誤或遇到非預(yù)期界面時(shí),能夠自主分析原因并嘗試新的解決方案。
4、完成上級(jí)安排的相關(guān)工作。
任職要求:
1、計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,3年以上大模型相關(guān)技術(shù)研發(fā)經(jīng)驗(yàn)。
2、深入理解并熟悉主流Agent框架思想(如ReAct、CoT、ToT等)。
3、對(duì)大模型的Function Calling/Tool-Using機(jī)制有深刻見解和實(shí)踐。
4、熟悉各類GUI自動(dòng)化框架,如Browser-use、Playwright、Selenium、Appium、PyAutoGUI等,并理解其底層原理。
5、精通在UI場景下的OCR、目標(biāo)檢測、圖像分割等技術(shù),有微調(diào)多模態(tài)大模型進(jìn)行UI理解的經(jīng)驗(yàn)者優(yōu)先。
6、了解操作系統(tǒng)底層機(jī)制(Windows API、Android Accessibility Service等),熟悉如何通過系統(tǒng)級(jí)接口獲取UI信息和模擬用戶輸入。
7、熟悉大模型原理,具備SFT、RL等模型訓(xùn)練方面的實(shí)戰(zhàn)經(jīng)驗(yàn),有GUI自動(dòng)化相關(guān)的強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)者優(yōu)化。
8、對(duì)新技術(shù)有強(qiáng)烈的熱愛、好奇心和鉆研精神,具備卓越的團(tuán)隊(duì)協(xié)作、溝通和問題解決能力,自驅(qū)、富有責(zé)任心和主人翁精神,極致追求算法創(chuàng)新和產(chǎn)品效果。