崗位職責(zé):
1.負(fù)責(zé)AI大模型及相關(guān)應(yīng)用、智能體的評(píng)測(cè)工作,深入理解評(píng)測(cè)需求,制定并落地評(píng)測(cè)方案;
2.負(fù)責(zé)構(gòu)建大模型評(píng)測(cè)能力平臺(tái),通過不斷探索和創(chuàng)新,迭代提升評(píng)測(cè)效率及準(zhǔn)確性;
3.對(duì)AI大模型進(jìn)行功能測(cè)試、性能測(cè)試、穩(wěn)定性測(cè)試、自動(dòng)化測(cè)試等,確保系統(tǒng)滿足用戶需求及合規(guī)安全;
4.負(fù)責(zé)模型測(cè)試數(shù)據(jù)集的構(gòu)建及維護(hù),定期抽樣真實(shí)對(duì)話數(shù)據(jù)并進(jìn)行標(biāo)注;
5.分析歸因評(píng)測(cè)結(jié)果,編寫測(cè)試報(bào)告,提出改進(jìn)建議,協(xié)助研發(fā)團(tuán)隊(duì)定位并修復(fù)問題;
6.熟練使用LLM應(yīng)用開發(fā)平臺(tái),開發(fā)并落地推廣測(cè)試領(lǐng)域場(chǎng)景保險(xiǎn)業(yè)務(wù)相關(guān)的智能工作流,助力測(cè)試工作提效。
任職要求:
1.計(jì)算機(jī)、軟件工程、人工智能、電子信息等相關(guān)專業(yè);
2.二年以上AI大模型應(yīng)用測(cè)試工作經(jīng)驗(yàn),參與四項(xiàng)及以上AI大模型應(yīng)用的測(cè)試工作,擁有保險(xiǎn)領(lǐng)域契約、核保、理賠、營(yíng)銷、客戶服務(wù)等場(chǎng)景AI大模型應(yīng)用測(cè)試工作經(jīng)驗(yàn)優(yōu)先;
3.熟悉Java/Python/C++等至少一種編程語言;
4.熟悉AI大模型應(yīng)用的測(cè)試方法、測(cè)試工具、測(cè)試數(shù)據(jù)集構(gòu)建、測(cè)試指標(biāo)體系等;
5.熟悉常見LLM、VLM評(píng)測(cè)方案,對(duì)業(yè)界常見的Benchmark、評(píng)測(cè)集有基礎(chǔ)了解;
6.熟練使用LLM應(yīng)用開發(fā)平臺(tái),如Dify、Langflow、Flowise等;
7.了解機(jī)器學(xué)習(xí)理論,包括深度學(xué)習(xí)、自然語言處理等技術(shù);了解數(shù)據(jù)處理和分析方法,能夠運(yùn)用數(shù)據(jù)驅(qū)動(dòng)的方法協(xié)助算法團(tuán)隊(duì)優(yōu)化模型性能;
8.掌握軟件測(cè)試設(shè)計(jì)方法,理解軟件編程規(guī)范,了解軟件自動(dòng)化測(cè)試、性能測(cè)試基礎(chǔ)方法和工具。