【崗位職責(zé)】
1. 承擔內(nèi)部AI系統(tǒng)的測試,保障AI系統(tǒng)的質(zhì)量、性能、安全性等符合期望;
2、AI系統(tǒng)與模型評估:
1)功能與邏輯驗證:設(shè)計測試用例,驗證AI系統(tǒng)(如大模型、問數(shù)等)生成內(nèi)容的準確性、邏輯性、上下文一致性及指令遵循能力。
2)核心指標評測:制定并執(zhí)行評測方案,對模型的精準率、召回率、F1值等核心指標進行評估,輸出可解釋性與魯棒性測試報告。
3)數(shù)據(jù)集構(gòu)建:負責(zé)測試數(shù)據(jù)的采集、清洗、分類、標注與校對,構(gòu)建高質(zhì)量的測試數(shù)據(jù)集和自動化評測能力。
3. 質(zhì)量與風(fēng)險防控:
1)AI幻覺與偏見檢測:識別并記錄AI系統(tǒng)生成的虛構(gòu)信息(幻覺)、事實性錯誤或偏見性內(nèi)容,并分析其模式,協(xié)助優(yōu)化模型。
2)安全與合規(guī)性測試:通過紅隊測試(Red Teaming)等方法,模擬惡意輸入,檢測系統(tǒng)漏洞、數(shù)據(jù)泄露風(fēng)險及對抗樣本攻擊的脆弱性,確保內(nèi)容符合法律法規(guī)和倫理規(guī)范。
3)穩(wěn)定性與壓力測試:模擬高并發(fā)、長周期運行等極端場景,監(jiān)測系統(tǒng)的穩(wěn)定性、響應(yīng)速度及在數(shù)據(jù)分布變化時的適應(yīng)能力。
4. 測試策略與自動化:
1)自動化測試開發(fā):使用Python等編程語言開發(fā)和維護自動化測試腳本與框架,覆蓋接口、UI、性能等,提升測試效率與覆蓋率。
2)測試體系搭建:參與需求評審,推動測試左移,制定全鏈路測試策略與質(zhì)量保障標準,建立從數(shù)據(jù)、模型到應(yīng)用的完整質(zhì)量體系。
3)工具鏈建設(shè):搭建并優(yōu)化AI測試工具鏈,探索利用AI技術(shù)(如AIOps)來測試AI系統(tǒng)的新方法。
5. 問題定位:分析模型預(yù)測錯誤、性能瓶頸,協(xié)助開發(fā)團隊進行根因分析。
【崗位要求】
1. 技術(shù)技能:
1)編程能力:精通至少一種編程語言,如 Python、Java、C++,具備扎實的代碼和腳本開發(fā)能力。
2)AI知識基礎(chǔ):熟悉主流AI框架(如 TensorFlow、PyTorch),掌握準確率、F1值、AUC、BLEU、ROUGE等指標,了解機器學(xué)習(xí)、深度學(xué)習(xí)的基本原理和算法(如分類、回歸、聚類)。
3)測試工具與方法:熟悉軟件測試流程、方法論及工具(如Selenium、JMeter),掌握數(shù)據(jù)庫操作(如MySQL、MongoDB)和數(shù)據(jù)處理工具(如Pandas)。
4)專業(yè)領(lǐng)域知識:具備自然語言處理(NLP)、計算機視覺(CV)、語音識別等一個或多個領(lǐng)域的專業(yè)知識。
2. 綜合能力:具備優(yōu)秀的邏輯思維、問題分析和獨立解決能力。擁有良好的溝通協(xié)作能力,能與產(chǎn)品、研發(fā)、算法等多部門高效協(xié)同。對AI技術(shù)有熱情,學(xué)習(xí)能力強,能持續(xù)關(guān)注行業(yè)動態(tài)并掌握新技術(shù)。
3. 有 AIGC、RAG(檢索增強生成)或 Agent 測試經(jīng)驗,熟悉 OpenCompass、PromptBench 等大模型評測工具,具備 CI/CD(持續(xù)集成/部署)經(jīng)驗者優(yōu)先。
4. 計算機、軟件工程、人工智能、電子信息等相關(guān)專業(yè),2年以上相關(guān)工作經(jīng)驗,有AI算法、模型測試經(jīng)驗者優(yōu)先。