崗位職責(zé):
負(fù)責(zé) AI 系統(tǒng)(大模型服務(wù)、知識(shí)庫(kù)系統(tǒng)、數(shù)據(jù)處理流程等)的測(cè)試,包括功能測(cè)試、接口測(cè)試、性能測(cè)試等。
構(gòu)建大模型相關(guān)評(píng)測(cè)數(shù)據(jù)集,執(zhí)行模型效果驗(yàn)證,包括問(wèn)答準(zhǔn)確率、生成質(zhì)量、召回率等指標(biāo)。
對(duì)數(shù)據(jù)質(zhì)量進(jìn)行審核,包括數(shù)據(jù)清洗、標(biāo)簽檢查、一致性驗(yàn)證與誤差分析。
參與構(gòu)建自動(dòng)化測(cè)試體系,實(shí)現(xiàn)接口自動(dòng)化、回歸測(cè)試與數(shù)據(jù) pipeline 的自動(dòng)化驗(yàn)證。
協(xié)助排查線上模型或數(shù)據(jù)問(wèn)題,提供復(fù)現(xiàn)步驟與問(wèn)題分析報(bào)告。
跟進(jìn)版本發(fā)布流程,確保系統(tǒng)穩(wěn)定性與質(zhì)量可控。
任職要求:
熟練掌握基本測(cè)試方法、測(cè)試流程與測(cè)試用例設(shè)計(jì)。
有 API 測(cè)試、數(shù)據(jù)驗(yàn)證測(cè)試或自動(dòng)化測(cè)試經(jīng)驗(yàn)。
具備基礎(chǔ)編程能力(Python/Java),可編寫腳本實(shí)現(xiàn)自動(dòng)化驗(yàn)證邏輯。
熟悉大模型相關(guān)評(píng)測(cè)指標(biāo)者優(yōu)先,如 BLEU、ROUGE、Recall、Precision、Hallucination 檢查等。
具備數(shù)據(jù)敏感度,能識(shí)別數(shù)據(jù)異常、數(shù)據(jù)漂移、標(biāo)注不一致等問(wèn)題。
有 AI 產(chǎn)品測(cè)試、數(shù)據(jù) QA、模型評(píng)測(cè)經(jīng)驗(yàn)者優(yōu)先。