崗位職責
1、基于大語言模型構建的通用垂類應用進行效果和質量評估。與產研團隊的緊密合作,制定評估標準和體系,準確分析評估效果,為應用優(yōu)化提供指導,以提升應用的性能、用戶體驗和市場競爭力
2、應用效果與質量評估,評估基于大語言模型構建的通用垂類應用的效果和質量,包括但不限于語言理解準確性、生成內容的合理性/真實性,邏輯連貫性等方面:參與收集和分析用戶反饋數據和設計測試用例,涵蓋不同場景、用戶需求和輸入條件,以確保應用在各種情況下的穩(wěn)定性和可靠性
3、評估標準與體系建設,理解業(yè)務需求和產品目標,與產研團隊密切溝通和協(xié)作,負責制定詳細、明確的評估標準和指標體系;理解完整評估流程(評測目的、用戶數據分析、評測集建設、評測結果分析),確保評估數據的完整性和可靠性
4、評估效果分析與報告,撰寫評估報告,清晰闡述評估方法、過程、結果和結論,為產研團隊提供決策依據和改進方向:
5、團隊協(xié)作與溝通
崗位基本需求
1、具有較好的理解能力和文本編輯能力
2、具備大模型評測或標注相關經驗
3、具備責任心和抗壓能力,能對評估數據和結果負責
4、擅長溝通和團隊合作,能夠獨自推動工作
5、視覺傳達/藝術|設計類專業(yè)或對視頻圖片有較高審美者優(yōu)先