崗位職責(zé):
1. 基于開源大模型(Llama/Qwen/GLM 等)進(jìn)行二次開發(fā),落地業(yè)務(wù)場景:對(duì)話、多輪上下文、工具調(diào)用(Tool-Calling)、Agent 工作流編排。
2. 負(fù)責(zé) RAG/知識(shí)庫能力建設(shè):文檔解析清洗、切分、索引、向量化、召回與重排、引用溯源、增量更新與版本管理。
3. 按業(yè)務(wù)需要進(jìn)行微調(diào)與對(duì)齊:SFT、LoRA/QLoRA(DPO/RL 視項(xiàng)目選用);建設(shè)訓(xùn)練/評(píng)測數(shù)據(jù)閉環(huán)。
4. 推理服務(wù)部署與性能優(yōu)化:vLLM/TGI/Transformers Serving;提升吞吐、降低時(shí)延與 token/GPU 成本。
5. 建立評(píng)測與質(zhì)量體系:離線基準(zhǔn)集、線上監(jiān)控指標(biāo)、回歸集;紅隊(duì)測試(幻覺、提示注入、越權(quán)工具調(diào)用、數(shù)據(jù)泄露等)。
6. 與前后端/客戶端協(xié)作,將能力封裝為穩(wěn)定 API/SDK,支撐灰度發(fā)布、回滾與持續(xù)迭代。
任職要求:
1. 精通 Python,熟練 PyTorch;熟悉 HuggingFace(Transformers/Datasets/PEFT)。
2. 有大模型應(yīng)用落地經(jīng)驗(yàn),至少具備以2 項(xiàng):- RAG(向量檢索/重排/引用溯源)- Tool-Calling/Agent 編排(函數(shù)調(diào)用、工作流、狀態(tài)管理)- LoRA/QLoRA/SFT 微調(diào)或模型評(píng)測體系 - 推理部署與優(yōu)化(并發(fā)、緩存、限流、降級(jí))
3. 扎實(shí)工程能力:可觀測性、日志/鏈路追蹤、線上故障定位與復(fù)盤;良好的代碼質(zhì)量與測試習(xí)慣。
加分項(xiàng)
- 熟悉 Milvus/FAISS/pgvector/Elastic、召回-排序鏈路與檢索評(píng)測
- 熟悉 vLLM/TGI/TensorRT-LLM/llama.cpp、量化(AWQ/GPTQ)
- 有安全經(jīng)驗(yàn):prompt injection 防護(hù)、工具權(quán)限隔離、審計(jì)與脫敏
- 有垂直領(lǐng)域(醫(yī)療/金融/工業(yè)等)落地經(jīng)驗(yàn)或開源貢獻(xiàn)