工作職責
(1) 負責對話與生成類模型的SFT(有監(jiān)督微調(diào))與RLHF(基于人類反饋的強化學(xué)習)全流程:數(shù)據(jù)構(gòu)建→標注與質(zhì)檢→模型訓(xùn)練→離線/在線評測→上線迭代。
(2) 設(shè)計Prompt,并且利用爬蟲、模型生成等手段采集優(yōu)質(zhì)訓(xùn)練樣本,對模型進行SFT,提升模型效果。
(3) 設(shè)計與實現(xiàn)對齊訓(xùn)練鏈路:偏好數(shù)據(jù)采集與清洗、獎勵模型(RM)訓(xùn)練、策略優(yōu)化(PPO/DPO/GRPO 等),形成可復(fù)用的訓(xùn)練與評測流程。
(4) 面向真實業(yè)務(wù)進行生成效果優(yōu)化:提示工程、COT、拒答邊界、引用/事實核對、風格與長度控制,降低幻覺與違規(guī)率。
(5) 負責訓(xùn)練與部署工程化:多卡/多機并行(DeepSpeed)、混合精度(INT8/FP16/FP8)、vLLM推理加速與量化(LoRA/QLoRA)。
(6) 完成模型效果的評測:離線自動評測、人評流程與指南、線上 A/B;沉淀難例集與回歸集。
(7) 構(gòu)建數(shù)據(jù)閉環(huán):從日志與用戶反饋挖掘難樣本與偏差案例,持續(xù)更新 SFT/偏好/對抗數(shù)據(jù),迭代 RM 與策略。
(8) 與產(chǎn)品/后端/數(shù)據(jù)/安全合規(guī)協(xié)作,輸出技術(shù)方案與上線手冊,保障穩(wěn)定性、可觀測性與合規(guī)性。
任職資格
(1) 計算機/數(shù)學(xué)/統(tǒng)計等相關(guān)專業(yè)碩士及以上,1 年+ NLP/生成模型相關(guān)經(jīng)驗。
(2) 代碼與數(shù)理基礎(chǔ)扎實,熟練常見的機器學(xué)習算法,深度學(xué)習算法,理解 Transformer、優(yōu)化器、并行與顯存管理。
(3) 熟悉 SFT/RLHF 方法論與實現(xiàn):數(shù)據(jù)對齊、RM 訓(xùn)練、PPO/DPO/GRPO 等策略優(yōu)化,能定位訓(xùn)練不穩(wěn)定與崩塌問題。
(4) 具備生成質(zhì)量優(yōu)化經(jīng)驗:提示策略、思維鏈/結(jié)構(gòu)化輸出、事實核對與幻覺治理、拒答與紅線規(guī)則。
(5) 有訓(xùn)練與推理工程化實踐:FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、監(jiān)控與日志。
(6) 良好的溝通協(xié)作與問題拆解能力,結(jié)果導(dǎo)向與自驅(qū)學(xué)習能力強。