1. 負(fù)責(zé)公司大模型的微調(diào)工作,依據(jù)業(yè)務(wù)場景與需求,優(yōu)化模型性能,提升模型在特定任務(wù)上的表現(xiàn)。
2. 參與構(gòu)建和優(yōu)化大模型微調(diào)流程,從數(shù)據(jù)預(yù)處理、模型選擇、超參數(shù)調(diào)整到模型評估,確保每個環(huán)節(jié)高效運(yùn)行。
3. 分析和理解業(yè)務(wù)數(shù)據(jù),挖掘數(shù)據(jù)價值,設(shè)計并執(zhí)行數(shù)據(jù)增強(qiáng)策略,提高模型的泛化能力與適應(yīng)性。
4. 跟蹤大模型領(lǐng)域的前沿技術(shù),持續(xù)探索新的微調(diào)方法和策略,將其應(yīng)用于實(shí)際項(xiàng)目中,推動技術(shù)創(chuàng)新。
5. 與產(chǎn)品團(tuán)隊緊密合作,理解產(chǎn)品需求,提供技術(shù)支持,確保大模型在產(chǎn)品中的有效應(yīng)用。
1. 學(xué)歷與專業(yè):計算機(jī)科學(xué)、人工智能、數(shù)學(xué)等相關(guān)專業(yè),碩士及以上學(xué)歷優(yōu)先。
2. 工作經(jīng)驗(yàn):3年以上大模型微調(diào)或相關(guān)工作經(jīng)驗(yàn),有成功的大模型微調(diào)項(xiàng)目案例。
3. 技術(shù)能力:
- 深入理解機(jī)器學(xué)習(xí)、深度學(xué)習(xí)原理,熟悉Transformer架構(gòu)及其變體,如BERT、GPT、T5等主流模型架構(gòu)。
- 熟練掌握大模型微調(diào)技術(shù),如Prompt Tuning、LoRA、P - tuning等,并能根據(jù)實(shí)際任務(wù)靈活選擇和應(yīng)用。
- 精通Python編程語言,熟悉PyTorch或TensorFlow深度學(xué)習(xí)框架,以及Deepspeed、Accelerate等大模型訓(xùn)練工具鏈。
- 熟悉常見的啟發(fā)式算法,如模擬退火算法、遺傳算法蟻群優(yōu)化算法等。
- 熟悉Hugging Face、LangChain等開源生態(tài),能夠利用開源工具和模型快速實(shí)現(xiàn)大模型的微調(diào)與應(yīng)用。
- 掌握分布式訓(xùn)練、模型并行與混合精度優(yōu)化方法,能夠在多GPU環(huán)境下高效訓(xùn)練大模型。
4. 算法與實(shí)踐:具備扎實(shí)的算法功底,能獨(dú)立復(fù)現(xiàn)前沿論文中的算法和模型,有千億參數(shù)模型訓(xùn)練經(jīng)驗(yàn)者優(yōu)先。
5. 其他能力:具有良好的團(tuán)隊合作精神和溝通能力,能夠適應(yīng)快速迭代的工作環(huán)境,具備較強(qiáng)的學(xué)習(xí)能力和問題解決能力 。