崗位職責(zé):
1.負(fù)責(zé)公司級(jí)人工智能工具鏈的整體架構(gòu)規(guī)劃、建設(shè)與持續(xù)治理,覆蓋大模型微調(diào)/蒸餾、仿真環(huán)境、強(qiáng)化學(xué)習(xí)訓(xùn)練、自動(dòng)化檢驗(yàn)檢測(cè)等核心子系統(tǒng),打造端到端、高效、可復(fù)現(xiàn)的研發(fā)基礎(chǔ)設(shè)施。主導(dǎo)大模型微調(diào)與蒸餾平臺(tái)的設(shè)計(jì)開發(fā),支持LoRA/QLoRA、Adapter、P-Tuning、MoE稀疏微調(diào)、知識(shí)蒸餾、量化感知訓(xùn)練等最新技術(shù),實(shí)現(xiàn)千億級(jí)參數(shù)模型在小時(shí)級(jí)內(nèi)完成低成本微調(diào)與壓縮。
2.構(gòu)建多模態(tài)仿真與強(qiáng)化學(xué)習(xí)環(huán)境:對(duì)接IsaacSim、Gazebo、AirSim、CARLA、MuJoCo、Unity3D等引擎,統(tǒng)一場(chǎng)景管理、獎(jiǎng)勵(lì)設(shè)計(jì)、并行采樣與回放系統(tǒng),支撐機(jī)器人、電力系統(tǒng)仿真等業(yè)務(wù)的RL快速迭代。
3.設(shè)計(jì)并落地自動(dòng)化檢驗(yàn)檢測(cè)流水線:集成模型對(duì)抗測(cè)試、魯棒性評(píng)估、公平性檢測(cè)、性能基準(zhǔn)回歸、安全掃描(PromptInjection、數(shù)據(jù)投毒)等工具。
4.打通工具鏈與MLOps、CI/CD、數(shù)據(jù)管線、模型倉(cāng)庫(kù)的接口,制定統(tǒng)一SDK、CLI、REST/gRPCAPI。
5.完成公司交辦的其他工作任務(wù)。
任職要求:
1.工作經(jīng)驗(yàn):具有3年以上AI工具鏈或分布式訓(xùn)練系統(tǒng)核心開發(fā)經(jīng)驗(yàn)優(yōu)先,主導(dǎo)過至少1套覆蓋大模型微調(diào)/蒸餾、仿真或強(qiáng)化學(xué)習(xí)平臺(tái)的端到端落地優(yōu)先。
2.能力要求:
(1)熟悉Python/C++,深入掌握PyTorch、JAX、DeepSpeed、Megatron-LM、Colossal-AI、vLLM、LoRA/QLoRA、知識(shí)蒸餾(MiniLLM、GKD)等源碼及調(diào)優(yōu)技巧,能在千卡規(guī)模集群上實(shí)現(xiàn)90%+線性加速比的微調(diào)與蒸餾;
(2)熟悉分布式仿真與RL框架:熟悉RayRLlib、Stable-Baselines3、PettingZoo、IsaacGym、AirSim、CARLA、MuJoCo的二次開發(fā);熟悉并行環(huán)境采樣、異步rollout、RewardModel訓(xùn)練、RLHF全流程;
(3)熟悉自動(dòng)化測(cè)試與質(zhì)量門禁體系:熟悉pytest、GreatExpectations、MLflow、Weights&Biases、EvidentlyAI、HolisticBias等工具,能編寫魯棒性、對(duì)抗性、公平性、性能回歸、安全掃描自動(dòng)化腳本。