應用研究與模型開發(fā):
設計實驗、編寫可復用的訓練/評估代碼,發(fā)表或開源成果;在分布式 GPU/TPU 集群上改進先進方法,
可擴展 ML/MLOps 基礎設施:構(gòu)建并自動化數(shù)據(jù)特征管道、模型服務端點與 CI/CD 測試;構(gòu)建嚴格的線上/離線評估與監(jiān)控。
多模態(tài)領域?qū)iL:語音方面涉及聲學建模、ASR 解碼或自監(jiān)督語音預訓練;NLP 方面包括 LLM 微調(diào)、對齊、多語言數(shù)據(jù)構(gòu)建;視覺方面有 CNN/ViT、檢測分割、對比/生成式圖像模型。
協(xié)作與領導力:將研究想法轉(zhuǎn)化為工程路線圖,影響架構(gòu)等決策;指導同事,與多團隊合作。
3 年以上ML 實踐經(jīng)驗或碩 /博士學位并有相關論。
證明曾將深度學習模型端到端訓練并上線。精通 Python;熟悉 PyTorch 或TensorFlow。
熟悉云(AWS/GCP/Azure)+Docker/K8s;laCTerraform/CloudFormation)。
至少精通一個多模態(tài)領域,并愿意快速學習其他領域。
溝通清晰;有在大型分布式團隊工作的經(jīng)驗
加分項/差異化優(yōu)勢:
有 NeurlPS 等會議一作論文,或開源相關模型有 LLMOps 工具以及 GPU 調(diào)度/加速器調(diào)試經(jīng)驗,擁有跨模態(tài)態(tài)或多模態(tài)模型經(jīng)驗。
有領導多團隊項目或為 ML 平臺制定技術(shù)愿景的經(jīng)歷。
核心技術(shù)技能:
語言與框架:精通 Python,C++/CUDA 加分;熟悉PyTorch、TensorFlow、Scikitlearn.
數(shù)據(jù)與計算:SQL/NoSQL,Snowflake
Databricks;HPC 或多節(jié)點 GPU 訓練。
部署:Docker、Kubernetes、REST/gRPC 服務、FastAPl、GitLab/GitHub、模型版本回滾、A/B 測試。
監(jiān)控與可靠性:Prometheus/Grafana,MLflowSageMaker,報警/事故響應流程。
安全與治理:IAM/RBAC,數(shù)據(jù)隱私合規(guī),責任 AI與偏差/魯棒性評估。
招聘門檻:
教育/經(jīng)驗:計算機科學等相關專業(yè)本科+3年以上相關 ML 工作經(jīng)驗;或碩士/博士并有顯著研究影力。
作品集證據(jù):有可公開的代碼、數(shù)據(jù)集或同行評審論文,能展示對至少一個大型 ML 系統(tǒng)的端到端負責。
面試重點:深度學習算法與數(shù)學思維;熟練的編程能力;模型訓練/服務的系統(tǒng)設計;候選人最強模態(tài)的深入探討及另外兩種模態(tài)的廣度問題,實踐調(diào)試相關內(nèi)容??筛鶕?jù)項目需求調(diào)整重點。