一、崗位職責(zé)
1. 數(shù)據(jù)采集、梳理、歸類:
①負(fù)責(zé)圖像、文本、語音、視頻等多模態(tài)數(shù)據(jù)的采集、清洗和整理。
②根據(jù)項(xiàng)目需求,從公開數(shù)據(jù)集、互聯(lián)網(wǎng)、特定領(lǐng)域(如液化石油氣、消防、船廠、特種設(shè)備) 獲取合規(guī)數(shù)據(jù)。
③確保數(shù)據(jù)多樣性、高質(zhì)量、無偏見,符合大模型訓(xùn)練要求。
④去客戶現(xiàn)場(chǎng)采集,能接受出差。
2. 數(shù)據(jù)標(biāo)注:
①對(duì)采集的數(shù)據(jù)進(jìn)行分類、標(biāo)注、校對(duì)(如實(shí)體識(shí)別、意圖標(biāo)注、問答對(duì)生成等)。
②遵循標(biāo)注規(guī)范,確保數(shù)據(jù) 準(zhǔn)確性、一致性,并反饋標(biāo)注過程中的問題。
③使用標(biāo)注工具(如 Label Studio、Prodigy、內(nèi)部平臺(tái))高效完成任務(wù)。
二、任職要求
1. 基礎(chǔ)要求:
①學(xué)歷:本科及以上學(xué)歷,細(xì)心耐心,專業(yè)不限,計(jì)算機(jī)、語言學(xué)、統(tǒng)計(jì)學(xué)相關(guān)優(yōu)先。
②具備良好的數(shù)據(jù)敏感度,熟悉數(shù)據(jù)結(jié)構(gòu)及基本數(shù)據(jù)處理邏輯。
③工具技能:熟練使用 Excel、標(biāo)注工具(無經(jīng)驗(yàn)可培訓(xùn));會(huì)基礎(chǔ)爬蟲加分項(xiàng)。
④工作細(xì)致、責(zé)任心強(qiáng),具備良好的團(tuán)隊(duì)協(xié)作與溝通能力。
⑤有AI數(shù)據(jù)處理、數(shù)據(jù)管理或標(biāo)注團(tuán)隊(duì)經(jīng)驗(yàn)者優(yōu)先考慮。
2. 加分項(xiàng)
①有數(shù)據(jù)采集、爬蟲、NLP/CV數(shù)據(jù)標(biāo)注、會(huì)PS經(jīng)驗(yàn)者優(yōu)先。
②了解AI大模型(如GPT、LLaMA)訓(xùn)練流程,熟悉數(shù)據(jù)需求。
③邏輯清晰,能理解復(fù)雜標(biāo)注規(guī)則(如多層級(jí)分類、關(guān)系抽?。?。
三、工作地點(diǎn):京津冀大數(shù)據(jù)創(chuàng)新應(yīng)用中心