成立于2023年1月,坐落于武漢市武昌區(qū)東湖之濱,是由武漢市人民政府、武昌區(qū)人民政府主導(dǎo)舉辦,武漢大學(xué)、中國科學(xué)院、中國科學(xué)技術(shù)信息研究所等高校和科研機構(gòu)支撐,華為、萬方等頭部企業(yè)參與支持的事業(yè)單位性質(zhì)的新型研發(fā)機構(gòu)。建設(shè)武漢數(shù)據(jù)智能研究院是湖北省、武漢市深入貫徹數(shù)字中國建設(shè)重大戰(zhàn)略、搶抓數(shù)字經(jīng)濟發(fā)展機遇的重要舉措。研究院聚焦數(shù)智科學(xué)、數(shù)智產(chǎn)業(yè)、數(shù)智安全、數(shù)智治理等四大主攻方向開展有組織科研,致力于數(shù)據(jù)智能基礎(chǔ)理論研究與核心關(guān)鍵技術(shù)攻關(guān)、數(shù)據(jù)智能研發(fā)平臺和服務(wù)平臺建設(shè)、數(shù)據(jù)智能工程場景化應(yīng)用、數(shù)據(jù)智能成長性企業(yè)孵化、數(shù)據(jù)智能領(lǐng)域?qū)iT人才引育,打造數(shù)據(jù)智能理論研究基地、數(shù)智技術(shù)攻堅創(chuàng)新平臺、數(shù)智賦能發(fā)展高端智庫,賦能地方產(chǎn)業(yè)轉(zhuǎn)型升級和經(jīng)濟高質(zhì)量發(fā)展。
一、 崗位
1、數(shù)據(jù)采集工程師
【崗位職責(zé)】
1.負(fù)責(zé)數(shù)據(jù)采集體系設(shè)計,包括分布式采集框架、架構(gòu)優(yōu)化、穩(wěn)定性保障;
2.主導(dǎo)攻克復(fù)雜反爬技術(shù),如WAF、深度JS加密、滑塊/行為驗證、圖形驗證碼、Cloudflare驗證等;
3.負(fù)責(zé)海量數(shù)據(jù)采集任務(wù)調(diào)度、并發(fā)優(yōu)化、IP池管理、監(jiān)控與恢復(fù)機制;
4.參與數(shù)據(jù)全鏈路治理(采集→清洗→匹配→入庫)
5.負(fù)責(zé)互聯(lián)網(wǎng)、行業(yè)網(wǎng)站、數(shù)據(jù)庫的數(shù)據(jù)抓取、采集、清洗與結(jié)構(gòu)化處理;
6.負(fù)責(zé)復(fù)雜數(shù)據(jù)的結(jié)構(gòu)化抽?。℉TML/JSON/XML/PDF/Doc等非結(jié)構(gòu)化數(shù)據(jù)解析);
7.負(fù)責(zé)采集方案的設(shè)計與落地,包括采集流程設(shè)計、采集數(shù)據(jù)的存儲設(shè)計、采集數(shù)據(jù)的元數(shù)據(jù)建模設(shè)計;
8.負(fù)責(zé)大規(guī)模數(shù)據(jù)清洗、字段標(biāo)準(zhǔn)化、類型規(guī)范、實體識別、模式轉(zhuǎn)換;
9.主導(dǎo)數(shù)據(jù)庫的數(shù)據(jù)寫入策略設(shè)計(批處理、冪等性、增量更新、沖突處理等);
10.與NLP/數(shù)據(jù)治理/后端工程師協(xié)作,構(gòu)建高質(zhì)量數(shù)據(jù)資產(chǎn)與數(shù)據(jù)模型;
11.優(yōu)化ETL/ELT任務(wù),提升數(shù)據(jù)準(zhǔn)確率、覆蓋率、穩(wěn)定性;
【任職要求】
1.精通Python,包括異步編程(asyncio)、多線程、多進程、協(xié)程調(diào)度等;
2.深入掌握requests、selenium、playwright、scrapy等爬蟲框架(至少精通其中1-2個);
3.熟悉HTML、XPath、CSS Selector、正則表達(dá)式,能處理復(fù)雜結(jié)構(gòu)化邏輯;
4.熟悉并能對抗常見反爬策略,如fingerprint、防刷策略、UA/HEADER校驗、行為識別、TLS指紋、JS逆向;
5.在反爬攻防、大規(guī)模分布式采集、采集架構(gòu)優(yōu)化方面有成功經(jīng)驗;
6.對數(shù)據(jù)庫管理有深入理解:熟悉PostgreSQL/MySQL索引優(yōu)化、事務(wù)、鎖機制、查詢優(yōu)化;
7.有能力設(shè)計并維護大規(guī)模數(shù)據(jù)表結(jié)構(gòu)、分區(qū)策略、數(shù)據(jù)版本管理;
8.熟悉數(shù)據(jù)治理流程,包括去重、模糊匹配、編碼統(tǒng)一、字段關(guān)聯(lián)映射等;
9.熟悉ETL/ELT流程,能使用Python構(gòu)建可靠的數(shù)據(jù)處理管線;
10.熟悉Linux環(huán)境、任務(wù)調(diào)度(如Airflow、Celery、Cron等);
11.在大規(guī)模分布式采集、高并發(fā)爬取、采集架構(gòu)優(yōu)化方面有成熟經(jīng)驗;
12.對網(wǎng)絡(luò)協(xié)議(HTTP/HTTPS/TLS/代理鏈路)有深入理解。
13.有能力構(gòu)建并維護高可用采集平臺。
【加分項】
1.有分布式采集設(shè)計及落地經(jīng)驗。
2.有過百萬級數(shù)據(jù)的穩(wěn)定采集工程實踐
2、數(shù)據(jù)治理工程師
【崗位職責(zé)】
1.負(fù)責(zé)大規(guī)模文本治理體系建設(shè),包括標(biāo)準(zhǔn)化、知識抽取、語義結(jié)構(gòu)化等;
2.負(fù)責(zé)文本數(shù)據(jù)的清洗、標(biāo)準(zhǔn)化、脫敏、分詞、實體識別等治理任務(wù);
3.參與構(gòu)建行業(yè)知識庫、術(shù)語庫、標(biāo)簽體系;
4.針對科技創(chuàng)新情報方向開展實體抽取、關(guān)系識別、分類聚類等NLP任務(wù);
5.參與構(gòu)建訓(xùn)練數(shù)據(jù)集,提升模型質(zhì)量;
6.配合算法、產(chǎn)品團隊進行數(shù)據(jù)校驗與質(zhì)量優(yōu)化。
【任職要求】
1.熟悉Python及常用NLP庫(spaCy、HanLP、jieba、NLTK、Transformers等);
2.熟悉NER、RE、CLS、Event Extraction、Schema設(shè)計等;
3.有3年以上NLP、信息抽取或數(shù)據(jù)治理經(jīng)驗;
4.熟悉正則表達(dá)式與文本清洗流程;
5.對模型原理、文本語義理解、深度學(xué)習(xí)有不錯的理論基礎(chǔ);
6.熟悉向量數(shù)據(jù)庫、Embedding、檢索增強生成(RAG)者優(yōu)先。
【加分項】
1.完成過科技情報、論文分析、專利挖掘類項目;
2.有大模型應(yīng)用落地經(jīng)驗或自研模型經(jīng)驗。
3、科技創(chuàng)新情報方向產(chǎn)品經(jīng)理
【崗位職責(zé)】
1.負(fù)責(zé)科技創(chuàng)新情報產(chǎn)品的需求分析、功能設(shè)計、原型輸出與版本規(guī)劃;
2.深入理解科研、政策、基金、專利、項目等情報體系;
3.基于數(shù)據(jù)和算法能力,構(gòu)建情報分析模型、指標(biāo)體系和場景化產(chǎn)品;
4.主導(dǎo)核心場景:趨勢預(yù)測、技術(shù)競爭分析、人才評價、基金命中率分析等;
5.全流程管理版本規(guī)劃、需求管理、可行性分析與交付質(zhì)量。
【任職要求】
1.三年以上科技情報/知識圖譜/科研管理類產(chǎn)品經(jīng)驗;
2.深刻理解科技項目、科研評價、專利分類等體系;
3.熟練輸出PRD、原型、數(shù)據(jù)結(jié)構(gòu)和功能流程;
4.能與工程、算法團隊進行深度技術(shù)溝通;
5.對AI產(chǎn)品化、智能體交互等方向有強認(rèn)知。
【加分項】
1.有科研機構(gòu)、高校、科技公司相關(guān)業(yè)務(wù)經(jīng)驗;
2.熟悉NSFC、科技部、專利局等數(shù)據(jù)體系。
二、 招聘程序
1)簡歷投遞
idiw_whu@whu.edu.cn(簡歷請以“應(yīng)聘崗位+畢業(yè)院校+專業(yè)+姓名”命名),請【點擊下方“立即投遞/投遞簡歷”,即刻進行職位報名】。
請有意向者投遞簡歷至該郵箱。
2)面試
對應(yīng)聘資料初步審查,并電話通知符合招聘要求的人員參加后續(xù)面試。
3)聯(lián)系方式
027-67811698
信息來源于網(wǎng)絡(luò),如有變更請以原發(fā)布者為準(zhǔn)。
來源鏈接:
https://mp.weixin.qq.com/s/zzBU5uVf0kVoAmti-ds5pQ