職位描述:
1、負責設計和開發分布式網絡爬蟲系統,進行數據抓取和分析;
2、設計爬蟲策略和防屏蔽規則,提升網頁抓取的效率和質量;
3、參與分布式爬蟲和數據采集系統的架構設計和開發,快速響應業務變動;
4、負責網絡數據抓取規劃、定期爬取指定網站的數據;
5、參與數據層建設,專注于垂直領域數據爬取,進行多平臺信息的抓取和分析;
6、實現數據提取、清洗、結構化、入庫、統計分析等需求;
7、研究優化算法,提升爬蟲系統的穩定性、可擴展性。
任職要求:
1、本科及以上學歷,5年以上爬蟲抓取采集相關工作經驗,爬蟲基礎扎實;
2、熟練Python和常用的開源庫,熟練使用Django/Flask等至少一種主流的web開發框架;
3、熟練Mysql,MongoDB, Redis,Es,隊列等數據庫的使用和優化;
4、對進程、線程、協程、異步、非阻塞有一定了解和使用;
5、熟練掌握爬蟲主流框架Scrapy、Selenium、gocolly,webmagic等(深入了解其中一種);
6、熟悉應用IP代理池、Headers認證和Cookie等;
7、熟悉分布式爬蟲,JS防護、混淆、逆向分析等技能,熟悉各種瀏覽器檢測/反檢測手段;
8、熟悉Python/Java/Go/C++其中一種語言,具備扎實的編碼能力;
9、責任心強、工作積極、良好的服務意識、較強的工作適應能力,自我驅動;
10、加分項:逆向、分布式、數據分析、數據挖掘;有訓練過自己的模型;github或者碼云有相關開源項目;有海量代理池搭建經驗;有采集政府網址經驗優先考慮;
1、負責設計和開發分布式網絡爬蟲系統,進行數據抓取和分析;
2、設計爬蟲策略和防屏蔽規則,提升網頁抓取的效率和質量;
3、參與分布式爬蟲和數據采集系統的架構設計和開發,快速響應業務變動;
4、負責網絡數據抓取規劃、定期爬取指定網站的數據;
5、參與數據層建設,專注于垂直領域數據爬取,進行多平臺信息的抓取和分析;
6、實現數據提取、清洗、結構化、入庫、統計分析等需求;
7、研究優化算法,提升爬蟲系統的穩定性、可擴展性。
任職要求:
1、本科及以上學歷,5年以上爬蟲抓取采集相關工作經驗,爬蟲基礎扎實;
2、熟練Python和常用的開源庫,熟練使用Django/Flask等至少一種主流的web開發框架;
3、熟練Mysql,MongoDB, Redis,Es,隊列等數據庫的使用和優化;
4、對進程、線程、協程、異步、非阻塞有一定了解和使用;
5、熟練掌握爬蟲主流框架Scrapy、Selenium、gocolly,webmagic等(深入了解其中一種);
6、熟悉應用IP代理池、Headers認證和Cookie等;
7、熟悉分布式爬蟲,JS防護、混淆、逆向分析等技能,熟悉各種瀏覽器檢測/反檢測手段;
8、熟悉Python/Java/Go/C++其中一種語言,具備扎實的編碼能力;
9、責任心強、工作積極、良好的服務意識、較強的工作適應能力,自我驅動;
10、加分項:逆向、分布式、數據分析、數據挖掘;有訓練過自己的模型;github或者碼云有相關開源項目;有海量代理池搭建經驗;有采集政府網址經驗優先考慮;
職位類別: 軟件工程師
舉報
全選
申請職位
- 公司規模:100 - 499人
- 公司性質:民營企業
- 所屬行業:網絡產品開發
- 所在地區:
- 聯系人:姜女士
- 手機:會員登錄后才可查看
- 郵箱:會員登錄后才可查看
- 郵政編碼:
工作地址
- 地址: