企业性质: 员工人数:人 所属行业:
职位类别:
岗位职责: 1. 遵循robots 协议,对互联网公开信息进行采集; 2. 负责网页信息抽取技术算法的研究和开发,提升数据采集的效率和质量; 3. 负责设计和开发分布式的网络数据采集技术,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据采集的效果与性能; 4. 负责数据采集解析入库、系统异常监控与警报等。 任职要求: 1. 具备扎实的编程能力、优秀的设计能力和代码品味,具有强烈的责任心 2. 熟练掌握HTML、JavaScript、Python、Scrapy等,能快速完成采集脚本的编写; 3. 了解主流网络数据采集技术和框架工具,如Selenium/Puppeteer/PhantomJS/Scrapy等; 4. 了解NLP基本技术,实际使用过如 Fasttext、N-gram、Bert、GPT 等算法和模型者优先; 5. 熟悉常见限制访问服务器资源和获取数据技术,具备相关的实战经验。
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。DeepSeek是一家创新型科技公司,成立于2023年7月17日,使用数据蒸馏技术,得到更为精炼、有用的数据 。 由知名私募巨头幻方量化孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。经营范围包括技术服务、技术开发、软件开发等。 投递网站:https://app.mokahr.com/social-recruitment/high-flyer/140576#/