“汇聚未来”云端求贤 · 中国电信股份有限公司人工智能研究院(上海)

端侧模型数据科学研究员/研究工程师

薪资面议  /  上海

今天 18:59 更新

我要推荐 内部推荐

若你发现本职位存在违规现象,欢迎举报。

提交成功

3s后自动关闭

举报职位

职位属性

  • 招聘类型:校招
  • 工作性质:全职

职位描述

1. 数据战略设计

制定大模型预训练数据的获取、清洗、增强与评估的全链路技术方案。

设计多语言、多模态数据的混合配比策略,优化模型泛化能力。

2. 数据处理系统开发

构建TB-PB级数据的分布式处理流水线(如Spark/Ray),实现高效去重、过滤、质量标注。

开发数据版权合规工具(如版权溯源、敏感信息脱敏)。

3. 数据质量与评估

设计数据质量评估体系(如毒性/偏见检测、信息密度度量)。

通过数据 ablation study 分析数据属性对模型性能的影响。

4. 前沿技术探索

研究数据优化技术(课程学习、数据蒸馏、合成数据生成)。

探索去中心化数据协作、隐私保护计算在预训练中的应用。

5. 跨团队协作

与模型训练团队联合优化数据-模型协同架构(如数据缓存、在线采样策略)。

为下游任务(SFT/RLHF)提供数据支持方案。

任职条件

计算机科学、人工智能、数学、统计学等相关专业

职位要求

  • 学历要求:硕士