公司简介

“汇聚未来”云端求贤
1. 数据战略设计
制定大模型预训练数据的获取、清洗、增强与评估的全链路技术方案。
设计多语言、多模态数据的混合配比策略,优化模型泛化能力。
2. 数据处理系统开发
构建TB-PB级数据的分布式处理流水线(如Spark/Ray),实现高效去重、过滤、质量标注。
开发数据版权合规工具(如版权溯源、敏感信息脱敏)。
3. 数据质量与评估
设计数据质量评估体系(如毒性/偏见检测、信息密度度量)。
通过数据 ablation study 分析数据属性对模型性能的影响。
4. 前沿技术探索
研究数据优化技术(课程学习、数据蒸馏、合成数据生成)。
探索去中心化数据协作、隐私保护计算在预训练中的应用。
5. 跨团队协作
与模型训练团队联合优化数据-模型协同架构(如数据缓存、在线采样策略)。
为下游任务(SFT/RLHF)提供数据支持方案。
计算机科学、人工智能、数学、统计学等相关专业