公司简介

职位描述
这是一个面向关键大模型系统演进的核心岗位,如果你对性能调优、极致可扩展性、系统稳定性有追求,我们在这里等你:(对下列任意一个方向感兴趣即可投递)
1. 参与构建高性能、高可用的大规模分布式训练与推理系统,支撑万卡规模的高效稳定训练,面向数万卡、多集群部署场景下的在线推理系统进行极致优化。系统需在低延迟、高吞吐、强鲁棒性之间取得工程最优解,将硬件性能榨取到极致,承载模型从训练到上线全流程的性能闭环。
2. 参与性能相关的算法问题的解决,追求优化算法的实际落地和一定程度的可解释性。针对算法与工程的复合问题,可以在架构上给出能达到上限的解决方案。在算法上完成足够解决或者解释问题的实验。
3. 在机器学习系统、云原生架构、编排调度、资源调优等多个技术方向持续攻坚,推动系统架构在规模化和复杂性中的不断演进。你需要具备系统视角和一定的工程实现能力,能够在跨层级、跨组件的协同中识别瓶颈、重构路径、突破边界。
4. 参与自建公司级机房、SRE&Devops体系建设,保障多个核心系统的可靠性,包括但不限于GPU/CPU资源、存储、高性能网络研发、业务网关接入、组件稳定性、成本优化等方向。
职位要求
毕业时间要求:2025年6月-2026年12月
5. 理工科背景,包括但不限于计算机科学与技术、软件工程、电子信息、数学、物理等;
6. 扎实的计算机基础,具备优秀的工程实现能力和良好的代码风格;
7. 理解深度学习基本原理,有相关系统的二次开发经验者优先;
8. 对技术充满热情与好奇,具备责任心与良好的自驱力。
加分项:
9. 在相关竞赛中取得不错成绩;
10. 具有突出的开源项目贡献或社区参与经历。
计算机、软件工程、人工智能、电子信息、物理、数学