公司简介

岗位描述:
1. 参与高性能、可扩展的AI基础设施架构的辅助设计与开发,包括组网、存储、Kubernetes容器集群及GPU计算集群相关任务;
2. 参与Kubernetes集群的部署、扩容和维护工作,学习大规模AI任务调度策略,协助实现或优化基础GPU资源分配机制,提升资源使用效率;
3. 参与集成和管理GPU相关基础工具(如NVIDIA GPU Operator、CUDA等),支持AI模型训练和推理任务;
4. 参与调研行业前沿技术(如RDMA、存储压缩等),并协助进行技术验证和落地尝试;
5. 编写基础技术文档,参与团队技术分享,持续积累研发经验。
职位要求:
1. 技术能力
① 了解计算机网络(如TCP/IP、VxLAN)、分布式存储系统等基本原理;
② 熟悉容器技术(如Docker、Kubernetes),有K8s实验环境搭建和使用经验者优先;
③ 对GPU计算相关技术(如CUDA、NCCL等)有基本了解;
2. 研发与编程能力
① 掌握至少一种编程语言(如Python/Go/C++),具备基础编程及脚本开发能力;
② 了解分布式系统基础概念,愿意参与系统性能与稳定性优化工作;
③ 了解DevOps常用工具(如Terraform、Ansible等),有CI/CD实践经验者优先;
3. 教育背景与经验
① 本科及以上学历,计算机科学、软件工程或相关专业;
② 欢迎应届毕业生或1年以下相关经验者申请,有相关实习经历或项目经验者优先;
4. 其他
① 具备较强学习能力和逻辑分析能力,能够积极参与复杂系统问题排查;
② 具备良好的团队协作意识,能够高效配合团队完成项目开发任务;
加分项:
① 有RDMA网络或高性能存储相关项目/实验经验;
② 了解深度学习框架(如TensorFlow、PyTorch)的基本原理和使用;
③ 参与过AI基础设施或分布式系统相关科研/开源项目。
人工智能、计算机、软件