AI Infra 工程师

岗位描述：

1. 参与高性能、可扩展的AI基础设施架构的辅助设计与开发，包括组网、存储、Kubernetes容器集群及GPU计算集群相关任务；

2. 参与Kubernetes集群的部署、扩容和维护工作，学习大规模AI任务调度策略，协助实现或优化基础GPU资源分配机制，提升资源使用效率；

3. 参与集成和管理GPU相关基础工具（如NVIDIA GPU Operator、CUDA等），支持AI模型训练和推理任务；

4. 参与调研行业前沿技术（如RDMA、存储压缩等），并协助进行技术验证和落地尝试；

5. 编写基础技术文档，参与团队技术分享，持续积累研发经验。

职位要求：

1. 技术能力

① 了解计算机网络（如TCP/IP、VxLAN）、分布式存储系统等基本原理；

② 熟悉容器技术（如Docker、Kubernetes），有K8s实验环境搭建和使用经验者优先；

③ 对GPU计算相关技术（如CUDA、NCCL等）有基本了解；

2. 研发与编程能力

① 掌握至少一种编程语言（如Python/Go/C++），具备基础编程及脚本开发能力；

② 了解分布式系统基础概念，愿意参与系统性能与稳定性优化工作；

③ 了解DevOps常用工具（如Terraform、Ansible等），有CI/CD实践经验者优先；

3. 教育背景与经验

① 本科及以上学历，计算机科学、软件工程或相关专业；

② 欢迎应届毕业生或1年以下相关经验者申请，有相关实习经历或项目经验者优先；

4. 其他

① 具备较强学习能力和逻辑分析能力，能够积极参与复杂系统问题排查；

② 具备良好的团队协作意识，能够高效配合团队完成项目开发任务；

加分项：

① 有RDMA网络或高性能存储相关项目/实验经验；

② 了解深度学习框架（如TensorFlow、PyTorch）的基本原理和使用；

③ 参与过AI基础设施或分布式系统相关科研/开源项目。