“汇聚未来”云端求贤 · 无限光年(上海)技术有限公司

AI Infra 工程师

30k-40k/月  /  上海

今天 18:59 更新

我要推荐 内部推荐

若你发现本职位存在违规现象,欢迎举报。

提交成功

3s后自动关闭

举报职位

职位属性

  • 招聘类型:校招
  • 工作性质:全职

职位描述

岗位描述:

1. 参与高性能、可扩展的AI基础设施架构的辅助设计与开发,包括组网、存储、Kubernetes容器集群及GPU计算集群相关任务;

2. 参与Kubernetes集群的部署、扩容和维护工作,学习大规模AI任务调度策略,协助实现或优化基础GPU资源分配机制,提升资源使用效率;

3. 参与集成和管理GPU相关基础工具(如NVIDIA GPU Operator、CUDA等),支持AI模型训练和推理任务;

4. 参与调研行业前沿技术(如RDMA、存储压缩等),并协助进行技术验证和落地尝试;

5. 编写基础技术文档,参与团队技术分享,持续积累研发经验。

职位要求:

1. 技术能力

① 了解计算机网络(如TCP/IP、VxLAN)、分布式存储系统等基本原理;

② 熟悉容器技术(如Docker、Kubernetes),有K8s实验环境搭建和使用经验者优先;

③ 对GPU计算相关技术(如CUDA、NCCL等)有基本了解;

2. 研发与编程能力

① 掌握至少一种编程语言(如Python/Go/C++),具备基础编程及脚本开发能力;

② 了解分布式系统基础概念,愿意参与系统性能与稳定性优化工作;

③ 了解DevOps常用工具(如Terraform、Ansible等),有CI/CD实践经验者优先;

3. 教育背景与经验

① 本科及以上学历,计算机科学、软件工程或相关专业;

② 欢迎应届毕业生或1年以下相关经验者申请,有相关实习经历或项目经验者优先;

4. 其他

① 具备较强学习能力和逻辑分析能力,能够积极参与复杂系统问题排查;

② 具备良好的团队协作意识,能够高效配合团队完成项目开发任务;

 

加分项:

① 有RDMA网络或高性能存储相关项目/实验经验;

② 了解深度学习框架(如TensorFlow、PyTorch)的基本原理和使用;

③ 参与过AI基础设施或分布式系统相关科研/开源项目。

任职条件

人工智能、计算机、软件

职位要求

  • 学历要求:硕士