公司简介

职位描述
课题一:GPU集群调度策略、HPC融合架构研究和开发
课题二:针对AI训练/推理等任务通信优化的研究和开发
课题三:集群智能巡检系统,智能监控系统,智能SRE系统的研究和开发
课题四:Serverless可扩展推理架构研究和开发
课题五:vGPU/vCUDA 相关技术研究和开发
职位要求
1.硕士及以上学历在读,计算机、电子、自动化等相关专业;
2.扎实的计算机基础:熟悉操作系统(进程管理、内存管理)、分布式系统基本原理(RPC、一致性、负载均衡);
3.了解AI训练/推理流程,熟悉GPU/CPU算力资源的特点(如并行计算、内存带宽瓶颈);
4.编程能力:熟练使用Python(必备),掌握Go/C++至少一种(优先);
5.学习能力强,对技术问题有钻研精神,能快速理解复杂系统逻辑;
6.沟通能力佳,有论文写作能力,具备团队协作意识,能适应快节奏的开发环境。
优先考虑:
1.有分布式系统开发经验(如参与过调度系统、资源管理平台项目);
2.熟悉主流调度框架(Kubernetes Operator、Volcano、Airflow)的原理与二次开发;
3.有AI基础设施相关实践(如参与过GPU集群调度优化、大模型训练平台开发);
4.发表过操作系统/分布式系统相关论文,或在GitHub有高质量项目(可附链接);
5.了解机器学习基础(如强化学习在调度中的应用场景)。
人工智能、计算机、软件