邓白氏 · Technology

运维工程师 SRE (Site Reliability Engineer)

薪资面议  /  上海

今天 15:44 更新

我要推荐 内部推荐

若你发现本职位存在违规现象,欢迎举报。

提交成功

3s后自动关闭

举报职位

职位属性

  • 招聘类型:社招
  • 工作性质:全职

职位描述

核心职责

  1. 基础设施管理与优化:
  • 负责在 阿里云、AWS、天翼云 等多云平台上的基础设施管理、维护与优化。
  • 通过 IaC(Infrastructure as Code) 工具(如 Terraform, Ansible)实现基础设施的自动化部署与管理。
  • 持续监控并优化云资源成本,确保资源利用率最大化。
  1. SRE 实践与系统保障:
  • 建立并维护完善的系统监控、日志分析与告警体系,利用 Prometheus, Grafana, ELK Stack 等工具确保核心服务的高可用性。
  • 参与 On-call 轮值,处理线上紧急事件,进行深入的事后复盘与根因分析。
  • 制定和实施灾难恢复计划,确保业务连续性。
  1. 自动化与 CI/CD:
  • 负责构建和维护 CI/CD 流程,提升开发、测试与部署效率。
  • 编写自动化脚本(Shell, Python, Go 等)实现日常运维工作的自动化。
  1. 安全与合规:
  • 执行基础设施和应用的全面安全加固,进行漏洞扫描与管理。
  • 参与合规性审计,确保所有操作符合公司的安全政策与行业标准。

 


任职条件


  • 5年以上 互联网运维或 SRE 相关工作经验。
  • 精通 阿里云、AWS、天翼云 至少两个云平台的使用、运维与故障排查。
  • 具备丰富的 基础设施即代码 (IaC) 实践经验,熟悉 Terraform 或 Ansible。
  • 深入理解 SRE 理念,有从零到一构建或优化监控、告警、日志系统的实际经验。
  • 熟练掌握至少一门脚本语言(如 Python, Shell),具备自动化能力。
  • 熟悉 CI/CD 流程与工具,有相关的设计或实施经验。

 

加分项

  • 有高并发、大规模分布式系统运维经验者优先。
  • 具备 Kubernetes, Docker 等容器化技术运维经验者优先。
  • 有大数据、数据分析平台运维经验者优先。


公司福利

  • 周末双休
  • 带薪年假
  • 五险一金
  • 补充商业医疗保险
  • 专业培训
  • 年度体检
  • 子女福利