公司简介

"为人类的可持续未来解决挑战"
"为人类的可持续未来解决挑战"
1. 负责企业级大数据平台的架构设计与建设,基于开源生态构建高可用、可扩展的数据处理系统;
2. 主导数据湖架构的设计与落地,推动统一数据治理、元数据管理、权限控制等体系建设;
3. 参与数据仓库模型设计与ETL流程开发,推动数据资产标准化与治理体系建设,BI报告开发;
4. 深度参与 Hadoop、Spark、Flink、Kafka、Delta Lake、Iceberg、Hudi 等开源组件的部署、调优与二次开发;
5. 设计并实现面向批处理、流处理、交互式查询的统一数据处理流程,提升平台性能与稳定性;
6. 参与数据仓库建模与指标体系设计,推动数据资产标准化与数据质量体系建设;
7. 与算法团队、产品团队、运维团队紧密协作,提供高质量的数据服务支持;
8. 关注大数据领域前沿技术趋势,推动新技术(如湖仓一体、AI + 数据工程、Serverless 数据平台)在公司内的应用落地;
9. 编写高质量代码与技术文档,主导关键模块的设计评审与代码Review。
1. 学历要求:计算机、数据分析、软件工程、信息科学等相关专业;
2. 工作经验:5年以上大数据开发或平台架构经验,具备从0到1建设大型数据平台的实际项目经验;
3. 核心技能:
- 熟悉主流开源大数据平台(如 Hadoop、Spark、Flink、Kafka、Presto、ClickHouse、Delta Lake、Iceberg、Hudi),有多个开源项目成功落地经验;
- 熟悉闭源平台/云原生方案(如 AWS EMR、Azure Databricks、阿里云MaxCompute);
- 深入理解数据湖架构,包括但不限于元数据管理(如 Hive Metastore、AWS Glue)、文件格式(Parquet、ORC、Delta)、数据目录(Alluxio、Apache Atlas)、安全模型等;
- 熟练掌握至少一门后端开发语言,如 Java、C#、Python,能够进行复杂业务逻辑开发与性能优化;
- 具备良好的系统架构设计能力,熟悉分布式系统的原理、CAP理论、一致性协议、容错机制等;
- 熟悉任务调度系统(Airflow、DolphinScheduler)、日志监控系统(Prometheus、Grafana、ELK);
- 熟悉 DevOps 和 CI/CD 流程,具备容器化部署经验(Docker/Kubernetes)者优先;
- 有开源社区贡献经历者优先(如 GitHub PR 提交、Issue 解决、项目孵化等);
4. 加分项:
- 具备跨平台数据集成经验(如本地 + 云端混合架构);
- 在 Apache Spark/Flink/Delta Lake/Iceberg/Hudi 社区有活跃参与或代码贡献;
- 熟悉 OLAP 查询引擎(ClickHouse、StarRocks、Doris、Trino)并有实际部署与优化经验;
- 具备数据治理、血缘分析、数据质量管理平台开发经验;
- 有实时数仓、Lambda/Simplex 架构、Flink CEP 等复杂场景落地经验;
- 对 AI 工程化有一定了解,能与算法团队协同完成特征工程、模型上线等工作;
- 同时掌握 C# 和 Python,在多语言环境下灵活切换者优先。
- 有金融保险行业大数据背景经验