SRE高级/工程师/架构师/负责人
北京
研发 - 基础架构
职位 ID:A4028
职位描述
Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统 1. 保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 2. 为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 3. 通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 4. 推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统 SLA; 5. 参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6. 基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。
职位要求
1. 本科以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2. 扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3. 熟悉一种或多种编程语言,例如 Go/Python/Java/Shell等; 4. 具备系统化解决问题的能力或工程化研发能力,良好的沟通技巧和主人翁责任感; 5. 具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/OpenStack/Hadoop/Spark/Flink/虚拟化/分布式存储等); 6. 具有产品和工程思维,良好的项目能力、数据结构和系统设计的能力者优先。