基础架构工程师 — 资源调度方向
杭州
研发 - 基础架构
职位 ID:895F1
职位描述
团队介绍: 调度团队负责公司内部集群资源管理和调度, 支撑了推荐/数仓/搜索/广告等众多核心业务, 管理着在集群规模、调度吞吐能力、资源利用率、业务复杂性等多个方向上都在业界领先的YARN集群和K8S集群。 针对公司内的抖音、今日头条等产口重度依赖推荐的特点, 调度团队对调度器进行了深度定制以支持流式(Flink)训练和GPU训练等场景。同时为了进一步提升集群资源利用率,调度团队已经开启在离线大规模混部,并且预期在不久后会进一步融合 YARN / K8S 等调度系统。 岗位职责: 1、构建高效、稳定的集群资源管理系统,在资源隔离,资源利用率提升方面进行优化; 2、不断解决规模增长带来的技术和业务问题,负责集群的可用性、稳定性以及性能优化; 3、面向公司内特有场景, 设计与落地实现更合理的自研系统架构, 解决通用业务问题; 4、负责大规模在线&离线混合部署场景下的资源调度及系统融合;
职位要求
1、自认为是技术Geek,具备很强的问题解决能力; 2、精通Java/C++/Go等编程语言之一或多个; 3、具备扎实的计算机理论基础, 对数据结构及算法有较强的功底; 4、具备大规模分布式系统的研发和优化能力; 具备以下条件者加分: 1、深入了解 YARN / Kubernetes / Spark / Flink 等系统, 或在社区有过相关代码贡献; 2、深入了解 Docker / LXC 等容器化技术; 3、深入了解 Linux Kernel; 4、对机器学习训练框架 Submarine / Kubeflow 等有深入研究和经验者优先; 5、有大型分布式系统的实践管理经验, 或对业界计算基础设施动向有较强的热情;