AML机器学习存储架构工程师-北京
北京
研发 - 基础架构
职位 ID:A105803
职位描述
1、通用性/架构设计取舍:如何构建一个统一的中台系统,但同时可以支持多个业务在不同场景(低成本/高可用性/高吞吐/高性能/大空间)的诉求; 2、多级/分级存储的架构复杂度:不仅限于显存/内存/外存; 3、跟进前沿的软件/硬件架构演进与尝试; 4、作为站内中台,多代际/多机房/多套餐/不同库存大量资源的规划与利用率优化;对于模型规模/服务流量感应后做出的自动/动态调优问题; 5、多个子系统的多种目标的优化:训练部分的功能性、可用性、容错性;serving部分的成本、容量、性能;系统同步部分的数据一致性、实效性、带宽容量; 6、针对一些索引/存储结构不断追求极致:诸如无锁化/渐进式数据结构的无限追求; 7、对于CAP定理不断的挑战与追求。
职位要求
1、熟练掌握Linux环境下的C++/Python编程语言的使用; 2、掌握分布式系统原理,参与过大规模分布式系统的设计、开发、维护和持续优化,能够识别大型复杂分布式系统中的潜在问题; 3、参与过推荐/搜索/机器学习等分布式系统工作,涉及过诸如资源调度、任务编排、模型训练、模型推理、特征抽取、MLsys,AiOps 等内容; 4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神; 5、有强烈的工作责任心,较好的学习能力、沟通能力、自驱力和执行力; 6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项: 1、参与过类似ParameterServer系统优化,或者搜索系统的索引结构优化; 2、了解 Redis、LevelDB/RocksDB、Mongo 等开源存储类项目;或者有HDFS、Ceph等大型分布式存储系统使用/优化经历; 3、熟悉主流的机器学习框架(TensorFlow / PyTorch / MXNet); 4、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),Machine Learning Frameworks,ML for System,Distributed Storage; 5、对于Linux kernel,操作系统,有深入了解/追查能力; 6、有ACM/OI竞赛背景。