AML机器学习存储架构工程师-北京
北京研发 - 基础架构职位 ID:A105803
职位描述
1、通用性/架构设计取舍:如何构建一个统一的中台系统,但同时可以支持多个业务在不同场景(低成本/高可用性/高吞吐/高性能/大空间)的诉求;
2、多级/分级存储的架构复杂度:不仅限于显存/内存/外存;
3、跟进前沿的软件/硬件架构演进与尝试;
4、作为站内中台,多代际/多机房/多套餐/不同库存大量资源的规划与利用率优化;对于模型规模/服务流量感应后做出的自动/动态调优问题;
5、多个子系统的多种目标的优化:训练部分的功能性、可用性、容错性;serving部分的成本、容量、性能;系统同步部分的数据一致性、实效性、带宽容量;
6、针对一些索引/存储结构不断追求极致:诸如无锁化/渐进式数据结构的无限追求;
7、对于CAP定理不断的挑战与追求。
职位要求
1、熟练掌握Linux环境下的C++/Python编程语言的使用;
2、掌握分布式系统原理,参与过大规模分布式系统的设计、开发、维护和持续优化,能够识别大型复杂分布式系统中的潜在问题;
3、参与过推荐/搜索/机器学习等分布式系统工作,涉及过诸如资源调度、任务编排、模型训练、模型推理、特征抽取、MLsys,AiOps 等内容;
4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
5、有强烈的工作责任心,较好的学习能力、沟通能力、自驱力和执行力;
6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项:
1、参与过类似ParameterServer系统优化,或者搜索系统的索引结构优化;
2、了解 Redis、LevelDB/RocksDB、Mongo 等开源存储类项目;或者有HDFS、Ceph等大型分布式存储系统使用/优化经历;
3、熟悉主流的机器学习框架(TensorFlow / PyTorch / MXNet);
4、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),Machine Learning Frameworks,ML for System,Distributed Storage;
5、对于Linux kernel,操作系统,有深入了解/追查能力;
6、有ACM/OI竞赛背景。