随着云原生技术的加速普及,Kubernetes逐渐成为IT技术架构的基石,并推动着各行业技术架构的转型升级。在《InfoQ 编辑部开年聊聊2020 年值得关注的十大技术趋势》报道中,写到其中一个趋势是容器化加速席卷大数据基础架构。
今天,我们就分享下金山云容器引擎在大数据平台的应用实践。
大数据平台拥抱Kubernetes金山云容器引擎应需而生
众所周知,Hadoop的出现加速大数据技术的应用推广,随着应用场景的不断丰富,近几年也涌现出多款优秀的计算框架,如Spark、Flink等。此前在大数据分布式调度平台中,大家普遍采用是Yarn,但是随着应用场景丰富和规模扩大,平台逐渐暴露出一些问题,如资源隔离限制较弱、监控信息不完善、弹性扩展能力弱、GPU支持不足等。
随着容器化的快速发展,大数据原有的Hadoop Yarn分布式任务调度模式,正在被基于Kubernetes的技术架构所取代。容器凭借轻量秒级部署、一次构建、处处运行的巨大优势,推动了快捷、自动化的工作流程,同时Kubernetes提供的强大编排能力以及蓬勃发展的社区生态,为大数据容器化提供了便捷的平台。
大数据系统原生支持on Kubernetes,例如Spark 从官方2. 3 版本开始就可以无需任何修改直接运行在 Kubernetes 上,这是一个里程碑式的事件,表明了未来技术架构的发展方向。