视频演讲: 最优化 Spark 应用的性能——使用低成本的层次化方案加速大数据处理

2016年8月30日 | By News | Filed in: 未分类.

Source: http://www.infoq.com/cn/presentations/use-low-cost-programs-to-accelerate-big-data-processing?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

调优是 Spark 开发中非常重要的一个环节,好的调优可以提升 10 倍以上的性能。我们首先分享了 Intel 长期调优经验的总结,然后展示了一种利用 NVMe SSD 搭建的层次化存储,以低成本提升程序的性能。NVMe 是由英特尔,三星,SanDisk,Dell等多家公司发起的新一代 SSD 通信协议接口。无论是顺序读写还是随机读写,它所带来的性能提升都数倍于普通的 SATA SSD,随机访问更是机械硬盘的千倍,但价格相对硬盘还是较贵。在端到端的基准测试中,Spark 应用程序的性能提高了 3 倍,Shuffle 阶段的提升更是达到 5 倍之多。本演讲讲解了 Intel 技术团队如何通过收集 Linux 内核数据,展现 Spark 应用程序在不同阶段对磁盘操作的特征,定位性能瓶颈,进而优化 Spark Core 代码,设计出简单易用、高性价比的层次化设备存储方案。

By 俞育才


Comments are closed here.