深入理解SPARK：核心思想与源码分析

内容简介

《深入理解SPARK：核心思想与源码分析》一书对Spark1.2.0版本的原始码进行了全面而深入的分析，旨在为Spark的最佳化、定製和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。

本书分为三篇：

準备篇（第1～2章），介绍了Spark的环境搭建、设计理念与基本架构，帮助读者了解一些背景知识。

核心设计篇（第3～7章），着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容，读者可以通过源码剖析更加深入理解Spark的核心设计与实现，以便在实际使用中能够快速解决线上问题并对性能进行调优。

扩展篇（第8～11章），主要讲解基于Spark核心的各种扩展及套用，包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容，读者可以扩展实际项目中对Spark的套用场景，让Spark焕发活力。

作者简介

耿嘉安，10年IT行业相关经验。就职于阿里巴巴商家业务事业部，任资深Java工程师，专注于开源和大数据领域，目前与小伙伴们基于ODPS构建阿里的大数据商业解决方案——御膳房。在大量的工作实践中，对J2EE、JVM、Tomcat、Spring、Hadoop、Spark、MySQL、Redis都有深入研究，尤其喜欢剖析开源项目的源码实现。早期从事J2EE企业级套用开发，对Java相关技术有独到见解。业余时间喜欢研究中国古代历史，古诗词，旅游，足球等。

精彩书评

伴随着网际网路的不断演进，人类所面临的数据在体量，产生速度和多样性方面阶跃性发展，随之而来的是数据计算和处理方式的多样化，目前越来越多的数据处理链路是通过多种计算组合而成，例如批量与流式计算，图计算，互动式查询等。而以往几个独立计算系统“物理”拼装组合成的複杂系统在处理这些问题时，往往在成本和效率上产生瓶颈。Spark从叠代计算的数据复用切入，底层一个runtime来支撑多种计算模型，越来越受到业界的重视，社区发展非常迅速。而本书从源码分析角度深入剖析系统，希望读者不仅做到知其然，更要知其所以然，对Spark有更加深入的研究。本书作者在相关领域有多年丰富的实践和套用经验，相信通过研读本书必定可以给读者带来事半功倍的效果。

——强琦　阿里云计算平台资深技术专家

这是一本不错的Spark的入门书籍，完全从工程师的视角出发，从安装到使用再到高阶套用。有些时候甚至有些啰嗦，但这不正是我们读者需要的幺？作者用他专一的一线工程师视角与在阿里面临的场景结合，写作的落笔相当接地气。这是一本难得的工程师参考用书。

深入理解SPARK：核心思想与源码分析

深入理解SPARK：核心思想与源码分析

基本介绍

内容简介

作者简介

精彩书评

目录

相关推荐