Hadoop生态系统
Kevin Sitto, Marshall Presser
陈新, 唐晓 译
出版时间:2016年10月
页数:109
如果你的组织即将开始进入大数据的世界,那么可能不仅需要决定Apache Hadoop这个平台是否适合使用,还需要决定Hadoop中哪些组件最适合完成你的任务。本书将帮助你更容易地完成这项工作。本书将Hadoop的生态系统分解为一个个简略的、容易理解的小段内容,以便读者可以快速理解Hadoop项目、子项目及其相关技术是如何一起工作的。
本书每一章都介绍了不同的主题(例如核心技术或数据传输),并且解释了为什么特定组件适用或不适用特定的需求。对于数据处理来说,使用Hadoop是一个全新的挑战,但如果有了这本便利的参考书,你将很容易领会使用Hadoop的精妙所在。

主要包括如下主题:
● 核心技术。Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。
● 数据库和数据管理。Cassandra、HBase、MongoDB和Hive。
● 序列化。Avro、JSON和Parquet。
● 管理和监视。Puppet、Chef、Zookeeper和Oozie。
● 分析辅助。Pig、Mahout和MLLib。
● 数据传输。Scoop、Flume、distcp和Storm。
● 安全、访问控制和审计。Sentry、Kerberos和Knox。
● 云计算和虚拟化。Serengeti、Docker和Whirr。
  1. 前言
  2. 第1章 关键技术
  3. 1.1 Hadoop分布式文件系统(HDFS)
  4. 1.2 MapReduce
  5. 1.3 YARN
  6. 1.4 Spark
  7. 第2章 数据库及数据管理
  8. 2.1 Cassandra
  9. 2.2 HBase
  10. 2.3 Accumulo
  11. 2.4 Memcached
  12. 2.5 Blur
  13. 2.6 Solr
  14. 2.7 MongoDB
  15. 2.8 Hive
  16. 2.9 Spark SQL (前身是 Shark)
  17. 2.10 Giraph
  18. 第3章 序列化
  19. 3.1 Avro
  20. 3.2 JSON
  21. 3.3 Protocol Buffers (protobuf)
  22. 3.4 Parquet
  23. 第4章 管理与监控
  24. 4.1 Ambari
  25. 4.2 HCatalog
  26. 4.3 Nagios
  27. 4.4 Puppet
  28. 4.5 Chef
  29. 4.6 ZooKeeper
  30. 4.7 Oozie
  31. 4.8 Ganglia
  32. 第5章 分析辅助
  33. 5.1 MapReduce接口
  34. 5.2 分析库
  35. 5.3 Pig
  36. 5.4 Hadoop Streaming
  37. 5.5 Mahout
  38. 5.6 MLLib
  39. 5.7 Hadoop图像处理接口(HIPI)
  40. 5.8 SpatialHadoop
  41. 第6章 数据传输
  42. 6.1 Sqoop
  43. 6.2 Flume
  44. 6.3 DistCp
  45. 6.4 Storm
  46. 第7章 安全、访问控制和审计
  47. 7.1 Sentry
  48. 7.2 Kerberos
  49. 7.3 Knox
  50. 第8章 云计算和虚拟化
  51. 8.1 Serengeti
  52. 8.2 Docker
  53. 8.3 Whirr
书名:Hadoop生态系统
译者:陈新, 唐晓 译
国内出版社:中国电力出版社
出版时间:2016年10月
页数:109
书号:978-7-5123-9598-5
原版书书名:Field Guide to Hadoop
原版书出版商:O'Reilly Media
Kevin Sitto
 
Kevin Sitto是Pivotal Software公司的领域解决方案工程师,他为用户提供咨询服务,帮助用户理解和描述他们的大数据需求。
他和妻子以及两个孩子住在Maryland,在没有撰写关于大数据书籍的时候,他经常享受制作自酿的啤酒的乐趣。
 
 
Marshall Presser
 
Marshall Presser是Pivotal Software公司的领域首席技术官,住在弗吉尼杰州麦克莱恩市。除了帮助用户使用Greenplum数据库解决复杂的分析问题之外,他领导了Hadoop Vitual 领域团队,工作关注于将Hadoop与关系型数据库整合。
在来到Pivotal公司(之前是Greenplum公司)之前,他在Oracle工作了12年,专门从事于高可用性、业务连续性、集群、并行数据库技术、灾难恢复和大规模数据库系统。Marshall之前还为许多硬件厂商实现集群和其他并行体系架构。他的背景包括并行计算和操作系统/编译器开发,同时还是健康医疗机构、金融服务机构、联邦政府和州政府的私人顾问。
Marshall获得了Pennsylvania大学的数学学士学位和金融与统计学硕士学位,同时还获取了伦敦Imperial大学的计算机理科硕士。
 
 
本书的封面的动物是O’Reilly动物,大多数是与本书涉及的技术相关联的,包括:贼鸥海鸟(skua seabird)、沼泽无尾刺豚鼠(lowland paca)、九头蛇波西亚帕西菲卡(hydra portia pacific)、 炮弹鱼(trigger fish)、非洲大象(African
elephant)、麋鹿(Pere David’s deer)、欧洲野猫(European wildcat)、披肩鸡(ruffed grouse)和黑猩猩(chimpanzee)。
O’Reilly封面的大多数动物都濒临灭绝,对于地球来说它们都是很重要的。如果希望了解更多如何帮助它们,可以访问animals.oreilly.com。