最新软件| 手机版| 软件专题 hadoop实战第2版 pdf高清中文完整版下载
您的位置:ag环亚娱乐>软件频道 > 科学技术 > 大数据 > hadoop实战第2版 pdf高清中文完整版下载
hadoop实战第2版 pdf高清中文完整版下载

hadoop实战第2版 pdf高清中文完整版下载

  • 软件大小:39.79MB
  • 软件语言:简体中文
  • 软件类型:环亚娱乐ag88平台登录
  • 软件类别:大数据
  • 更新时间:2017-12-29 23:10
  • 软件授权:免费版
  • 运行环境:xp/win7/win8/win10
  • 软件位数:64位/32位
  • 官方网站:
  • 软件等级:3星

39.79MB

同类推荐软件

软件介绍

为您推荐:hadoop实战

hadoop实战第2版是一款数据挖掘三部曲第2版本,ag环亚娱乐小编整理的是PDF格式中文高清版本下载,这个书可以帮助入门新手如何系统地学习数据挖掘,陆嘉恒前辈的这本书讲的很好,很全面也很基础,很早就看完了,一直没顾上总结,最近刚有时间,总结下,把零散的知识点简要记录下,以备以后用的到,暂时就总结这么多,时间隔的久了,忘差不多了。这本很基础,有很多东西第一次听说,接下来正在学习一本稍微难得《Hadoop权威指南》,到时候再深入总结。

hadoop实战第2版 pdf高清中文完整版下载

官方介绍

本书能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之一。与第1版相比,第2版技术更新颖,所有技术都针对最新版进行了更新;内容更全面,几乎每一个章节都增加了新内容,而且增加了新的章节;实战性更强,案例更丰富;细节更完美,对第1版中存在的缺陷和不足进行了修正。

本书内容全面,对Hadoop整个技术体系进行了全面的讲解,不仅包括HDFS、MapReduce、YARN等核心内容,而且还包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop技术相关的重要内容。实战性强,不仅为各个知识点精心设计了大量经典的小案例,而且还包括Yahoo!等多个大公司的企业级案例,可操作系极强。

全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、MapReduce应用的开发方法,以及多个精巧的MapReduce应用案例;第7章全面讲解了Hadoop的I/O操作;第8章对YARN进行了介绍;第9章对HDFS进行了详细讲解和分析;第10章细致地讲解了Hadoop的管理;第11~17章对Hadoop大生态系统中的Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等技术进行了详细的讲解;第18章讲解了Hadoop的各种常用插件,以及Hadoop插件的开发方法;第19章分析了Hadoop在Yahoo!、eBay、百度、Facebook等企业中的应用案例。

目录

前 言

第1章 Hadoop简介/1

1.1 什么是Hadoop/2

1.1.1 Hadoop概述/2

1.1.2 Hadoop的历史/2

1.1.3 Hadoop的功能与作用/2

1.1.4 Hadoop的优势/3

1.1.5 Hadoop应用现状和发展趋势/3

1.2 Hadoop项目及其结构/3

1.3 Hadoop体系结构/6

1.4 Hadoop与分布式开发/7

1.5 Hadoop计算模型—MapReduce/10

1.6 Hadoop数据管理/10

1.6.1 HDFS的数据管理/10

1.6.2 HBase的数据管理/12

1.6.3 Hive的数据管理/13

1.7 Hadoop集群安全策略/15

1.8 本章小结/17

第2章 Hadoop的安装与配置/19

2.1 在Linux上安装与配置Hadoop/20

2.1.1 安装JDK 1.6/20

2.1.2 配置SSH免密码登录/21

2.1.3 安装并运行Hadoop/22

2.2 在Mac OSX上安装与配置Hadoop/24

2.2.1 安装Homebrew/24

2.2.2 使用Homebrew安装Hadoop/25

2.2.3 配置SSH和使用Hadoop/25

2.3 在Windows上安装与配置Hadoop/25

2.3.1 安装JDK 1.6或更高版本/25

2.3.2 安装Cygwin/25

2.3.3 配置环境变量/26

2.3.4 安装sshd服务/26

2.3.5 启动sshd服务/26

2.3.6 配置SSH免密码登录/26

2.3.7 安装并运行Hadoop/26

2.4 安装和配置Hadoop集群/27

2.4.1 网络拓扑/27

2.4.2 定义集群拓扑/27

2.4.3 建立和安装Cluster /28

2.5 日志分析及几个小技巧/34

2.6 本章小结/35

第3章 MapReduce计算模型/36

3.1 为什么要用MapReduce/37

3.2 MapReduce计算模型/38

3.2.1 MapReduce Job/38

3.2.2 Hadoop中的Hello World程序/38

3.2.3 MapReduce的数据流和控制流/46

3.3 MapReduce任务的优化/47

3.4 Hadoop流/49

3.4.1 Hadoop流的工作原理/50

3.4.2 Hadoop流的命令/51

3.4.3 两个例子/52

3.5 Hadoop Pipes/54

3.6 本章小结/56

第4章 开发MapReduce应用程序/57

4.1 系统参数的配置/58

4.2 配置开发环境/60

4.3 编写MapReduce程序/60

4.3.1 Map处理/60

4.3.2 Reduce处理/61

4.4 本地测试/62

4.5 运行MapReduce程序/62

4.5.1 打包/64

4.5.2 在本地模式下运行/64

4.5.3 在集群上运行/64

4.6 网络用户界面/65

4.6.1 JobTracker页面/65

4.6.2 工作页面/65

4.6.3 返回结果/66

4.6.4 任务页面/67

4.6.5 任务细节页面/67

4.7 性能调优/68

4.7.1 输入采用大文件/68

4.7.2 压缩文件/68

4.7.3 过滤数据/69

4.7.4 修改作业属性/71

4.8 MapReduce工作流/72

4.8.1 复杂的Map和Reduce函数/72

4.8.2 MapReduce Job中全局共享数据/74

4.8.3 链接MapReduce Job/75

4.9 本章小结/77

第5章 MapReduce应用案例/79

5.1 单词计数/80

5.1.1 实例描述/80

5.1.2 设计思路/80

5.1.3 程序代码/81

5.1.4 代码解读/82

5.1.5 程序执行/83

5.1.6 代码结果/83

5.1.7 代码数据流/84

5.2 数据去重/85

5.2.1 实例描述/85

5.2.2 设计思路/86

5.2.3 程序代码/86

5.3 排序/87

5.3.1 实例描述/87

5.3.2 设计思路/88

5.3.3 程序代码/89

5.4 单表关联/91

5.4.1 实例描述/91

5.4.2 设计思路/92

5.4.3 程序代码/92

5.5 多表关联/95

5.5.1 实例描述/95

5.5.2 设计思路/96

5.5.3 程序代码/96

5.6 本章小结/98

第6章 MapReduce工作机制/99

6.1 MapReduce作业的执行流程/100

6.1.1 MapReduce任务执行总流程/100

6.1.2 提交作业/101

6.1.3 初始化作业/103

6.1.4 分配任务/104

6.1.5 执行任务/106

6.1.6 更新任务执行进度和状态/107

6.1.7 完成作业/108

6.2 错误处理机制 /108

6.2.1 硬件故障/109

6.2.2 任务失败/109

6.3 作业调度机制/110

6.4 Shuffle和排序/111

6.4.1 Map端/111

6.4.2 Reduce端/113

6.4.3 shuffle

hadoop实战第2版解析

第一章  Hadoop简介

1.Hadoop项目及其结构

Pig  Chukwa  Hive  Hbase

MapReduce  HDFS  ZooKeeper

Common    Avro

common:是为hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库。它们为在廉价硬件上搭建云计算环境提供基本的服务,并会为运行在该平台上的软件开发提供所需的API

Avro:Avro是用于数据序列化的系统

MapReduce:是一种编程模型,用于大规模数据集(>1TB)的并行运算

HDFS:一个分布式文件系统

Chukwa:开源数据收集系统,用于监控和分析大型分布式系统的数据

Hive:最早是由Facebook设计的,一个建立在Hadoop基础之上的数据仓库,提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。

HBase:一个分布式的、面向列的开源数据库,该技术源于Google论文《Bigtable:一个结构化数据的分布式存储系统》

Pig:一个队大型数据集进行分析、评估的平台,突出的优势是它的结构能够经受住高度并行的检验,这个特性使得它能够处理大型的数据集

ZooKeeper:一个为分布式应用所涉及的开源协调服务。

2.HDFS在MapReduce任务处理过程中提供了对文件操作和存储等的支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了hadoop分布式集群的主要任务

3."移动计算比移动数据更经济",数据存储在哪一台计算机上,就由哪台计算机进行这部分数据的计算,这样可以减少数据在网络上的传输,降低对网络带宽的需求

第二章  Hadoop安装配置

第三章  MapReduce计算模型

为什么用MapReduce?它的最大成就就是重写了Google的索引文件系统。被广泛应用于日志分析、海量数据排序、在海量数据中查找特定模式等场景中。它之所流行,因为它非常简单、易于实现且扩展性强。

1.其实我认为学习MapReduce编程框架关键在于理解整个大致流程,我对整个流程的理解如下:

1.1.每个MapReduce任务都被初始化为一个Job,每个Job又分为两个阶段,Map阶段和Reduce阶段

1.2.整个框架的核心就是对,有时是行和偏移,有时是单词和数目等,整个键值对有时候是map的输出,有时又是reduce的输入

(两者之间又有很多细节的优化过程)

1.3.玩转MapReduce的关键就是熟练、有想象的使用键值对,因为整个框架的概念很简单,好处是容易理解,好运用,但是难点就是一些其他程序

框架中很简单的程序必须映射到这个模型中,有点晦涩

2.MapReduce任务的优化

2.1任务调度

计算方面:Hadoop总会优先将任务分配给空闲的机器,是所有任务能公平的分享系统资源

I/O方面:Hadoop会尽量将Map任务分配给InputSpilt所在的机器,以减少网络I/O的消耗

2.2数据预处理与InputSpilt的大小

MapReduce擅长处理的是少量的大数据,所以会将输入的数据进行预处理,合并或拆分,保证每个Map任务的运行时间大概在一分钟左右比

较合适

2.3Map和Reduce任务的数量

任务槽:这个集群能够同时运行的Map/Reduce任务的最大数量。一般来说,Reduce任务的数量应该是Map的0.95或1.75倍,这样执行速

度快的机器可以获  得更多的Reduce任务,因此可以使负载更加均衡,以提高任务的处理速度。

2.4Combine函数

将Map函数的输出进行合并,会大大减少网络I/O操作的消耗

2.5压缩

对Map、Reduce的输入、输出结果进行压缩

3.Hadoop流

Hadoop流提供了一个API,允许用户使用任何脚本语言写Map函数或Reduce函数,Hadoop流的关键是,它使用UNIX标准流作为程序与Hadoop的接口。因此,任何程序只要可以从标准输入流中读取数据并且可以写入数据到标准输出流,那么就可以通过Hadoop流使用其他语言编写的MapReduce程序的Map函数或Reduce函数。

4.Map与Reduce将输出转化为对的默认方法是:将每行的第一个tab符号之前的内容作为key,之后的内容作为value。如果没有tab符号,那么这一行所有内容为作为key,而value值为null。(这种设置是可以更改的)

第六章  MapReduce的工作机制

1.MapReduce自动执行后,用户除了监控程序的执行情况和强制中止作业之外,不能对作业的执行过程进行任何干预

2.在运行程序时要确保输出路径不存在,否则会报错,这是初学者经常忽视的错误

3.错误处理机制

硬件故障,在Hadoop集群中,任何时候都只有唯一一个JobTracker。所以它的故障就是单点故障,这是所有错误中最严重的。目前为止,Hadoop中还没有相应的解决办法,能想到的是通过创建多个备用JobTracker节点,主点失败之后采用领导选举算法重新确定主节点

Hadoop在Reduce数据时如果遇到个别错误的数据,会采用忽略的做法,这在海量数据中是可以接受的(me:不过那次在网上看到一篇文章,目前最新的思想不是数据样本,而是十分宏大的要统计全部数据)

第九章  HDFS详解

1.是Hadoop的核心子项目,是其主要应用的一个分布式文件系统。整合了众多的文件系统。是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。主要有一下特点:

1.1处理超大文件,数百MB、甚至数百TB

1.2流式地访问数据,假设的主要模式是“一次写入,多次读取”的模式基础之上,对HDFS来说读取整个数据集要比读取一条记录更加高效

1.3运行于廉价的商用机器集群上,Hadoop设计对硬件需求比较低,意味着硬件故障率会很高。

2.HDFS不适合处理的问题

2.1低延迟数据访问,如果要处理用户要求时间比较短的低延迟应用请求,则HDFS不适合

2.2无法高效存储大量小文件

2.3不支持多用户写入及任意修改文件,HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能写追加操作,。

软件截图

下载地址

用户评论

(您的评论需要经过审核才能显示)