2018-03-15 发表大数据 / hadoop

一、 Connection refused

根据官方文档 Hadoop 3.0 配置，在

1	sbin/start-dfs.sh

的时候报错，

1	pdsh@ubuntu: localhost: connect: Connection refused

原因是pdsh默认采用的是rsh登录，修改成ssh登录即可，在环境变量/etc/profile里加入：

1	export PDSH_RCMD_TYPE=ssh

然后source /etc/profile 之后重新sbin/start-dfs.sh

2018-03-14 发表大数据 / hadoop

前言

当数据量变大的时候，一台机器完成一个问题要计算好久好久。这时候就需要多台机器并行运算。然而，每台机器不能用单台机器运行的算法，自己算自己的。而是要有不同的分工，联合起来共同算完这个问题。

Hadoop就是这样的一个大数据处理框架。其中包括很多开源的处理框架，比如：

那这么多，要怎么学呢？吴军博士在《数学之美》中提到：

分治算法是计算机科学中最漂亮的工具之一，我称为“各个击破”法。

我们就来各个击破。当然，先挑重点的学习。