一、配置环境
1、下载Hadoop
从官网http://hadoop.apache.org/ 直接下载。
推荐国内可下载地址:http://mirrors.hust.edu.cn/apache/、http://mirror.bit.edu.cn/apache/
图解:
如果有人嫌弃社区版本的Hadoop集群配置繁琐,可以装CDH版本的,个人建议还是安装社区版本的,然后后续跟各个组件结合搭建出自己的大数据处理环境,享受软件配置的过程,哈哈,这才能成为高手中的高手!
我的基础测视环境是(Myeclipse10.7+Hadoop2.6.0+Centos7+jdk1.7+VMware12)
2、安装hadoop
部署方式: 1、本地模式(一台机器下运行)
2、伪分布模式 (学习用到的)
3、集群模式(工作中用到的)
集群模式安装步骤:1、关闭防火墙 :service iptables stop centos7版本: systemctl stop firewalld.service
2、关闭防火墙的自动开启 :chkconfig iptables off centos7版本: systemctl disable firewalld.service
3、设置ssh自动登录 (就是集群之间ssh的公钥共享,让ssh通信无障碍。方便hadoop的沟通~)
4、安装jdk117并配置好她的path和home环境。
5、从官网下载的Hadoop2.6.0压缩包,解压到centos7 上,并且配置好它的path和home环境变量。
6、 接下来就是配置hadoop里面的各种xml文件按照此博客(http://www.cnblogs.com/yjmyzz/p/4280069.html )配置就行。 亲测可用~
7、在hadoop的bin目录下执行>hdfs namenode -format 第一次安装要格式化节点。
8、启动hadoop命令:start-dfs.sh
9、启动hadoop 的yarn调度器:start-yarn.sh
10、查看集群状态:hdfs dfsadmin -report
3、配置开发环境
配置Myeclipse 开发环境(亲测可用!):
1、 hadoop 配置eclipse :http://my.oschina.net/muou/blog/408543 (备注 :配置myeclipse 稍微不一致的是放到 D:\MyEelipse\MyEclipse 10\dropins)
(备注:博客里由编译hadoop跟eclipse的插件,我尝试编译了一下出错,果断在CSDN下了一个插件,直接就可以用爽歪歪~)
2、 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied
解决:hadoop权限问题:hadoop fs -chmod 777 /user/root/ 给777权限
4、如何在Hadoop上编写MapReduce程序
http://dongxicheng.org/mapreduce/writing-hadoop-programes/
二、MapReduce编程入门
1、熟悉hadoop2.6API :http://hadoop.apache.org/docs/r2.6.0/api/*(开发首先了解Api)
2、初级案例:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 有详细的注释和图解,最好的入门案例没有更好只有最好~。
3、Hadoop MapReduce应用开发:http://siyuan-zhu.iteye.com/blog/2036352(介绍了MapReduce实战总体流程)