hadoop大数据学院实习

2020-09-07

概述

从9月2号到月6号，进行了简单的学院实习，这段时间主要是做了：

VMware CentOS7虚拟机的网络配置，包括桥接模式和NAT模式，
hadoop伪分布式集群的配置，
hadoop完全分布式集群的配置，
mapreduce实战

用到的资源文件都在百度网盘上：链接：https://pan.baidu.com/s/1JLTTnNINlBHlGTktUjU57w
提取码：zxxp

百度网盘上就是hadoop文件，jdk，VMware，CentOS7等。

VMware CentOS7虚拟机的网络配置

虚拟机的三种网络连接模式

安装VMware，在Windows上配置网络，然后在VMware上安装了CentOS7虚拟机后可以正常联网的。

打开设置/网络和Internet设置/更改适配器选项，在我的电脑上会看到以下界面：

WLAN属性使用Intel(R) Dual Band Wireless-AC 7265 无线网卡，MAC地址是：D4-25-8B-8A-76-EA。此连接使用下列项目中包含：Microsoft网络客户端，VMware Bridge Protocol，Internet协议版本4(TCP/IP4)。我发现，这个网卡与以太网属性使用的网卡不一样，当然MAC地址也不会一样。

然后就有VMware Network Adapter VMnet1和VMware Network Adapter VMnet8两块虚拟网卡，分别用于虚拟机的host-only网络连接模式和NAT模式。除此之外，还有虚拟机的桥接模式。

桥接模式(Bridged)

网上一图搞懂桥接模式。

VMnet0是虚拟机使用的虚拟交换机，而不是虚拟网卡。每台使用桥接模式的虚拟机都有虚拟网卡（如eth0，eth1等），这些虚拟网卡连接到虚拟交换机VMnet0。

桥接模式完全使用主机网卡（WLAN或以太网）的网络配置，因此网关，掩码，DNS要和主机网卡一致。查看主机网卡配置可以直接在设置/网络和Internet设置/更改适配器选项里面查看，或者在cmd下运行ipconfig。

在开启虚拟机之前右击虚拟机(如hadoop01)来更改网络适配器，网络连接选择桥接模式。

然后进入虚拟机之后，CentOS7有这样一个文件/etc/sysconfig/network-scripts/ifcfg-Wired_connection_1 ，对linux网络设置下的更改将写到这个文件中，也可以直接在这个文件中进行配置，我的配置是下面的。

HWADDR=00:0C:29:D1:E3:E6
TYPE=Ethernet
BOOTPROTO=none
IPADDR=192.168.43.101  #我的手机热点分配的子网是.43
PREFIX=24
GATEWAY=192.168.43.1  
DNS1=192.168.43.1
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME="Wired connection 1"
UUID=e49eff42-9137-3e8c-b97d-a03be7023104
ONBOOT=yes

配置完成之后重启网络服务，应该就可以ping通网络了。

1 2	systemctl stop NetworkManager.service systemctl restart network.service

如果这个时候不能成功，可能就是VMware/编辑/虚拟网络编辑器的设置有问题。

看到了桥接到 这几个字，不要选自动。上面我们看到windows下WLAN使用Intel(R) Dual Band Wireless-AC 7265 无线网卡，由于我的电脑目前连接的是手机热点，应该使用无线网卡，所以这里选择第3项：Intel(R) Dual Band Wireless-AC 7265。

NAT模式（地址转换模式）

使用NAT只为一个原因：网络IP资源紧张

这张图比较好理解虚拟机和主机是如何部署虚拟机的NAT网络连接模式的。

主机网卡直接与虚拟NAT设备相连，然后虚拟NAT设备与虚拟DHCP服务器一起连接在虚拟交换机VMnet8上，所以即使禁用VMware Network Adapter VMnet8虚拟网卡，虚拟机也可以连接到外网，但是主机上的远程连接工具如secureCRT就无法连接到虚拟机了。

配置

首先配置windows下的设置/网络和Internet/，右击以太网或者WLAN，选择共享，然后勾住允许其他网络用户通过此计算机的Internet连接来连接，然后家庭网络连接选择VMware Network Adaper VMnet8，然后右击右击VMware Network Adaper VMnet8 虚拟网卡，双击Internet协议版本4(TCP/IP4)，然后就可以编辑VMware Network Adaper VMnet8的IP地址了，使用与主机不同的网段。

打开VMware，点击编辑/虚拟网络编辑器，选择NAT模式，然后编辑子网IP和子网掩码，NAT设置和DHCP设置。

NAT设置是为了编辑NAT虚拟设置对内端口，也就是虚拟机网关，的IP地址。DHCP设置是为了编辑自动分配IP地址的范围，可以不用配置DHCP设置，因为等下使用静态方式配置虚拟机IP，而不是DHCP模式。

接下来配置虚拟机的 /etc/sysconfig/network-scripts/ifcfg-ens33文件，

DEVICE="ens33"
BOOTPROTO="static"
HWADDR="00:0C:29:FB:15:6B"
ONBOOT="yes"
IPADDR="192.168.137.102"
TYPE="ETHERNET"
NETMASK="255.255.255.0"
GATEWAY="192.168.137.2"
DNS1="8.8.8.8"

为什么使用BOOTPROTO=static，因为要记录每台主机的主机名与IP的映射关系，如果使用DHCP模式，那么主机的IP就会总是变化。

然后重启网络服务，就可以ping通外网了（虽然实际上，总会有那么一段玄学时间，ping不通baidu，却可以ping通网关）。

关闭防火墙

如果不关闭虚拟机上的防火墙，可能从外面Ping不同虚拟机。

1 2	systemctl stop firewalld.service #关闭防火墙 systemctl disable firewalld.service #禁止防火墙开机启动

修改主机名

vi /etc/sysconfig/network
#修改为
NETWORKING=yes
HOSTNAME=hadoop01 #如果主机名起为hadoop01

1
2
3

vi /etc/hostname
#修改为
hadoop01  #如果主机名起为hadoop01

hadoop伪分布式

hadoop伪分布式就是在一台主机上安装5台虚拟机，然后同时开启所有虚拟机，就可以运行mapreduce。5台主机使用NAT模式进行网络连接。首先配置hadoop01虚拟机，然后再拷贝到hadoop02-04。

单一主机的配置

环境变量

通过secuerFX把windows下的jdk1.8.0_144, hadoop2.7.2传到虚拟机上，安装jdk和hadoop。

把jdk解压到/home/app下：

1	tar -zxvf jdk-8u144-linux-x64.tar.gz -C /home/app

然后改jdk1.8.0_144文件夹名为jdk1.8

添加JAVA环境变量：

vi /etc/profile
#在最后添加
export JAVA_HOME=/home/app/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
#保存退出
source /etc/profile

把hadoop解压到/home/app下：

1	tar -zxvf hadoop-2.7.2.tar.gz -C /home/app

添加HADOOP的环境变量：

vi /etc/profile
#在最后添加
export HADOOP_HOME=/home/app/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/etc/hadoop/bin
export PATH=$PATH:$HADOOP_HOME/etc/hadoop/sbin
#保存退出
source /etc/profile

然后进入/home/app/hadoop-2.7.7/ 文件夹，这是hadoop的根目录，进行相关文件的配置。

hadoop-env.sh

etc/hadoop/hadoop-env.sh 的配置

1	#修改JAVA_HOME为 /home/app/jdk1.8

core-site.xml

etc/hadoop/core-site.xml 的配置

# configuration元素的配置
<configuration>
<!--配置namenode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!--配置hadoop运行产生的文件存放的位置-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/app/data/tmp</value>
</property>
</confifuration>

由于配置了hadoop运行产生的文件存放的位置是/home/app/data/tmp，所以要创建此文件夹。

hdfs-site.xml

etc/hadoop/hdfs-site.xml 的配置

<configuration>
<!--如果不配置这个元素为false，在windows下运行mapreduce会出现permission denied的错误-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<!--制定副本数量-->
<property>
<name>dfs.replication</name>
<value>5</value>
</property>
<!--配置secondarynamenode的地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop003:50090</value>
</property>
<!--配置namenode的文件存放地方-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/app/data/name</value>
</property>
<!--配置datanode的文件存放地方-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/app/data/data</value>
</property>
</configuration>

看到这里namenode和datanode的文件存放地方，所以我们要提前mkdir这个对应的文件夹。

在namenode的主机（在哪台主机运行bin/hdfs namenode -format哪台就是namenode）创建/home/app/data/name和/home/app/data/data和/home/app/data/tmp 3个文件。

在5台datanode创建：/home/app/data/data和/home/app/data/tmp2个文件。

yarn-site.xml

etc/hadoop/yarn-site.xml 的配置

<configuration>
<!--配置reduce的获取方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--配置yarn的resourcemanager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop02</value>
</property>
</configuration>

etc/hadoop/yarn-env.sh 的配置

1	#修改JAVA_HOME 为 /home/app/jdk1.8

mapred-site.xml

将 etc/hadoop/mapred-site.xml.template改为etc/hadoop/mapred-site.xml，然后配置

<configuration>
<!--配置MapReduce在yarn上运行-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<!--配置历史服务器-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop01:10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop01:19888</value>
</property>
</configuration>

slaves

配置datanode有哪些, vi etc/hadoop/slaves

hadoop01
hadoop02
hadoop03
hadoop04
hadoop05

说明5个主机都是namenode。

hosts

在etc/hosts中配置5台虚拟机的名字与ip的映射关系。追加

192.168.137.101 hadoop01
192.168.137.102 hadoop02
192.168.137.103 hadoop03
192.168.137.104 hadoop04
192.168.137.105 hadoop05

拷贝到所有主机

将hadoop01拷贝到hadoop02-05：在VMware/hadoop01(右击)/管理/克隆。然后在hadoop02-05更改相关的配置：/etc/sysconfig/network，/etc/sysconfig/network-scripts/ifcfg-ens33，/etc/hostname，都是修改主机名和IP地址。

ssh免密登录

为了使虚拟机之间，顺利通信，需要设置ssh免密登录，表现就是在第一次配置的时候需要输入每个主机的密码，但是之后就不需要了。

由于在5台虚拟机上配置ssh的操作完全一样，所有我们打开secureCRT，连接到所有主机，然后在下面的空白板右击，选择发送到所有会话，然后就可以在下面写命令，然后所有虚拟机都执行。

ssh-keygen #生成公钥和私钥
ssh-copy-id 192.168.137.101
ssh-copy-id 192.168.137.102
ssh-copy-id 192.168.137.103
ssh-copy-id 192.168.137.104
ssh-copy-id 192.168.137.105

cd ~/.ssh ls 可以看到下面的文件：

authorized keys #可以登录的机器名
id_sra #私钥
id_rsa.pub #公钥
known_hosts #可登录的机器ip

ssh 192.168.137.102或者ssh hadoop02 可以登录到hadoop02

scp [要发送的文件地址] [ip | 主机名]:文件夹地址
发送文件到另外一台主机

启动

接下来，启动hdfs集群，在hadoop01的/home/app/hadoop-2.7.2下：

1 2	bin/hdfs namenode -format #在哪台虚拟机上运行，哪台虚拟机就是namenode sbin/start-dfs.sh

这样的话，namenode和datanode就在所有虚拟机上的对应主机启动起来了，虽然只在hadoop01运行了上述命令，但是影响到了全部5个主机，因为配置文件制定5个虚拟机要干什么，然后通过虚拟机主机名找到ip地址，然后通过ssh与其他主机通信，打开对应的进程。

由于在yarn-site.xml中配置了hadoop02是resource manager，所以，在hadoop02那里运行

1	sbin/start-yarn.sh

这样，resource manager和node manager就在5台虚拟机的对应主机上启动了。

在每台主机上输入下面的命令，可以看到哪些进程在运行。比如，hadoop01就应该有namenode, datanode, node manager, 在hadoop02上就应该有datanode, node manager, resource manager

jps

在windows下的浏览器那里输入:

1	192.168.137.101:50070

可以查看hdfs的运行情况。

hadoop分布式配置

与伪分布式配置完全一样，但是由于要5台不同主机上的虚拟机进行通信，所以不能使用NAT网络连接模式，因为你不能从一个内网ping另一个内网，因此要配置虚拟机为桥接网络连接模式，然后对应地更改相关配置。

运行mapreduce项目

环境

windows下安装jdk1.8.0_144和hadoop-2.7.2的windows10下编译好的包。然后配置JAVA_HOME和HADOOP_HOME，以及一些环境变量。

IntelliJ IDEA

安装IntelliJ IDEA。

在IDEA上创建maven项目，如上图所示，后面自己起个项目名字，如SNS。然后在右下角点击enable auto import。

然后编写pom.xml，pom.xml在/SNS/下，/SNS/下面还有.idea，src，targe，SNS.iml。pom.xml是为了指定

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.icss</groupId>
    <artifactId>hmap</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <!-- 导入单元测试依赖-->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>

        <!--导入日志依赖-->
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>

        <!-- 导入hadoop相关的依赖-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>

    </dependencies>
</project>

由于上面点击了enble auto import，然后又在pom.xml里面指定了一些hadoop的包，然后IDEA就可以自动从maven上下载相应的hadoop包，等待一会就好了。

wordcount程序

上面是这个IDEA maven项目的大致结构，但是我不知道这些resources里面的文件是干嘛的。下面是所有程序。

//WordCountMap
package com.icss;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMap extends Mapper<LongWritable,Text,Text,IntWritable>{
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    @Override
    protected void map(LongWritable key, Text value, Context context)
        throws IOException, InterruptedException {
        //1. 获取一行内容
        String line = value.toString();
        //2. 切分单词
        String[] words = line.split(" ");
        //3. 输出
        for(String word:words){
            k.set(word);
            context.write(k,v);
        }
    }
}

//WordCountCombine
package com.icss;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountCombine extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key,Iterable<IntWritable> values,Context context)
            throws IOException, InterruptedException {
        //最后汇总
        int count = 0;
        for (IntWritable value: values ) {
            count+=value.get();
        }
        //输出
        context.write(key,new IntWritable(count));
    }
}

//WordCountReduce
package com.icss;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable,Text,IntWritable> {
    int sum;
    IntWritable v =new IntWritable();
    @Override
    protected void reduce(Text key,Iterable<IntWritable> values,Context context)
            throws IOException, InterruptedException {
        //1.累加
        sum=0 ;
        for(IntWritable count: values){
            sum+= count.get();
        }
        //2.输出
        v.set(sum);
        context.write(key,v);
    }
}

//WordCountDriver
package com.icss;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException,InterruptedException, ClassNotFoundException {
        //1. 获取配置信息和封装job任务
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        //2. 设置jar加载路径
        job.setJarByClass(WordCountDriver.class);
        //3. 设置map类和reduce类的路径
        job.setMapperClass(WordCountMap.class);
        job.setReducerClass(WordCountReduce.class);
        //4. 设置mapper的输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //5. 设置reduce的输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //开启局部合并
        job.setCombinerClass(WordCountCombine.class);
        //6. 设置输入和输出的路径
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        //7. 提交任务
        Boolean result = job.waitForCompletion(true);
        System.exit(result?0:1);
    }
}

<--core-site.xml-->
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <!--配置NameNode地址组装成集群-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop01:9000</value>
    </property>
    <!--指定hadoop运行产生的文件的存储目录-->
    <property>
       <name>hadoop.tmp.dir</name>
       <value>/home/app/data/tmp</value>
    </property>

</configuration>

<---hdfs-site.xml-->
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>

    <!--指定免密码登录的文件 -->
    <property>
      <name>dfs.ha.fencing.ssh.private-key-files</name>
      <value>.ssh/id_rsa</value>
    </property>
    <property>
	<name>dfs.journalnode.edits.dir</name>
  	<value>/home/app/data</value>
    </property>


    <!--指定副本的数量-->
    <property>
        <name>dfs.replication</name>
        <value>5</value>
    </property>
    <!--开启自动故障转移-->
    <property>
    	<name>dfs.ha.automatic-failover.enabled</name>
   	<value>true</value>
    </property>
</configuration>

log4j.properties

log4j.rootLogger=INFO,stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

为了运行这个mapreduce代码，要制定输入参数，也就是main函数的参数，在通过下面的方式指定。两个参数分别是输入文件和输出文件夹地址，这两个都是hadoop01虚拟机底下的文件夹，注意：输入文件夹里面不能有文件夹，只能有文件。

我们已经打开了所有的虚拟机的datanode, namenode, 各种manager，已经配置好了IDEA maven项目，然后在上面的输入文件夹里面加入一些文件，比如/input/word.txt，就可以运行这个项目了，可以在/wordcount/里面产生part-t-00000文件，里面是结果。

查看结果

可以在hadoop01虚拟机里的/home/app/hadoop-2.7.2/下运行：

1	bin/hdfs dfs -cat hdfs://dadoop01:9000/wordcount/part-r-00000

就可以查看wordcount结果。在这里，我们也可以看到hdfs命令与linux命令基本一致，如hdfs dfs -cat和 cat。

概述