Hadoop学习路上的那些事儿，继续分享

（图片来自网络）

什么是yarn

简单的说，就是Hadoop中的一个资源管理器，由ResourceManager和NodeManager构成。

一言不合上官网，https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

实验过程

实验准备：

1. 开通一台云主机，此实验采用的是移动云云主机

2. 确保JDK安装正确，环境变量配置无误

3. 确保Hadoop安装正确，环境变量配置无误

4. 确保HDFS各种配置正确，同时正常启动

步骤一：配置两个核心配置文件

配置etc/hadoop/mapred-site.xml。需要注意的是，该目录下有一个mapred-site.xml.template文件，这是一个模板文件，需要把名字修改为mapred-site.xml，然后添加如下配置代码。

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

配置etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

步骤二：启动yarn进程

实际上启动了ResourceManager和NodeManager两个守护进程。

sbin/start-yarn.sh

如果在此步骤启动不成功，提示JAVA_HOME没有设置或者未发现的错误信息，可通过手动配置mapred-env.sh文件中的JAVA_HOME，以及yarn-env.sh文件中的JAVA_HOME.

步骤三：验证结果，并操作yarn的dashboard页面

通过云主机公网IP加8088端口，在浏览器中打开yarn的dashboard页面，如36.255.67.89:8088，如果能够成功打开页面，说明yarn启动成功。

由于目前是刚启动，没有任何job作业在跑，所以页面显示无数据。继续使用hadoop自带的example功能，测试一下效果。

确保HDFS启动，并且有input输入文件，该文件下也有实验数据，如果有output文件存在，需要删除，否则会报错。

bin/hdfs dfs -rm -r output
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input/ output/ 'dfs[a-z.]+'
bin/hdfs dfs -cat output/*

刷新yarn的dashboard页面，就会发现有处理的数据了。

实验完成后，可以停止yarn，以及dfs进程。

sbin/stop-yarn.sh
sbin/stop-dfs.sh

实验总结

1） HDFS解决了数据的分布式存储，比如input和output中的数据，默认是3副本。

2） YARN解决了MapReduce处理数据过程的资源管理，将MapReduce的job作业进行了分布式。

遗留一个问题：上面两个配置文件中，配置了一堆变量，如HADOOP_MAPRED_HOME, HADOOP_COMMON_HOME, HADOOP_HDFS_HOME等，个人还没搞清楚，这些变量是在哪里配置的，只手动配置过JAVA_HOME和HADOOP_HOME。

相关推荐

自学Python，写一个挨打的游戏代码来初识While循环: 自学Python的第11天。旋转~跳跃~，我~闭着眼！学完循环,沐浴着while的光芒，闲来无事和同事一起扯皮,我说：“编程语言好神奇,一个小小的循环，竟然在生活中也可以找到原理和例子”，同事也...

常用的 Python 工具与资源，你知道几个?: 最近几年你会发现，越来越多的人开始学习Python，工欲善其事必先利其器，今天纬软小编就跟大家分享一些常用的Python工具与资源，记得收藏哦！不然下次就找不到我了。1、PycharmPychar...

一张思维导图概括Python的基本语法, 一周的学习成果都在里面了: 一周总结不知不觉已经自学Python一周的时间了,这一周,从认识Python到安装Python,再到基本语法和基本数据类型,对于小白的我来说无比艰辛的,充满坎坷。最主要的是每天学习时间有限。只...

三日速成python?打工人，小心钱包，别当韭菜: 随着人工智能的热度越来越高，许多非计算机专业的同学们也都纷纷投入到学习编程的道路上来。而Python，作为一种相对比较容易上手的语言，也越来越受欢迎。网络上各类网课层出不穷，各式广告令人眼花缭乱。某些...

Python自动化软件测试怎么学?路线和方法都在这里了: Python自动化测试是指使用Python编程语言和相关工具，对软件系统进行自动化测试的过程。学习Python自动化测试需要掌握以下技术：Python编程语言：学习Python自动化测试需要先掌握Py...

Python从放弃到入门:公众号历史文章爬取为例谈快速学习技能: 这篇文章不谈江流所专研的营销与运营，而聊一聊技能学习之路，聊一聊Python这门最简单的编程语言该如何学习，我完成的第一个Python项目，将任意公众号的所有历史文章导出成PDF电子书。或许我这个Py...

【黑客必会】python学习计划: 阅读Python文档从Python官方网站上下载并阅读Python最新版本的文档（中文版），这是学习Python的最好方式。对于每个新概念和想法，请尝试运行一些代码片段，并检查生成的输出。这将帮助您更...

公布了!2025CDA考试安排: CDA数据分析师报考流程数据分析师是指在不同行业中专门从事行业数据搜集、整理、分析依据数据作出行业研究评估的专业人员CDA证书分为1-3级，中英文双证就业面广，含金量高!!?报考条件:满18...

一文搞懂全排列、组合、子集问题(经典回溯递归): 原创公众号：【bigsai】头条号：程序员bigsai前言Hello，大家好，我是bigsai，longtimenosee！在刷题和面试过程中，我们经常遇到一些排列组合类的问题，而全排列、组合...

「西法带你学算法」一次搞定前缀和: 我花了几天时间，从力扣中精选了五道相同思想的题目，来帮助大家解套，如果觉得文章对你有用，记得点赞分享，让我看到你的认可，有动力继续做下去。467.环绕字符串中唯一的子字符串[1](中等)795.区...

平均数的5种方法，你用过几种方法?: 平均数，看似很简单的东西，其实里面包含着很多学问。今天，分享5种经常会用到的平均数方法。1.算术平均法用到最多的莫过于算术平均法，考试平均分、平均工资等等，都是用到这个。=AVERAGE(B2:B11...

【干货收藏】如何最简单、通俗地理解决策树分类算法?: 决策树（Decisiontree）是基于已知各种情况（特征取值）的基础上，通过构建树型决策结构来进行分析的一种方式，是常用的有监督的分类算法。决策树算法是机器学习中的一种经典算法，它通过一系列的规则...

面试必备:回溯算法详解: 我们刷leetcode的时候，经常会遇到回溯算法类型题目。回溯算法是五大基本算法之一，一般大厂也喜欢问。今天跟大家一起来学习回溯算法的套路，文章如果有不正确的地方，欢迎大家指出哈，感谢感谢~什么是回溯...

「机器学习」决策树——ID3、C4.5、CART(非常详细): 决策树是一个非常常见并且优秀的机器学习算法，它易于理解、可解释性强，其可作为分类算法，也可用于回归模型。本文将分三篇介绍决策树，第一篇介绍基本树（包括ID3、C4.5、CART），第二篇介绍Ran...

大话AI算法: 决策树: 所谓的决策树算法，通俗的说就是建立一个树形的结构，通过这个结构去一层一层的筛选判断问题是否好坏的算法。比如判断一个西瓜是否好瓜，有20条西瓜的样本提供给你，让你根据这20条（通过机器学习）建立起...

3.大数据系列之Hadoop Yarn初探

Hadoop学习路上的那些事儿，继续分享

什么是yarn

实验过程

实验总结

相关推荐

在.net core中使用nginx做负载均衡

React 18 超全升级指南

LTUI v1.7 发布，一个基于 Lua 的跨平台字符终端 UI 界面库

生成对抗网络(GAN)的半监督学习

《若依ruoyi》第二十五章:Spring boot 上传下载封装详解二

QT进阶之路 : 布局详解

如何在 Element UI 中使用栅格布局实现响应式设计?

IDEA 中 Jetty 的配置操作手册 idea jfinal

如何在Dify平台上创建智能Agent:一步步教你实现超级智能体搭建

k8s自动化运维三