Trex-Group / trex-bigdata

11 stars 6 forks source link

[Yarn]结合WordCountRemote的例子详细讲解一下yarn的architecture #34

Open LiuMing5489 opened 7 years ago

LiuMing5489 commented 7 years ago

能不能选个时间, 结合一个实际的例子(WordCountRemote?) 更深入讲解一下yarn的architecture※。 ※ https://i.stack.imgur.com/1NXUp.png

■背景 1.从0.23.0?开始,hadoop框架由 JobTracker,TaskTracker的结构升级为 ResourceManager,NodeManager,ApplicationMaster。

2.第二课的WordCountRemote作业还有一些疑问. 比如说 ・既然jar文件是拷贝到hdfs系统中运行。但是总感觉java程序和各个manager还是有通讯。 ・core-site.xml,yarn-site.xml等设定文件在hdfs-servser里面已经有设定。为什么在resource文件夹下面还要在配置一份。 ・等等。。

LiuMing5489 commented 7 years ago

补足: 对于第二节课的WordCountRemote的例子。 做了如下实验。

环境: WordCount.java ... 本地Eclipse,非Hadoop-develop Hadoop ... Hadoop-server

<实验1> 操作: 删除本地Eclipse环境中Resource文件夹下的所有xml文件。 注释//job.setJar("develop.jar"); 不生成jar文件,执行WordCount.java 执行成功(hadoop fs -ls 查看Hadoop-server里output文件存在)

疑问1: 客户端(WordCount.java )是如何判断各个node, manager的地址的(根据WordCount.java的启动参数?)

疑问2: 老师例子里的jar文件的用途?

xenron commented 7 years ago

下面链接是Hadoop 2.x版本的Map-Reduce说明 http://stackoverflow.com/questions/34709213/hadoop-how-job-is-send-to-master-and-to-nodes-on-mapreduce

datanode的信息,是通过namenode得到的。 但是namenode的信息需要提前配置,否则无法连接成功。