ddxygq / ddxygq.github.io

柯广的博客
http://www.ikeguang.com/
0 stars 0 forks source link

maprecue将两类ip分类去重并且输出到不同目录文件中 | 柯广的博客 #108

Open ddxygq opened 4 years ago

ddxygq commented 4 years ago

http://www.ikeguang.com/2019/03/23/mr-output-difffile/

有一份含有两类ip的数据,根据一个字段标记来区分,现在需要将去重,两类Ip分类保存到不同文件中,第三类数据舍弃。 主要知识点: 自定义分区:继承Partitoner类,重写getPartitoin()方法; List item 多路径输出:MultipleOutputs类的用法;