icsnju / I2EC

3 stars 0 forks source link

大数据培训大纲 #2

Open caochun opened 5 years ago

yuping-nju commented 5 years ago

过了一遍厦大的课程讲义,正在完成几个大实验,挑选合适的或者改造已有的作为贯穿培训的项目实践。

yuping-nju commented 5 years ago

案例说明:利用用户购物数据集,分析预测回头客。涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用方法。

实验环境:

  1. macOS Mojava 10.14.3
  2. Java 1.8.0_144
  3. MySQL Ver 8.0.15 for macos10.14 on x86_64 (mysql-connector-java-8.0.15.jar)
  4. Hadoop 2.7.4 (安装模式:单节点伪分布式)
  5. Hive 2.3.4
  6. Sqoop 1.4.7
  7. Spark 2.2.1

数据集:

  1. user_log.csv(3000万条) -> small_user_log.csv (10000条)
  2. train.csv ->train_after.csv(剔除掉字段值为空的数据,保存10000条)
  3. test.csv ->test_after.csv (把label字段表示-1值剔除掉,保留需要预测的数据.并假设需要预测的数据中label字段均为1,保存10000条)

任务:

  1. 对原始数据集进行预处理(完成)
  2. 把数据集导入到数据仓库Hive中(完成)
  3. 对数据仓库Hive中的数据进行查询分析(完成)
  4. 使用Sqoop将数据从Hive导入MySQL(完成)
  5. 利用Spark MLlib进行回头客行为预测(完成)
  6. 搭建动态Web应用(未完成,可选)
  7. 利用ECharts进行前端可视化分析(未完成,可选)

TODO:

在集群里测试完整数据集 @wdongyu

yuping-nju commented 5 years ago

案例说明:网站用户行为分析。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖MySQL、Hadoop、HBase、Hive、Sqoop、R等系统和软件的安装和使用方法。

实验环境

  1. macOS Mojava 10.14.3
  2. Java 1.8.0_144
  3. MySQL Ver 8.0.15 for macos10.14 on x86_64 (mysql-connector-java-8.0.15.jar)
  4. Hadoop 2.7.4 (安装模式:单节点伪分布式)
  5. Hive 2.3.4
  6. Sqoop 1.4.7
  7. HBase 1.4.9
  8. R 3.5.3 (for macOS)

数据集

  1. raw_user.csv(包含2000万条记录)
  2. small_user.csv (只包含30万条记录)
  3. small_user.csv -> user_table.txt (随机生成省份信息)

任务

  1. 对文本文件形式的原始数据集进行预处理(完成)
  2. 把文本文件的数据集导入到数据仓库Hive中(完成)
  3. 对数据仓库Hive中的数据进行查询分析(完成)
  4. 使用Sqoop将数据从Hive导入MySQL(完成)
  5. 使用Sqoop将数据从MySQL导入HBase(完成)
  6. 使用R对MySQL中的数据进行可视化分析(完成)

TODO

在此基础上重新设计案例,侧重算法实践

yuping-nju commented 5 years ago

培训大纲(拟)

第一部分:Hadoop基本架构

第二部分:MapReduce基础理论和编程

第三部分:Spark基础理论和编程

第四部分:Spark高级编程

第五部分:云计算和大数据

yuping-nju commented 5 years ago

实践案例(拟)

基本需求:利用用户购物数据集,分析预测回头客。涉及数据预处理、存储、查询、排序、统计和可视化分析等数据处理全流程所涉及的各种典型应用场景,涵盖Hadoop、MapReduce、Spark、Hive、HBase、Sqoop、MySQL等系统和软件的安装和使用方法。培养MapReduce和Spark的编程能力,并尝试应用机器学习算法,以及数据可视化。

数据集:淘宝用户购物数据集(半年内,包含双11)

实验环境:

任务:

yuping-nju commented 5 years ago

@wdongyu 请在集群上完成上述案例,有疑问及时讨论,也可以自己扩展实验。

yuping-nju commented 5 years ago

@caochun 请批评指正!