peteryuanpan / notebook

喜欢的,值得留念的,就记下来,总会有用的。
72 stars 43 forks source link

大数据学习问题记录 #214

Closed peteryuanpan closed 3 years ago

peteryuanpan commented 3 years ago

导读 1、大数据入门指南:https://github.com/heibaiying/BigData-Notes (有PDF可下载) 2、微内核设计模式:https://zhuanlan.zhihu.com/p/330097518

peteryuanpan commented 3 years ago

以下是大数据中的技术栈分类 可能有错,建议结合《数据密集型应用系统设计》这本书再看一看 如果学习时间有限,建议初次学习时候,同一类型的框架掌握一种即可

日志收集:Flume、Logstash、Filebeat 传统型存储:MySQL、Oracle、Redis、PolarDB、Doris 大数据存储:HBase、MongoDB 分布式文件存储:Hadoop HDFS 分布式计算-批处理:Hadoop MapReduce、Spark、Flink 分布式计算-流处理:Storm、Spark Streaming、Flink Streaming、Kafka 查询分析:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix 集群部署与监控:Ambari、Cloudera Manager 集群资源管理:Hadoop YARN 分布式协调:ZooKeeper 工作流调度:Azkaban、Oozie 数据迁移:Sqoop

peteryuanpan commented 3 years ago

doris资料收集

官方文档 https://doris.apache.org/master/zh-CN/installing/compilation.html github源码(Java)https://github.com/apache/incubator-doris Doris架构原理 https://www.cnblogs.com/tgzhu/p/14749968.html Apache Doris在美团外卖数仓中的应用实践 https://tech.meituan.com/2020/04/09/doris-in-meituan-waimai.html 百度AI开发者社区 https://ai.baidu.com/forum/topic/list/209 Doris在作业帮实时数仓中的应用与实践 https://ai.baidu.com/forum/topic/show/987769