memect / hao

好东西传送门
1.4k stars 463 forks source link

@猴山寨主找夫人 请问是否能提供一个入门级的大数据指导方案 #33

Closed haoawesome closed 9 years ago

haoawesome commented 9 years ago

整理稿: https://github.com/memect/hao/blob/master/awesome/learn-big-data.md

基本思路:大数据是一个内涵非常广泛的概念,以前称为统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,存储,可视化等等诸多领域的方法均可列入大数据的范畴.更详细的领域列表可以见Github上的Awesome Big Data

https://github.com/onurakpolat/awesome-bigdata

大多数大数据技术其实对于普通的个人和中小企业并不需要全部涉猎.学习大数据技术前最好先有"小数据"(内存和单机硬盘就能解决的数据)处理经验.盲目上大数据技术不仅浪费学习时间,也会不必要地提高后期运营成本.最好是从业务出发,逐步提升.

核心最重要的一些技术网上一些课程,如coursera和小象学院都有提供.这里我们列一个极简版,面向的是以Excel为基础,目的是解决普通数据处理任务(也就是,不是Google,淘宝那样大规模)的用户.

第0级:Excel和简单图表

第1级:关系数据库和SQL语言,如Access和MySQL ,了解最基础的数据库知识

第2级:学一点基础的编程,推荐Python/R,Java也可以,最基本的知识就可以

第3级:学会在程序中访问数据库,做一些结合业务的分析

第4级:如果有速度,容量的要求,学一个NoSQL数据库,比如redis,mongodb,neo4j,elasticsearch.不需要都学,根据业务需要选择一个常用的就可以了.

第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现

第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3

第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR)

第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop.

这时候恭喜你,在任何一个"大数据群"都可以指点江山了.

haoawesome commented 9 years ago

中文

http://book.douban.com/review/6131027/ 大数据时代从入门到全面理解. 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密.

http://www.douban.com/note/247983915/ 数据科学家

英文

http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例

http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例

http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例

http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 大数据入门讲义

haoawesome commented 9 years ago

To answer 从零开始学习大数据的路径是怎样的,有哪些参考书籍和资料? http://www.zhihu.com/question/21613891

haoawesome commented 9 years ago

人人学编程-大数据技术概述和入门 http://ke.qq.com/cgi-bin/courseDetail?course_id=1420

课程大纲:

大数据技术出现的原因
大数据的概念
大数据的应用
大数据的有关技术
大数据的工作状况
大数据技术的学习路径和学习资源推荐

授课老师: 袁科,毕业于武汉大学计算机系,8年大数据系统的设计和开发经验,负责完美世界大数据系统的实践,帮助一些大的互联网公司提供大数据服务和咨询。

haoawesome commented 9 years ago

大数据入门:各种大数据技术介绍 http://www.aboutyun.com/thread-7569-1-1.html

1.hadoop都包含什么技术 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性 3.Spark与hadoop的关联是什么? 4.Storm与hadoop的关联是什么?

haoawesome commented 9 years ago

Big Data Glossary(大数据入门书籍) 大数据入门指导图书,主要讲解大数据处理技术及工具,内容涵盖了NoSql Database,各种MapReduce,Storage,Servers,数据清理阶段工具,NLP库与工具包,Machine learning机器学习工具包,数据可视化工具包,公共数据清洗,序列化指南等等。

有点老,不过重点推荐 http://download.bigbata.com/ebook/oreilly/books/Big_Data_Glossary.pdf

haoawesome commented 9 years ago

Big Data For Dummies http://it-ebooks.info/book/2082/

haoawesome commented 9 years ago

http://www.chinahadoop.cn/

小象学院 - Hadoop,Spark大数据教育平台—— Hadoop培训,Spark培训,HBase培训,Hive培训,Mahout培训等

haoawesome commented 9 years ago

coursera上的公开课 Introduction to Data Science https://class.coursera.org/datasci-001

Part 0: Introduction

Examples, data science articulated, history and context, technology landscape

Part 1: Data Manipulation at Scale

Databases and the relational algebra 
Parallel databases, parallel query processing, in-database analytics 
MapReduce, Hadoop, relationship to databases, algorithms, extensions, languages  
Key-value stores and NoSQL; tradeoffs of SQL and NoSQL

Part 2: Analytics

Topics in statistical modeling: basic concepts, experiment design, pitfalls
Topics in machine learning: supervised learning (rules, trees, forests, nearest neighbor, regression), optimization (gradient descent and variants), unsupervised learning

Part 3: Communicating Results

Visualization, data products, visual data analytics 
Provenance, privacy, ethics, governance 

Part 4: Special Topics

Graph Analytics: structure, traversals, analytics, PageRank, community detection, recursive queries, semantic web
Guest Lectures
haoawesome commented 9 years ago

https://github.com/memect/hao/blob/master/awesome/learn-big-data.md

haoawesome commented 9 years ago

[实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 http://www.weibo.com/5220650532/BimdAmKqK?ref=

haoawesome commented 9 years ago

http://www.weibo.com/5220650532/BimdAmKqK?mod=weibotime#_rnd1408112738664

蒋凡Baidu:大数据进阶方案,偏理想了些。实际上面临的更多问题不是这样按部就班发展,而是在整条业务线上同时存在不同发展阶段的大数据工具的不完善与紧迫的业务需求之间不适应的矛盾。 (今天 08:54)

朝花夕拾录:现在每个码农的聚会上,群里都拿大数据调侃,就跟当年云计算一样。要增加谈资,可以看看原文的案例资源。另外,真正实战的还在少数。说个不成熟的想法:这个攻略主要帮助大家理清思路,顺序倒还是其次,都是选修课。学统计的可以直接上R,spark,干系统的得玩docker, java,hive, (今天 10:32)

猴山寨主找夫人:这个是大致的学习思路。有业务需求当然就是按照自己的需求来了。 (今天 12:31)