Closed haoawesome closed 10 years ago
http://book.douban.com/review/6131027/ 大数据时代从入门到全面理解. 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密.
http://www.douban.com/note/247983915/ 数据科学家
http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例
http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例
http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例
http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 大数据入门讲义
To answer 从零开始学习大数据的路径是怎样的,有哪些参考书籍和资料? http://www.zhihu.com/question/21613891
人人学编程-大数据技术概述和入门 http://ke.qq.com/cgi-bin/courseDetail?course_id=1420
课程大纲:
大数据技术出现的原因
大数据的概念
大数据的应用
大数据的有关技术
大数据的工作状况
大数据技术的学习路径和学习资源推荐
授课老师: 袁科,毕业于武汉大学计算机系,8年大数据系统的设计和开发经验,负责完美世界大数据系统的实践,帮助一些大的互联网公司提供大数据服务和咨询。
大数据入门:各种大数据技术介绍 http://www.aboutyun.com/thread-7569-1-1.html
1.hadoop都包含什么技术 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性 3.Spark与hadoop的关联是什么? 4.Storm与hadoop的关联是什么?
Big Data Glossary(大数据入门书籍) 大数据入门指导图书,主要讲解大数据处理技术及工具,内容涵盖了NoSql Database,各种MapReduce,Storage,Servers,数据清理阶段工具,NLP库与工具包,Machine learning机器学习工具包,数据可视化工具包,公共数据清洗,序列化指南等等。
有点老,不过重点推荐 http://download.bigbata.com/ebook/oreilly/books/Big_Data_Glossary.pdf
Big Data For Dummies http://it-ebooks.info/book/2082/
小象学院 - Hadoop,Spark大数据教育平台—— Hadoop培训,Spark培训,HBase培训,Hive培训,Mahout培训等
coursera上的公开课 Introduction to Data Science https://class.coursera.org/datasci-001
Part 0: Introduction
Examples, data science articulated, history and context, technology landscape
Part 1: Data Manipulation at Scale
Databases and the relational algebra
Parallel databases, parallel query processing, in-database analytics
MapReduce, Hadoop, relationship to databases, algorithms, extensions, languages
Key-value stores and NoSQL; tradeoffs of SQL and NoSQL
Part 2: Analytics
Topics in statistical modeling: basic concepts, experiment design, pitfalls
Topics in machine learning: supervised learning (rules, trees, forests, nearest neighbor, regression), optimization (gradient descent and variants), unsupervised learning
Part 3: Communicating Results
Visualization, data products, visual data analytics
Provenance, privacy, ethics, governance
Part 4: Special Topics
Graph Analytics: structure, traversals, analytics, PageRank, community detection, recursive queries, semantic web
Guest Lectures
[实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 http://www.weibo.com/5220650532/BimdAmKqK?ref=
http://www.weibo.com/5220650532/BimdAmKqK?mod=weibotime#_rnd1408112738664
蒋凡Baidu:大数据进阶方案,偏理想了些。实际上面临的更多问题不是这样按部就班发展,而是在整条业务线上同时存在不同发展阶段的大数据工具的不完善与紧迫的业务需求之间不适应的矛盾。 (今天 08:54)
朝花夕拾录:现在每个码农的聚会上,群里都拿大数据调侃,就跟当年云计算一样。要增加谈资,可以看看原文的案例资源。另外,真正实战的还在少数。说个不成熟的想法:这个攻略主要帮助大家理清思路,顺序倒还是其次,都是选修课。学统计的可以直接上R,spark,干系统的得玩docker, java,hive, (今天 10:32)
猴山寨主找夫人:这个是大致的学习思路。有业务需求当然就是按照自己的需求来了。 (今天 12:31)
整理稿: https://github.com/memect/hao/blob/master/awesome/learn-big-data.md
基本思路:大数据是一个内涵非常广泛的概念,以前称为统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,存储,可视化等等诸多领域的方法均可列入大数据的范畴.更详细的领域列表可以见Github上的Awesome Big Data
https://github.com/onurakpolat/awesome-bigdata
大多数大数据技术其实对于普通的个人和中小企业并不需要全部涉猎.学习大数据技术前最好先有"小数据"(内存和单机硬盘就能解决的数据)处理经验.盲目上大数据技术不仅浪费学习时间,也会不必要地提高后期运营成本.最好是从业务出发,逐步提升.
核心最重要的一些技术网上一些课程,如coursera和小象学院都有提供.这里我们列一个极简版,面向的是以Excel为基础,目的是解决普通数据处理任务(也就是,不是Google,淘宝那样大规模)的用户.
第0级:Excel和简单图表
第1级:关系数据库和SQL语言,如Access和MySQL ,了解最基础的数据库知识
第2级:学一点基础的编程,推荐Python/R,Java也可以,最基本的知识就可以
第3级:学会在程序中访问数据库,做一些结合业务的分析
第4级:如果有速度,容量的要求,学一个NoSQL数据库,比如redis,mongodb,neo4j,elasticsearch.不需要都学,根据业务需要选择一个常用的就可以了.
第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现
第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3
第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR)
第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop.
这时候恭喜你,在任何一个"大数据群"都可以指点江山了.