Draymonders / Code-Life

The marathon continues though.
27 stars 3 forks source link

读书总结 《白话大数据与机器学习》 #35

Open Draymonders opened 4 years ago

Draymonders commented 4 years ago

好奇,捎带着理解一下概念,就看一下这书。权当为兴趣买单了。

前6章在讲 数学相关的基础,包括概率,分布,指标,信息熵之类的概念信息,并且举例进行介绍。 第7章讲向量(vector),因为向量是大数据与机器学习的基础。

Draymonders commented 4 years ago

硬核开启

回归

第八章讲回归,通俗理解就是给定一个自变量x, 给定一个因变量y 求关系f, 使得y = f(x)

具体小节有线性回归, 拟合,残差分析,过拟合以及欠拟合,曲线拟合转为线性拟合.

过拟合overfitting原因

  1. 样本数量太少,归纳出来的模型不具备泛化能力。
  2. 力求"完美", 对样本内的每个数据都希望拟合。

    欠拟合underfitting原因

  3. 参数过少。
  4. 拟合方法不对。 比如对于如下数据
    (1.05, 1)
    (1.41, 2)
    (1.7, 3)
    (2.1, 4)

    用一次函数不如用二次函数y = x^2来拟合效果更好

    小结

    从机器学习的角度来说,回归算法应该算作分类算法。它更像是人们先给了计算机一些样本,然后让计算机根据样本计算出一种公式或者模型,而在公式或者模型成立后,人们再给这个模型新的样本,他就可以把这个样本猜测或者说推断为某一分类。

Draymonders commented 4 years ago

聚类

Draymonders commented 4 years ago

分类

Draymonders commented 4 years ago

关联分析

寻找事物间内在关联的分析方法, 尤其是关于频繁项集的分析问题。

Draymonders commented 4 years ago

用户画像

Draymonders commented 4 years ago

推荐算法

基于用户的协同过滤(User-based CF)

基于商品的系统过滤(item-based CF)

Draymonders commented 4 years ago

文本挖掘

文本挖掘一般来说有以下7个主要的领域。 (1)搜索和信息检索(Information Search,IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。 (2)文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类。 (3)文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,通过训练来标记示例模型。 (4)Web挖掘:在互联网上进行数据和文本挖掘,并特别关注网络的规模和相互联系。 (5)信息抽取(Information Extraction,IE):从非结构化文本中识别与提取有关的事实和关系;从非结构化或半结构化文本中抽取出结构化数据的过程。 (6)自然语言处理(Natural Language Processing,NLP):将语言作为一种有意义、有规则的符号系统,在底层解析和理解语言的任务(如词性标注);目前的技术主要从语法、语义的角度发现语言最本质的结构和所表达的意义。 (7)概念提取:把单词和短语按语义分成意义相似的组。

Draymonders commented 4 years ago

神经网络

Draymonders commented 4 years ago

大数据处理框架

分为在线和离线, 在线就是实时处理,离线就是按照天,小时等时间跨度较大的单位进行数据处理

Hadoop生态

Draymonders commented 4 years ago

系统架构和调优

速度

一种是对一个”体型”较大的任务的执行时间过长不满, 一种是对一个“体型”较小的任务的响应速度过长不满

Draymonders commented 4 years ago

数据解读与数据的价值

AB测试

不知道a方案好还是b方案好时,找两组用户来进行测试。

灰度发布

用策略文件进行控制,仅对全网环境中的部分用户-可以是5%,10%也可以多一些,看一下用户反馈,如果反应良好就全网更新,如果差评如潮,那么回滚上个版本。

数据可视化