数据挖掘算法 - Githubissues

1.分类/预测：决策树算法
　　
　　面向有规则问题时的有效方法，能发现数据中淹没的潜��
�则。对于分类记录或预测离散结果，决策树是首选。同时，�
��策树比其他技术需要的数据准备更少，几乎在每个数据挖掘
工程中都会被用到。
　　
　　尽管建树的算法有多种变体，建成的树的形态与效率也��
�差别，但具有相同的基本过程，即相对于目标变量而言，每�
��新生节点比其原生节点有更好的纯度。只要达到这个目标，
多次迭代后总会得到对数据集的一个划分。
　　
　　最佳拆分方式的度量：降低发散性，提高纯度。目前的��
�度度量有基尼、熵、信息增益率和卡方等。使用基尼准则建�
��的树更倾向于产生两个纯度都较高的子节点的拆分，而不是
一个更纯的加上一个大而不是很纯的子节点的拆分。熵准则��
�倾向于纯度，即时得到的节点很小。因此熵准则适合于确有�
��晰的潜在规则的领域，对市场营销这类模糊领域，会导致不
稳定的树。
　　
　　决策树的年轮图是很酷的表示方法，能够应用在商业环��
�中。
　　
　　2.预测/分类/聚类：人工神经网络
　　
　　训练网络的过程实际上是内部调整权重的过程
　　过拟合：在验证集上，较早几代往往比最终网络更好
　　前馈网络中要明确的核心问题：激活函数是什么、网络��
�扑、反向传播是什么
　　隐藏层越宽，识别模式的能力越强。副作用是网络可能��
�记住某一种模式，我们需要网络从训练集中总结，而不是记�
��模式。
　　反向传播网络的最优化算法：爬山和模拟退火。危险在��
�陷入局部最优
　　神经网络是不透明的，我们无法了解他如何工作，灵敏��
�分析可以帮助我们观测这个网络(很有意思)
　　
　　3.推荐与推理：最近邻(协同过滤)
　　这种算法是一种MBR(Memory-based 
reasoning)，它能够适应不断加入的新数据，但同时也是数据贪�
��者，需要大量历史数据
　　
　　4.关联规则
　　三个判定规则：置信度、提升度和否定规则
　　
　　5.链接分析：就是图论，欧拉图和哈密顿图的应用。Pagera
nk应该放在这部分，不过书中没讲。
　　
　　6.自动聚类：k均值和GMM
　　
　　7.市场营销中的风险函数和生存分析
　　客户行为的重要指标：保有期tenure，客户曾经多久为我��
�提供了很多信息。客户半衰期：用衰变曲线解读客户。
　　风险的定义：假设用户已经保有t时间，其在t+1之前离开�
��概率
　　常用模型：浴缸型函数
　　
　　8.遗传算法：通过进化实现最优化的强力技术，显然可以
用来训练神经网络。进化功能的关键参数：基因组、适应度��
�数
　　
　　9.一个数据挖掘团队需要的知识体系
　　RDBMS技能（SQL）
　　工具与编程（SAS、SPSS...）
　　统计学
　　机器学习技能
　　行业知识
　　数据可视化技能
　　访问及需求收集技能
　　展示、写作与沟通
Original issue reported on code.google.com by JakungY...@gmail.com on 22 Feb 2011 at 5:29
zephyrer / contactmanagement

数据挖掘算法 #5