zephyrer / contactmanagement

Automatically exported from code.google.com/p/contactmanagement
0 stars 0 forks source link

数据挖掘算法 #5

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
1.分类/预测:决策树算法
  
  面向有规则问题时的有效方法,能发现数据中淹没的潜��
�则。对于分类记录或预测离散结果,决策树是首选。同时,�
��策树比其他技术需要的数据准备更少,几乎在每个数据挖掘
工程中都会被用到。
  
  尽管建树的算法有多种变体,建成的树的形态与效率也��
�差别,但具有相同的基本过程,即相对于目标变量而言,每�
��新生节点比其原生节点有更好的纯度。只要达到这个目标,
多次迭代后总会得到对数据集的一个划分。
  
  最佳拆分方式的度量:降低发散性,提高纯度。目前的��
�度度量有基尼、熵、信息增益率和卡方等。使用基尼准则建�
��的树更倾向于产生两个纯度都较高的子节点的拆分,而不是
一个更纯的加上一个大而不是很纯的子节点的拆分。熵准则��
�倾向于纯度,即时得到的节点很小。因此熵准则适合于确有�
��晰的潜在规则的领域,对市场营销这类模糊领域,会导致不
稳定的树。
  
  决策树的年轮图是很酷的表示方法,能够应用在商业环��
�中。
  
  2.预测/分类/聚类:人工神经网络
  
  训练网络的过程实际上是内部调整权重的过程
  过拟合:在验证集上,较早几代往往比最终网络更好
  前馈网络中要明确的核心问题:激活函数是什么、网络��
�扑、反向传播是什么
  隐藏层越宽,识别模式的能力越强。副作用是网络可能��
�记住某一种模式,我们需要网络从训练集中总结,而不是记�
��模式。
  反向传播网络的最优化算法:爬山和模拟退火。危险在��
�陷入局部最优
  神经网络是不透明的,我们无法了解他如何工作,灵敏��
�分析可以帮助我们观测这个网络(很有意思)
  
  3.推荐与推理:最近邻(协同过滤)
  这种算法是一种MBR(Memory-based 
reasoning),它能够适应不断加入的新数据,但同时也是数据贪�
��者,需要大量历史数据
  
  4.关联规则
  三个判定规则:置信度、提升度和否定规则
  
  5.链接分析:就是图论,欧拉图和哈密顿图的应用。Pagera
nk应该放在这部分,不过书中没讲。
  
  6.自动聚类:k均值和GMM
  
  7.市场营销中的风险函数和生存分析
  客户行为的重要指标:保有期tenure,客户曾经多久为我��
�提供了很多信息。客户半衰期:用衰变曲线解读客户。
  风险的定义:假设用户已经保有t时间,其在t+1之前离开�
��概率
  常用模型:浴缸型函数
  
  8.遗传算法:通过进化实现最优化的强力技术,显然可以
用来训练神经网络。进化功能的关键参数:基因组、适应度��
�数
  
  9.一个数据挖掘团队需要的知识体系
  RDBMS技能(SQL)
  工具与编程(SAS、SPSS...)
  统计学
  机器学习技能
  行业知识
  数据可视化技能
  访问及需求收集技能
  展示、写作与沟通 

Original issue reported on code.google.com by JakungY...@gmail.com on 22 Feb 2011 at 5:29

GoogleCodeExporter commented 8 years ago
购物篮算法

协同过滤的k近邻算法

自动聚类的GMM是高斯混合模型,很万金油的一个东西

Original comment by JakungY...@gmail.com on 22 Feb 2011 at 5:31