Open GoogleCodeExporter opened 8 years ago
1.分类/预测:决策树算法 面向有规则问题时的有效方法,能发现数据中淹没的潜�� �则。对于分类记录或预测离散结果,决策树是首选。同时,� ��策树比其他技术需要的数据准备更少,几乎在每个数据挖掘 工程中都会被用到。 尽管建树的算法有多种变体,建成的树的形态与效率也�� �差别,但具有相同的基本过程,即相对于目标变量而言,每� ��新生节点比其原生节点有更好的纯度。只要达到这个目标, 多次迭代后总会得到对数据集的一个划分。 最佳拆分方式的度量:降低发散性,提高纯度。目前的�� �度度量有基尼、熵、信息增益率和卡方等。使用基尼准则建� ��的树更倾向于产生两个纯度都较高的子节点的拆分,而不是 一个更纯的加上一个大而不是很纯的子节点的拆分。熵准则�� �倾向于纯度,即时得到的节点很小。因此熵准则适合于确有� ��晰的潜在规则的领域,对市场营销这类模糊领域,会导致不 稳定的树。 决策树的年轮图是很酷的表示方法,能够应用在商业环�� �中。 2.预测/分类/聚类:人工神经网络 训练网络的过程实际上是内部调整权重的过程 过拟合:在验证集上,较早几代往往比最终网络更好 前馈网络中要明确的核心问题:激活函数是什么、网络�� �扑、反向传播是什么 隐藏层越宽,识别模式的能力越强。副作用是网络可能�� �记住某一种模式,我们需要网络从训练集中总结,而不是记� ��模式。 反向传播网络的最优化算法:爬山和模拟退火。危险在�� �陷入局部最优 神经网络是不透明的,我们无法了解他如何工作,灵敏�� �分析可以帮助我们观测这个网络(很有意思) 3.推荐与推理:最近邻(协同过滤) 这种算法是一种MBR(Memory-based reasoning),它能够适应不断加入的新数据,但同时也是数据贪� ��者,需要大量历史数据 4.关联规则 三个判定规则:置信度、提升度和否定规则 5.链接分析:就是图论,欧拉图和哈密顿图的应用。Pagera nk应该放在这部分,不过书中没讲。 6.自动聚类:k均值和GMM 7.市场营销中的风险函数和生存分析 客户行为的重要指标:保有期tenure,客户曾经多久为我�� �提供了很多信息。客户半衰期:用衰变曲线解读客户。 风险的定义:假设用户已经保有t时间,其在t+1之前离开� ��概率 常用模型:浴缸型函数 8.遗传算法:通过进化实现最优化的强力技术,显然可以 用来训练神经网络。进化功能的关键参数:基因组、适应度�� �数 9.一个数据挖掘团队需要的知识体系 RDBMS技能(SQL) 工具与编程(SAS、SPSS...) 统计学 机器学习技能 行业知识 数据可视化技能 访问及需求收集技能 展示、写作与沟通
Original issue reported on code.google.com by JakungY...@gmail.com on 22 Feb 2011 at 5:29
JakungY...@gmail.com
购物篮算法 协同过滤的k近邻算法 自动聚类的GMM是高斯混合模型,很万金油的一个东西
Original comment by JakungY...@gmail.com on 22 Feb 2011 at 5:31
Original issue reported on code.google.com by
JakungY...@gmail.com
on 22 Feb 2011 at 5:29