数据挖掘技术和算法技术:概念方法算法:一步一步具体实现的细节不同的目标要调用不同的技术 数据挖掘根据其目标分为说明性(Prescriptive)和描述性 (Descriptive)数据挖掘两种 不同的Data Type调用不同技术三种数据挖掘技术 自动聚集检测;决策树;神经网络原因: 大量的商业软件应用覆盖了数据挖掘一个较广的范围 直接数据挖掘目标是预言,估值,分类,预定义目标变量的特征行为神经元网络;决策树 间接数据挖掘:没有目标变量被预言,目的是发现整个数据集的结构聚集检测自动聚集检测 方法K-均值是讲整个数据集分为K个聚集的算法。 K-均值聚集检测如何工作随机选取K个记录,作为种子节点; 对剩余的记录集合,计算每个记录与K个种子节点的距离,将每个记录归到最近的那个种子节点,这样整个记录集初次划分为K个聚集; 对每个聚集,计算聚集的质心(聚集中心点); 以每个质心为种子节点,重复上述步骤,直至聚集不再改变。 Consequences of Choosing Clustering选择距离函数 选择合适的聚集数 对聚集的解释构造决策树 可视化看聚集如何受输入变量的影响 单变量测试 什么时候使用聚集检测决策树 决策树分类决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的overfitting。 决策树如何工作决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。 决策树如何构建通过递归分割的过程构建决策树。寻找初始分裂 整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。树增长到一棵完整的树 重复第一步,直至每个叶节点内的记录都属于同一类。数据的修剪 选择决策树的结果处理输入变量 树和规则 选择最好的属性的能力 什么时候使用决策树神经网络 神经元模型生物模型 人工神经元 神经网模型网的拓扑结构:层次(前馈,反馈);全连通 学习方法:有教员的(出入均知道);无教员的(输出不知道) 运行机制:同步;异步 神经网络的基本特点大量简单节点的复杂连接;高度并行处理;分布式存储,信息存在整个网中,用权值体现出来,有联想能力,可以从一个不完整的信息恢复出完整信息;自组织、自学习。六种常用于模式识别的神经网络分类器Hopfield Net Harmming Net Carpenter/Grossberg 分类器 单层感知网 多层感知网 Kohonen的自组织特性图