急用！！！数据挖掘的六种常用算法和技术分别是什么

数据挖掘技术和算法技术：概念方法

算法：一步一步具体实现的细节

不同的目标要调用不同的技术

　数据挖掘根据其目标分为说明性（Prescriptive）和描述性 (Descriptive)数据挖掘两种

　不同的Data Type调用不同技术

三种数据挖掘技术

　自动聚集检测；决策树；神经网络

原因：大量的商业软件应用

覆盖了数据挖掘一个较广的范围

　直接数据挖掘目标是预言，估值，分类，预定义目标变量的特征行为

神经元网络；决策树

　间接数据挖掘：没有目标变量被预言，目的是发现整个数据集的结构

聚集检测

自动聚集检测

　方法

K-均值是讲整个数据集分为K个聚集的算法。

　K-均值聚集检测如何工作

随机选取K个记录，作为种子节点；

对剩余的记录集合，计算每个记录与K个种子节点的距离，将每个记录归到最近的那个种子节点，这样整个记录集初次划分为K个聚集；

对每个聚集，计算聚集的质心（聚集中心点）；

以每个质心为种子节点，重复上述步骤，直至聚集不再改变。

　Consequences of Choosing Clustering

选择距离函数

选择合适的聚集数

　对聚集的解释

构造决策树

可视化看聚集如何受输入变量的影响

单变量测试

　什么时候使用聚集检测

决策树

　决策树分类

决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。

一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数（最小节点的大小，最大树的深度等等），来限制决策树的overfitting。

　决策树如何工作

决策树是一棵树，树的根节点是整个数据集合空间，每个分节点是对一个单一变量的测试，该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。

首先，通过训练集生成决策树，再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。

　决策树如何构建

通过递归分割的过程构建决策树。

寻找初始分裂

整个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。

决定哪个属性（Field）域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（diversity）指标GINI指标。

树增长到一棵完整的树

重复第一步，直至每个叶节点内的记录都属于同一类。

数据的修剪

　选择决策树的结果

处理输入变量

树和规则

选择最好的属性的能力

　什么时候使用决策树

神经网络

神经元模型

生物模型

人工神经元

神经网模型

网的拓扑结构：层次（前馈，反馈）；全连通

学习方法：有教员的（出入均知道）；无教员的（输出不知道）

运行机制：同步；异步

神经网络的基本特点

大量简单节点的复杂连接；高度并行处理；分布式存储，信息存在整个网中，用权值体现出来，有联想能力，可以从一个不完整的信息恢复出完整信息；自组织、自学习。

六种常用于模式识别的神经网络分类器

Hopfield Net

Harmming Net

Carpenter/Grossberg 分类器

单层感知网

多层感知网

Kohonen的自组织特性图

您可能感兴趣问答

Collapsible

热门标签

热点问答