数据挖掘最常见的十种方法

2013-10-28 09:18:19 看看新闻网　点击量：评论 (0)

下面介绍十种数据挖掘（Data Mining）的分析方法，以便于大家对模型的初步了解，这些都是日常挖掘中经常遇到的算法，希望对大家有用！1、基于历史的MBR分析（Memory-Based Reasoning；MBR）基于历史的MBR分

挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8、神经网络（Neural Networks）

神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。

9、判别分析（Discriminant Analysis）

当所遭遇问题它的因变量为定性（categorical），而自变量（预测变量）为定量（metric）时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体 —判别分析（Two-Group Discriminant Analysis）；若由多个群体构成，则称之为多元判别分析（Multiple Discriminant Analysis；MDA）。
（1）找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。
（2）检定各组的重心是否有差异。
（3）找出哪些预测变量具有最大的区别能力。
（4）根据新受试者的预测变量数值，将该受试者指派到某一群体。

10、罗吉斯回归分析（Logistic Analysis）

当判别分析中群体不符合正态分布假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。