定义
数据挖掘是指从原始的、为加工的海量数据中提取出有用的信息。
数据挖掘吸收了统计学、机器学习、模式识别、数据库和数据仓库、信息检索等技术,它还涉及相关领域的专业知识,是一门综合学科。
数据挖掘主要包含数据预处理、关联分析、分类、聚类分析、离散点检测等过程。
##聚类分析
聚类分析:研究如何将相似的事物归为一类。
聚类:把相似的对象通过静态分类的方法分成不同的类别或更多的子集,同一子集中的所有对象都有相似的一些属性。聚类技术分为:硬划分(K-均值)、软划分(模糊C-均值算法)、基于密度的方法(DBSCAN)。
K-均值是聚类分析算法中最常用、最基本的聚类算法。该算法是把n个对象划分到k个聚类中,使得每个对象都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。该算法属于硬划分,需要人为指定划分的类数(即k)。
优点:简单快速、易于理解、时间复杂度低。缺点:对高纬度数据处理效果差,并且不能识别非球形的簇。模糊C-均值算法,是指该算法的聚类(簇)的界限是模糊的,不同于K-均值中的簇是确定的,以质心为中心,确定的簇。也就是说:模糊C-均值中,每个数据对象到每个簇都存在一个隶属度,但是每个数据对象到所有簇的隶属度之和为1。其中,隶属度又叫做隶属权值(用W表示)。
DBSCAN:一种基于密度的聚类算法,主要用于处理噪声。对象O的密度可以用靠近O的对象数来度量,算法的核心思想是找出所有核心点、边界点、噪声点。去除噪声点,连接核心对象和它的邻域,进而形成稠密区域作为簇,该算法的好处在于可以有效处理数据集中的噪声点。与K-均值比较起来,DBSCAN不需要输入要划分的聚类个数,并且可以处理各种形状的簇。
其缺点是算法的时间复杂度较高,因此不能处理高维度数据。
此篇文章及随后几篇相关文章出处:简书,黄成甲,https://www.jianshu.com/p/bd6a6ed29f9f