聚类简介
它基本上是一种 无监督学习方法 .无监督学习方法是一种从由输入数据组成的数据集中提取参考的方法,该数据集没有标记的响应。通常,它被用作一个过程,以发现一组示例中固有的有意义的结构、解释性的底层过程、生成特征和分组。
群集 是将总体或数据点划分为若干组的任务,以便相同组中的数据点与相同组中的其他数据点更相似,与其他组中的数据点不同。它基本上是基于对象之间的相似性和不相似性的对象集合。
前男友 –下图中聚集在一起的数据点可分为一组。我们可以区分这些簇,我们可以确定下图中有3个簇。
团簇不一定是球形的。例如:
DBSCAN:基于密度的噪声应用空间聚类 通过使用数据点位于集群中心给定约束范围内的基本概念对这些数据点进行聚类。各种距离方法和技术用于计算异常值。
为什么是集群? 聚类非常重要,因为它决定了存在的未标记数据之间的内在分组。没有好的聚类标准。这取决于用户,他们可以使用什么标准来满足他们的需求。例如,我们可能感兴趣的是寻找同质组的代表(数据缩减),寻找“自然聚类”并描述其未知属性(“自然”数据类型),寻找有用和合适的分组(“有用”数据类),或寻找不寻常的数据对象(离群点检测)。该算法必须做出一些假设,这些假设构成了点的相似性,每个假设构成不同且同样有效的聚类。
聚类方法:
- 基于密度的方法: 这些方法认为簇是稠密区域,与空间的低密集区域有一定的相似性和差异性。这些方法具有很好的准确性和合并两个聚类的能力。例子 DBSCAN(基于密度的噪声应用空间聚类) , 光学元件(确定群集结构的排序点) 等
- 基于分层的方法: 该方法中形成的簇基于层次结构形成树状结构。使用先前形成的簇形成新簇。它分为两类
- 凝聚的 (自下而上) 方法 )
- 分裂的 (自上而下 方法 )
例子 CURE(使用代表进行聚类)、BIRCH(平衡迭代减少聚类并使用层次结构) 等
- 分区方法: 这些方法将对象划分为k个簇,每个簇形成一个簇。该方法用于优化目标准则相似性函数,例如当距离是主要参数时 K-means,CLARANS(基于随机搜索对大型应用程序进行聚类) 等
- 基于网格的方法: 在这种方法中,数据空间被表示成有限数量的单元,这些单元形成网格状结构。在这些网格上进行的所有聚类操作都是快速的,并且与数据对象的数量无关 STING(统计信息网格)、wave cluster、CLIQUE(CLustering In Quest) 等
聚类算法: K-均值聚类算法 –这是解决聚类问题的最简单的无监督学习算法。K-means算法将n个观测值划分为K个簇,其中每个观测值都属于该簇,最近的平均值作为该簇的原型。
聚类在不同领域的应用
- 营销: 它可以用来描述和发现客户群体,以达到营销目的。
- 生物学: 它可以用来对不同种类的动植物进行分类。
- 图书馆: 它用于根据主题和信息对不同的书籍进行聚类。
- 保险: 它用于确认客户、他们的政策和识别欺诈行为。
城市规划: 它被用来根据房屋的地理位置和其他因素组成房屋群,并研究房屋的价值。
地震研究: 通过了解地震灾区,我们可以确定危险区。