本文将介绍聚类 文章 建议首先理解。
聚类算法有多种类型。下面的概述将只列出最突出的聚类算法示例,因为可能有100多个已发布的聚类算法。并非所有的集群都提供了模型,因此不容易进行分类。
基于分布的方法: 这是一种聚类模型,我们将根据数据可能属于同一分布的概率来拟合数据。完成的分组可能是 正常还是高斯 高斯分布更为显著,因为我们有固定数量的分布,所有即将到来的数据都被拟合到其中,这样数据的分布可能会最大化。这将导致分组,如图所示:-
该模型适用于合成数据和不同大小的集群。但是,如果不使用约束来限制模型的复杂性,该模型可能会出现问题。此外,基于分布的聚类产生的聚类假设数据的基础数学模型定义简洁,对于某些数据分布来说,这是一个相当强的假设。 例如,期望最大化 算法 它使用多元正态分布是该算法的一个流行例子。
基于质心的方法: 这基本上是一种迭代聚类算法,其中的聚类是由数据点与目标的接近程度形成的 质心 成簇。这里是集群中心,即。 质心 其形成使得数据点与中心的距离最小。这个问题基本上是一个NP难问题,因此解决方案通常经过多次试验来近似。
前男友- K-均值算法 是该算法的流行示例之一。
这个算法最大的问题是我们需要提前指定K。它还存在基于密度分布的聚类问题。
基于连通性的方法: 基于连通性的模型的核心思想类似于基于质心的模型,该模型基本上是根据数据点的接近程度定义集群。在这里,我们研究了一个概念,即距离较近的数据点与距离较远的数据点具有相似的行为。 它不是数据集的单一分区,而是提供了一个广泛的集群层次结构,这些集群在一定距离上相互合并。这里距离函数的选择是主观的。这些模型很容易解释,但缺乏可扩展性。
前男友- 分层算法 以及它的变种。
密度模型: 在这个聚类模型中,将在数据空间中搜索数据点密度不同的区域。它根据数据空间中存在的不同密度来隔离不同的密度区域。 前男友- DBSCAN与光学 .
子空间聚类: 子空间聚类是一种无监督学习问题,旨在将数据点分组为多个簇,使单个簇中的数据点大致位于低维线性子空间上。子空间聚类是特征选择的一种扩展,就像特征选择一样,子空间聚类需要搜索方法和评估标准,但子空间聚类限制了评估标准的范围。子空间聚类算法将搜索定位为相关维度,并允许它们找到存在于多个重叠子空间中的聚类。子空间聚类最初是为了解决数据中具有子空间结构的特定计算机视觉问题,但它在统计和机器学习领域得到了越来越多的关注。人们在社交网络、电影推荐和生物数据集中使用这个工具。子空间聚类引起了人们对数据隐私的关注,因为许多此类应用都涉及敏感信息的处理。数据点被认为是不连贯的,因为它只保护用户的任何特征的不同隐私,而不是数据库的整个用户配置文件。
基于搜索策略,子空间聚类有两个分支。
- 自顶向下算法在全维集合中找到初始聚类,并评估每个聚类的子空间。
- 自下而上的方法在低维空间中找到稠密区域,然后组合成簇。