机器学习: 正如本文所讨论的 文章 ,机器学习只是一个研究领域,它允许计算机像人类一样“学习”,而不需要任何显式编程。
什么是预测建模: 预测建模是一个概率过程,它允许我们根据一些预测因素预测结果。这些预测因素基本上是在决定最终结果时发挥作用的特征,即模型的结果。
什么是降维?
在机器学习分类问题中,通常有太多的因素作为最终分类的基础。这些因素基本上是称为特征的变量。功能的数量越多,就越难将训练集可视化,然后对其进行操作。有时,这些特征中的大多数是相互关联的,因此是多余的。这就是降维算法发挥作用的地方。降维是通过获得一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。
为什么降维在机器学习和预测建模中很重要?
一个直观的降维示例可以通过一个简单的电子邮件分类问题来讨论,我们需要对电子邮件是否为垃圾邮件进行分类。这可能涉及大量功能,例如电子邮件是否具有通用标题、电子邮件内容、电子邮件是否使用模板等。但是,其中一些功能可能会重叠。在另一种情况下,依赖于湿度和降雨量的分类问题可能会被分解为一个基本特征,因为上述两个特征高度相关。因此,我们可以减少此类问题中的功能数量。三维分类问题可能很难可视化,而二维分类问题可以映射到简单的二维空间,而一维分类问题可以映射到简单的直线。下图说明了这个概念,其中一个三维特征空间被分成两个一维特征空间,之后,如果发现相关,特征的数量可以进一步减少。
降维的组成部分
降维有两个组成部分:
- 功能选择: 在本文中,我们试图找到原始变量集或特征的子集,以获得一个较小的子集,该子集可用于建模问题。它通常包括三种方式:
- 滤器
- 包装纸
- 嵌入的
- 特征提取: 这将高维空间中的数据减少到低维空间,即维度数较少的空间。
降维方法
用于降维的各种方法包括:
- 主成分分析(PCA)
- 线性判别分析(LDA)
- 广义判别分析(GDA)
降维可以是线性的,也可以是非线性的,具体取决于所使用的方法。基本线性方法,称为主成分分析,或PCA,将在下面讨论。
主成分分析
这种方法是由卡尔·皮尔森介绍的。它的工作条件是,当高维空间中的数据映射到低维空间中的数据时,低维空间中数据的方差应最大。
它包括以下步骤:
- 构造数据的协方差矩阵。
- 计算这个矩阵的特征向量。
- 与最大特征值对应的特征向量用于重构原始数据的大部分方差。
因此,我们只剩下较少的特征向量,在这个过程中可能会有一些数据丢失。但是,剩下的特征向量应该保留最重要的方差。
降维的优点
- 它有助于数据压缩,从而减少存储空间。
- 它减少了计算时间。
- 它还有助于删除冗余功能(如果有的话)。
降维的缺点
- 这可能会导致一些数据丢失。
- 主成分分析倾向于发现变量之间的线性相关性,这有时是不可取的。
- 在均值和协方差不足以定义数据集的情况下,主成分分析失败。
- 我们可能不知道要保留多少主成分——在实践中,应用了一些经验法则。
本文由 阿纳尼亚·尤博伊 .如果你喜欢GeekSforgek,并想贡献自己的力量,你也可以使用 贡献极客。组织 或者把你的文章寄到contribute@geeksforgeeks.org.看到你的文章出现在Geeksforgeks主页上,并帮助其他极客。
如果您发现任何不正确的地方,或者您想分享有关上述主题的更多信息,请写下评论。