Python |如何以及在何处应用功能缩放?

特征缩放或标准化 :这是数据预处理的一个步骤,应用于数据的自变量或特征。它基本上有助于规范化特定范围内的数据。有时,它也有助于加速算法中的计算。

null

使用的包装:

sklearn.preprocessing

进口:

 from sklearn.preprocessing import StandardScaler

后台使用的公式 标准化将这些值替换为它们的Z分数。

图片[1]-Python |如何以及在何处应用功能缩放?-yiteyi-C++库

主要是 适合 方法用于特征缩放

fit(X, y = None)Computes the mean and std to be used for later scaling.

python

import pandas as pd
from sklearn.preprocessing import StandardScaler
# Read Data from CSV
data = read_csv( 'Geeksforgeeks.csv' )
data.head()
# Initialise the Scaler
scaler = StandardScaler()
# To scale data
scaler.fit(data)


为什么以及在哪里应用功能缩放? 真实世界的数据集包含在量级、单位和范围上高度不同的特征。当特征的比例不相关或具有误导性时,应执行标准化,当比例有意义时,不应进行标准化。

使用欧几里德距离度量的算法对量级很敏感。在这里,功能缩放有助于平衡所有功能。

从形式上讲,如果数据集中的某个特征与其他特征相比规模较大,那么在测量欧几里德距离的算法中,这个规模较大的特征占主导地位,需要进行规范化。

特征缩放重要的算法示例 1. 聚类 在这里使用欧几里德距离度量特征缩放很重要。 2. K-近邻 还需要功能缩放。 3. 主成分分析(PCA) :尝试获取方差最大的特征,这里也需要特征缩放。 4. 梯度下降 :计算速度随着特征缩放后θ计算变得更快而增加。

注: 朴素贝叶斯、线性判别分析和基于树的模型不受特征缩放的影响。 简而言之,任何 基于距离的是 受功能缩放的影响。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享