特征缩放或标准化 :这是数据预处理的一个步骤,应用于数据的自变量或特征。它基本上有助于规范化特定范围内的数据。有时,它也有助于加速算法中的计算。
null
使用的包装:
sklearn.preprocessing
进口:
from sklearn.preprocessing import StandardScaler
后台使用的公式 标准化将这些值替换为它们的Z分数。
主要是 适合 方法用于特征缩放
fit(X, y = None)Computes the mean and std to be used for later scaling.
python
import pandas as pd from sklearn.preprocessing import StandardScaler # Read Data from CSV data = read_csv( 'Geeksforgeeks.csv' ) data.head() # Initialise the Scaler scaler = StandardScaler() # To scale data scaler.fit(data) |
为什么以及在哪里应用功能缩放? 真实世界的数据集包含在量级、单位和范围上高度不同的特征。当特征的比例不相关或具有误导性时,应执行标准化,当比例有意义时,不应进行标准化。
使用欧几里德距离度量的算法对量级很敏感。在这里,功能缩放有助于平衡所有功能。
从形式上讲,如果数据集中的某个特征与其他特征相比规模较大,那么在测量欧几里德距离的算法中,这个规模较大的特征占主导地位,需要进行规范化。
特征缩放重要的算法示例 1. 聚类 在这里使用欧几里德距离度量特征缩放很重要。 2. K-近邻 还需要功能缩放。 3. 主成分分析(PCA) :尝试获取方差最大的特征,这里也需要特征缩放。 4. 梯度下降 :计算速度随着特征缩放后θ计算变得更快而增加。
注: 朴素贝叶斯、线性判别分析和基于树的模型不受特征缩放的影响。 简而言之,任何 不 基于距离的是 不 受功能缩放的影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END