先决条件: 使用R的简单线性回归 线性回归: 它是预测分析的基本和常用类型。它是一种统计方法,用于建模因变量和给定自变量集之间的关系。 这有两种类型:
null
- 简单线性回归
- 多元线性回归
让我们用R讨论多元线性回归。 多元线性回归: 这是最常见的线性回归形式。多元线性回归基本上描述了单个响应变量Y如何线性依赖于多个预测变量。 可以使用多元回归的基本示例如下:
- 房子的售价取决于位置的可取性、卧室的数量、浴室的数量、房子的建造年份、地块的面积,以及许多其他因素。
- 孩子的身高取决于母亲的身高、父亲的身高、营养和环境因素。
模型参数的估计 考虑一个多元线性回归模型,其中K独立预测变量x1,x2…,xk,和一个响应变量y。
假设我们对k+1变量有n个观测值,n的变量应该大于k。
最小二乘回归的基本目标是将超平面拟合到(k+1)维空间中,使残差平方和最小化。
在对模型参数求导数之前,将其设置为零,并导出参数必须满足的最小二乘法正态方程。 这些方程是在向量和矩阵的帮助下建立起来的。 允许
线性回归模型的形式如下:
在线性回归中,最小二乘参数估计b
假设X的列是固定的,它们是特定问题的数据,而b是可变的。我们希望找到“最佳”b,即残差平方和最小。 平方和的最小值为零。
这里y是估计的响应向量。 下面的R代码用于在下面的数据集上实现多元线性回归 数据2 . 数据集如下所示:
R
# Multiple Linear Regression # Importing the dataset dataset = read.csv ( 'data2.csv' ) # Encoding categorical data dataset$State = factor (dataset$State, levels = c ( 'New York' , 'California' , 'Florida' ), labels = c (1, 2, 3)) dataset$State |
R
# Splitting the dataset into the Training set and Test set # install.packages('caTools') library (caTools) set.seed (123) split = sample.split (dataset$Profit, SplitRatio = 0.8) training_set = subset (dataset, split == TRUE ) test_set = subset (dataset, split == FALSE ) # Feature Scaling # training_set = scale(training_set) # test_set = scale(test_set) # Fitting Multiple Linear Regression to the Training set regressor = lm (formula = Profit ~ ., data = training_set) # Predicting the Test set results y_pred = predict (regressor, newdata = test_set) |
输出:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END