使用R的多元线性回归

先决条件: 使用R的简单线性回归 线性回归: 它是预测分析的基本和常用类型。它是一种统计方法,用于建模因变量和给定自变量集之间的关系。 这有两种类型:

null
  1. 简单线性回归
  2. 多元线性回归

让我们用R讨论多元线性回归。 多元线性回归: 这是最常见的线性回归形式。多元线性回归基本上描述了单个响应变量Y如何线性依赖于多个预测变量。 可以使用多元回归的基本示例如下:

  1. 房子的售价取决于位置的可取性、卧室的数量、浴室的数量、房子的建造年份、地块的面积,以及许多其他因素。
  2. 孩子的身高取决于母亲的身高、父亲的身高、营养和环境因素。

模型参数的估计 考虑一个多元线性回归模型,其中K独立预测变量x1,x2…,xk,和一个响应变量y。

图片[1]-使用R的多元线性回归-yiteyi-C++库

假设我们对k+1变量有n个观测值,n的变量应该大于k。

图片[2]-使用R的多元线性回归-yiteyi-C++库

最小二乘回归的基本目标是将超平面拟合到(k+1)维空间中,使残差平方和最小化。

图片[3]-使用R的多元线性回归-yiteyi-C++库

在对模型参数求导数之前,将其设置为零,并导出参数必须满足的最小二乘法正态方程。 这些方程是在向量和矩阵的帮助下建立起来的。 允许

图片[4]-使用R的多元线性回归-yiteyi-C++库

线性回归模型的形式如下:

图片[5]-使用R的多元线性回归-yiteyi-C++库

在线性回归中,最小二乘参数估计b

图片[6]-使用R的多元线性回归-yiteyi-C++库

假设X的列是固定的,它们是特定问题的数据,而b是可变的。我们希望找到“最佳”b,即残差平方和最小。 平方和的最小值为零。

图片[7]-使用R的多元线性回归-yiteyi-C++库

这里y是估计的响应向量。 下面的R代码用于在下面的数据集上实现多元线性回归 数据2 . 数据集如下所示:

图片[8]-使用R的多元线性回归-yiteyi-C++库

R

# Multiple Linear Regression
# Importing the dataset
dataset = read.csv ( 'data2.csv' )
# Encoding categorical data
dataset$State = factor (dataset$State,
levels = c ( 'New York' , 'California' , 'Florida' ),
labels = c (1, 2, 3))
dataset$State


图片[9]-使用R的多元线性回归-yiteyi-C++库

R

# Splitting the dataset into the Training set and Test set
# install.packages('caTools')
library (caTools)
set.seed (123)
split = sample.split (dataset$Profit, SplitRatio = 0.8)
training_set = subset (dataset, split == TRUE )
test_set = subset (dataset, split == FALSE )
# Feature Scaling
# training_set = scale(training_set)
# test_set = scale(test_set)
# Fitting Multiple Linear Regression to the Training set
regressor = lm (formula = Profit ~ .,
data = training_set)
# Predicting the Test set results
y_pred = predict (regressor, newdata = test_set)


输出:

图片[10]-使用R的多元线性回归-yiteyi-C++库

图片[11]-使用R的多元线性回归-yiteyi-C++库

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享