线性回归全解析：从基础到实战（Python代码+案例演示）-CSDN博客

本文链接：https://blog.csdn.net/2503_90237586/article/details/147305079

一、线性回归核心原理

‌1. 模型定义与公式‌
线性回归通过建立自变量XX与因变量YY的线性关系进行预测：

‌一元回归‌：y=β0+β1x+ϵy=β0+β1x+ϵ，适用于单变量分析‌。
‌多元回归‌：y=β0+β1x1+⋯+βnxn+ϵy=β0+β1x1+⋯+βnxn+ϵ，解决多因素影响问题‌。

‌2. 参数估计方法‌

‌最小二乘法‌：最小化残差平方和∑(yi−y^i)2∑(yi−y^i)2，通过正规方程β=(XTX)−1XTyβ=(XTX)−1XTy求解参数‌。
‌梯度下降‌：适用于高维数据，通过迭代优化ββ值‌。

‌3. 模型假设‌

线性关系、误差项正态性、同方差性、无多重共线性（需通过VIF值检验）‌。

二、Python代码实现

‌1. 数据预处理

import pandas as pd  
import numpy as np  
from sklearn.model_selection import train_test_split  

# 读取数据（示例：广告费与销售额）  
data = pd.read_csv("advertising.csv")  
X = data[["TV"]]  # 自变量  
y = data["Sales"]  # 因变量  

# 划分训练集与测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

‌2. 模型训练与预测

from sklearn.linear_model import LinearRegression  

# 训练模型  
model = LinearRegression()  
model.fit(X_train, y_train)  

# 预测并评估  
y_pred = model.predict(X_test)  
print(f"斜率：{model.coef_:.2f}，截距：{model.intercept_:.2f}")