2026/4/17 0:23:06
网站建设
项目流程
wordpress子域名多站点,犀牛做网站的公司,网上开店铺,跑步机网站建设思维导图概念解决回归问题的决策树模型你就是回归树回归树是一种基于决策树的监督学习算法#xff0c;用于解决回归问题。通过递归地将特征空间划分为多个子区域#xff0c;并在每个子区域内拟合一个简单的预测值#xff08;如均值#xff09;#xff0c;实现对连续目标变量的预测…概念解决回归问题的决策树模型你就是回归树回归树是一种基于决策树的监督学习算法用于解决回归问题。通过递归地将特征空间划分为多个子区域并在每个子区域内拟合一个简单的预测值如均值实现对连续目标变量的预测。特点必须是二叉树回归树的构建过程特征选择与分割遍历所有特征和可能的切分点选择使均方误差MSE或平均绝对误差MAE最小的特征和切分点。分割准则公式[ \min_{j, s} \left[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \right] ]其中 ( R_1, R_2 ) 为分割后的子区域( c_1, c_2 ) 为子区域内的预测值通常取均值。递归分割对每个子区域重复上述分割过程直到满足停止条件如最大深度、最小样本数或误差减少小于阈值。叶子节点预测最终叶子节点的预测值为该区域内样本目标变量的均值。举例两个核心问题1.节点切分的依据是什么2.如何能进行预测根据这两个问题我们讲解回归树的计算示例1、1、计算最优切分点因为只有一个变量所以切分变量必然是x可以考虑如下9个切分点[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]。【原因实际上考虑两个变量间任意一个位置为切分点均可】1切分点1.5的计算当s1.5时将数据分为两个部分第一部分:(1,5.56)第二部分:(2,5.7)、(3,5.91)、(4,6.4)…(10,9.05)2、计算损失C15.56C21/9(5.75.916.46.87.058.98.799.05)7.5Loss (5.56-5.56)^2 (5.7-7.5)^2(5.91-7.5)^2…(9.05-7.5)^2 015.72 15.723、同理计算其他分割点的损失容易看出当s6.5时loss1.93最小所以第一个划分点s6.5。4、对于小于6.5部分1切分点1.5的计算当s1.5时将数据分为两个部分第一部分:(1,5.56)第二部分:(2,5.7)、(3,5.91)、(4,6.4)、(5,6.8)、(6,7.05)Loss 0 (5.7-6.37)^2(5.91-6.37)^2 …(7.05-6.37)^201.30871.3087C15.56C21/5(5.75.916.46.87.05)6.375、可得出容易看出:1当s3.5时loss0.2771最小所以第一个划分点s3.5。2当s8.5时loss0.021最小所以第二个划分点s8.5。6、假设只分裂我们计算的这几次那么分段函数为1当x3.5时1/3(5.565.75.91)5.722当3.5x6.5时1/3(6.46.87.05)6.753当6.5x8.5时1/2(8.98.7)8.84当8.5x时1/2(99.05)9.025最终得到分段函树7、对于预测来说特征x必然位于其中某个区间内所以即可得到回归的结果比如说如果x11,那么对应的回归值为9.025.1当x3.5时1/3(5.565.75.91)5.722当3.5x6.5时1/3(6.46.87.05)6.753当6.5x8.5时1/2(8.98.7)8.84当8.5x时1/2(99.05)9.0258、决策树的构造回归树的实现示例Python使用sklearn构建回归树from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import train_test_split # 假设 X 为特征矩阵y 为目标变量 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2) # 初始化回归树模型 reg_tree DecisionTreeRegressor(max_depth3, min_samples_leaf5) reg_tree.fit(X_train, y_train) # 预测与评估 predictions reg_tree.predict(X_test)回归树的参数解释一些方法1.apply :返回预测每个样本的叶子的索引2.decision_path:返回树中的决策路径3.get_depth:获取树的深度4.get_n_leaves:获取树的叶子节点数5.get_params:获取此估计器的参数即前面配置的全部参数信息6.score:得到决策树的评判标准R2回归树的优化方法剪枝通过代价复杂度剪枝CCP减少过拟合。集成学习结合随机森林或梯度提升树如 XGBoost、LightGBM提升性能。超参数调优使用网格搜索或贝叶斯优化调整max_depth、min_samples_split等参数。应用场景房价预测、销量预测等连续值预测任务。特征重要性分析辅助业务决策。