当前位置:首页 > 科技  > 软件

使用Python从头开始构建决策树算法

来源: 责编: 时间:2023-08-14 22:01:22 486观看
导读决策树(Decision Tree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这

决策树(Decision Tree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这类算法的基础知识。HOc28资讯网——每日最新资讯28at.com

HOc28资讯网——每日最新资讯28at.com

在深入研究代码之前,我们先要了解支撑决策树的数学概念:熵和信息增益HOc28资讯网——每日最新资讯28at.com

熵:杂质的量度

熵作为度量来量化数据集中的杂质或无序。特别是对于决策树,熵有助于衡量与一组标签相关的不确定性。数学上,数据集S的熵用以下公式计算:HOc28资讯网——每日最新资讯28at.com

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示数据集中正标签的比例,P_neg表示数据集中负标签的比例。HOc28资讯网——每日最新资讯28at.com

更高的熵意味着更大的不确定性或杂质,而更低的熵意味着更均匀的数据集。HOc28资讯网——每日最新资讯28at.com

信息增益:通过拆分提升知识

信息增益是评估通过基于特定属性划分数据集所获得的熵的减少。也就是说它衡量的是执行分割后标签确定性的增加。HOc28资讯网——每日最新资讯28at.com

数学上,对数据集S中属性a进行分割的信息增益计算如下:HOc28资讯网——每日最新资讯28at.com

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始数据集,A表示要拆分的属性。S_v表示属性A保存值v的S的子集。HOc28资讯网——每日最新资讯28at.com

目标是通过选择使信息增益最大化的属性,在决策树中创建信息量最大的分割。HOc28资讯网——每日最新资讯28at.com

在Python中实现决策树算法

有了以上的基础,就可以使用Python从头开始编写Decision Tree算法。HOc28资讯网——每日最新资讯28at.com

首先导入基本的numpy库,它将有助于我们的算法实现。HOc28资讯网——每日最新资讯28at.com

import numpy as np

创建DecisionTree类HOc28资讯网——每日最新资讯28at.com

class DecisionTree:    def __init__(self, max_depth=None):        self.max_depth = max_depth

定义了DecisionTree类来封装决策树。max_depth参数是树的最大深度,以防止过拟合。HOc28资讯网——每日最新资讯28at.com

def fit(self, X, y, depth=0):        n_samples, n_features = X.shape        unique_classes = np.unique(y)                 # Base cases        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

拟合方法是决策树算法的核心。它需要训练数据X和相应的标签,以及一个可选的深度参数来跟踪树的深度。我们以最简单的方式处理树的生长:达到最大深度或者遇到纯类。HOc28资讯网——每日最新资讯28at.com

确定最佳分割属性,循环遍历所有属性以找到信息增益最大化的属性。_information_gain方法(稍后解释)帮助计算每个属性的信息增益。HOc28资讯网——每日最新资讯28at.com

best_attribute = None best_info_gain = -1 for feature in range(n_features):            info_gain = self._information_gain(X, y, feature)            if info_gain > best_info_gain:                best_info_gain = info_gain                best_attribute = feature

处理不分割属性,如果没有属性产生正的信息增益,则将类标签分配为节点的标签。HOc28资讯网——每日最新资讯28at.com

if best_attribute is None:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

分割和递归调用,下面代码确定了分割的最佳属性,并创建两个子节点。根据属性的阈值将数据集划分为左右两个子集。HOc28资讯网——每日最新资讯28at.com

self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold    right_indices = ~left_indices     self.left = DecisionTree(max_depth=self.max_depth)    self.right = DecisionTree(max_depth=self.max_depth)     self.left.fit(X[left_indices], y[left_indices], depth + 1)    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通过递归调用左子集和右子集的fit方法来构建子树。HOc28资讯网——每日最新资讯28at.com

预测方法使用训练好的决策树进行预测。如果到达一个叶节点(带有标签的节点),它将叶节点的标签分配给X中的所有数据点。HOc28资讯网——每日最新资讯28at.com

def predict(self, X):        if hasattr(self, 'label'):            return np.array([self.label] * X.shape[0])

当遇到非叶节点时,predict方法根据属性阈值递归遍历树的左子树和右子树。来自双方的预测被连接起来形成最终的预测数组。HOc28资讯网——每日最新资讯28at.com

is_left = X[:, self.attribute] <= self.threshold        left_predictions = self.left.predict(X[is_left])        right_predictions = self.right.predict(X[~is_left])                 return np.concatenate((left_predictions, right_predictions))

下面两个方法是决策树的核心代码,并且可以使用不同的算法来进行计算,比如ID3 算法使用信息增益作为特征选择的标准,该标准度量了将某特征用于划分数据后,对分类结果的不确定性减少的程度。算法通过递归地选择信息增益最大的特征来构建决策树,也就是我们现在要演示的算法。HOc28资讯网——每日最新资讯28at.com

_information_gain方法计算给定属性的信息增益。它计算分裂后子熵的加权平均值,并从父熵中减去它。HOc28资讯网——每日最新资讯28at.com

def _information_gain(self, X, y, feature):        parent_entropy = self._entropy(y)                 unique_values = np.unique(X[:, feature])        weighted_child_entropy = 0                 for value in unique_values:            is_value = X[:, feature] == value            child_entropy = self._entropy(y[is_value])            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                 return parent_entropy - weighted_child_entropy

熵的计算HOc28资讯网——每日最新资讯28at.com

def _entropy(self, y):        _, counts = np.unique(y, return_counts=True)        probabilities = counts / len(y)        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法计算数据集y的熵,它计算每个类的概率,然后使用前面提到的公式计算熵。HOc28资讯网——每日最新资讯28at.com

常见的算法还有:HOc28资讯网——每日最新资讯28at.com

C4.5 是 ID3 的改进版本,C4.5 算法在特征选择时使用信息增益比,这是对信息增益的一种归一化,用于解决信息增益在选择特征时偏向于取值较多的特征的问题。HOc28资讯网——每日最新资讯28at.com

CART 与 ID3 和 C4.5 算法不同,CART(Classification And Regression Tree)又被称为分类回归树,算法采用基尼不纯度(Gini impurity)来度量节点的不确定性,该不纯度度量了从节点中随机选取两个样本,它们属于不同类别的概率。HOc28资讯网——每日最新资讯28at.com

ID3、C4.5 和 CART 算法都是基于决策树的经典算法,像Xgboost就是使用的CART 作为基础模型。HOc28资讯网——每日最新资讯28at.com

总结

以上就是使用Python中构造了一个完整的决策树算法的全部。决策树的核心思想是根据数据的特征逐步进行划分,使得每个子集内的数据尽量属于同一类别或具有相似的数值。在构建决策树时,通常会使用一些算法来选择最佳的特征和分割点,以达到更好的分类或预测效果。HOc28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-5736-0.html使用Python从头开始构建决策树算法

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 九个实用的 JavaScript 技巧

下一篇: 五个 AI API 可自动解决你的日常问题

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 女孩租房开2小时空调用完100元电费引热议:5级能耗惹不起 月薪过万电费也交不起

    近日,江苏苏州一女孩租房当天充值了100元电费,开着空调不到2小时发现电费已用完。对于为什么这个快,房东表示,电表坏了这种情况很多,之前也遇到过,给租客换
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的&ldquo;头腾
  • 得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的&ldquo;在线鉴别&rdquo;,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之&ldquo;想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!&rdquo;曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 小米公益基金会捐赠2500万元驰援北京、河北暴雨救灾

    8月2日消息,今日小米科技创始人雷军在其微博上发布消息称,小米公益基金会宣布捐赠2500万元驰援北京、河北暴雨救灾。携手抗灾,京冀安康!以下为公告原文
  • 微软发布Windows 11新版 引入全新任务栏状态

    近日,微软发布了Windows 11新版,而Build 22563更新主要引入了几周前曝光的平板模式任务栏等,系统更流畅了。更新中,Windows 11加入了专门针对平板优化的任务栏
Top