网信最前沿丨决策树是什么?
发布时间: 2022-10-23

网信最前沿丨决策树是什么?

2022-08-06 09:42  45  0  添加收藏

网信最前沿丨决策树是什么?

2022-07-23 21:38 来源:澎湃新闻·澎湃号·政务

日常,与数据有接触的人士

经常会听到一个名词——决策树,

那么,到底决策树是什么呢?

什么是决策树

决策树(Decision Tree),又称判定树,是一个流程图形式的树结构,其中每个中间结点代表某个属性或某组属性上的测试,每个分支则对应了该测试的不同结果,每个叶结点代表某个类别或预测结果。从训练数据中产生决策树的算法,通常被称为决策树学习算法或决策树算法。

决策树是利用树形图进行决策的预测模型,表现出的是对象属性与对象值之间的一种映射关系,是归纳学习和数据挖掘的重要方法。决策树分为分类树和回归树两种:分类树对离散变量做决策树,回归树对连续变量做决策树。

(《决策树——用一棵树去分析问题》 来源:秒懂百科)

决策树算法与优势

决策树算法主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集,完成决策树的建立过程。第二,决策树的剪枝问题,即利用检验样本集,对形成的决策树进行优化处理。

决策树的算法很多,如ID3、C4.5、CART等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。

决策树的优势有:结构简单,便于理解;效率高,较为适合训练集数据量较大的情况;通常不需要接受训练集数据外的知识;具有较高的分类精确度等等。

实践与应用

决策树算法广泛应用于各个领域,如文本分类、语音识别、模式识别和专家系统等。

中科院西北生态环境资源研究院运用多级决策树分类算法提高积雪判别精度问题

2021年,中科院西北生态环境资源研究院科研团队基于1981年至2019年AVHRR遥感数据,发展了集成云雪区分、积雪识别和云下积雪恢复的反演算法,并制备了38年中国逐日无云5公里积雪面积数据集。研究人员发展的算法通过云雪区分方案和改进判别阈值有效解决了云雪混淆问题,运用多级决策树分类算法提高了积雪判别精度问题,采用隐马尔科夫模型构建时空立方体解决了云下积雪恢复问题,展示了数据集的制备流程。该数据集将为剖析我国气候变化背景下的积雪时空分布及其对水文、气候、生态的影响提供支撑。

C4.5决策树算法应用于判别网络用户是否为水军

部分学者通过以贝叶斯模型为基础,研究水军判定方法。张艳梅选取特征属性,采用朴素贝叶斯模型和遗传算法相结合的方法,得出在朴素贝叶斯模型基础上增加阈值矩阵优化分类器,得到的概率矩阵较准确地识别水军用户的结论。程晓涛研究发现在朴素贝叶斯、贝叶斯网络和C4.5决策树三种算法下融合关系图特征、内容特征和行为特征的方法识别率较为准确。

江西移动利用梯度决策树等方法警企联动开展“打猫”行动

2021年,江西移动充分发挥运营商技术和资源优势,全面提升反诈分析研判能力,积极开展“打猫”行动。“打猫”是打击GOIP(一种虚拟拨号设备,是诈骗分子普遍使用的一种新型诈骗工具)、多卡宝等猫池设备,此类设备可以使 VoIP 通话,绕过运营商语音专线接入,直接“落地”进入移动通信网络,并且还支持群发短信、远程控制、机卡分离等功能,常被诈骗分子用于电信网络诈骗违法犯罪活动。为有效打击GOIP、多卡宝等电信网络诈骗常用设备,江西移动反诈专班依托省内大数据平台,搭建GOIP异常设备分析模型,利用聚类分析、随机森林、梯度决策树等方法进行研判,发现号码清单及基站位置信息,输出GOIP窝点线索,并和公安部门保持联动,配合公安开展联合打击工作。

来 源:网信河北综合

编 辑:陈晓飞

原标题:《网信最前沿丨决策树是什么?》