数据挖掘技术在交通事故分析中设计
[11-20 17:13:12] 来源:http://www.88dzw.com 嵌入式系统 阅读:8853次
文章摘要:3.3 数据挖掘方法设计数据挖掘算法或数据挖掘技术的选择,依赖于已有的原始数据资源和选定的挖掘主题,本课题所涉及的数据资源储存于不同的事务性数据库中,而确定的挖掘主题是利用数据挖掘技术,对这些大量的数据进行宏观的基础研究,寻求导致各种交通事故发生诸多因素的概率分布,为交通管理部门、商业保险部门、安全教育部门、机动车驾驶员培训部门等行业提供决策的宏观支持。挖掘的方法选用分类模式中的决策树方法,这是分类模式中常用的一种分类器,通过对大量数据进行有目的的分类,从中找到一些有价值的、潜在的信息。决策树方法的主要优点是可以生成可理解的规则,计算量小,可以处理连续和集合属性,决策树的输出包括属性重要性排序
数据挖掘技术在交通事故分析中设计,标签:嵌入式系统开发,嵌入式开发,http://www.88dzw.com3.3 数据挖掘方法设计
数据挖掘算法或数据挖掘技术的选择,依赖于已有的原始数据资源和选定的挖掘主题,本课题所涉及的数据资源储存于不同的事务性数据库中,而确定的挖掘主题是利用数据挖掘技术,对这些大量的数据进行宏观的基础研究,寻求导致各种交通事故发生诸多因素的概率分布,为交通管理部门、商业保险部门、安全教育部门、机动车驾驶员培训部门等行业提供决策的宏观支持。挖掘的方法选用分类模式中的决策树方法,这是分类模式中常用的一种分类器,通过对大量数据进行有目的的分类,从中找到一些有价值的、潜在的信息。决策树方法的主要优点是可以生成可理解的规则,计算量小,可以处理连续和集合属性,决策树的输出包括属性重要性排序。决策树是一个类似于流程图的结构,它包括决策节点、分枝和叶子节点。根据本课题的目标,决策树法采用ID3方法,选择互信息最大的属性作为根节点。表l中有3个决策属性和一个分类属性,决策属性是驾驶员年龄、驾龄和性别,分类属性是事故的有无。ID3算法包括信息熵的计算、属性A条件熵的计算和互信息的计算。
(1)信息熵的计算
信息熵的计算公式为:
式中,i取值1、2,U分别表示有交通事故和无交通事故样本,P(Ui)表示类别为Ui的样本占样本总数中的比例。
根据式(1),信息熵H(U的计算算法为:
式中P(Vj)表示属性A中取值为Vj的样本占样本总数的比例,P(Ui|Vj)表示属性A取值Vj时,类别为Ui的概率。
例如,对于驾驶员年龄属性,j的取值范围是驾驶员的年龄范围,约20~70;i的取值范围仍是1、2,表示事故的有无。则驾驶员年龄属性条件熵计算的具体算法为:
分别计算出决策属性的互信息Gain(年龄)、Gain(驾龄)、Gain(性别)的数值,选择互信息最大的属性作为决策树的根节点。依该属性的取值作为分枝,每个分枝对应一个子集。对于每一个子集,重新计算其所含样本的信息熵、条件熵和互信息,确定该子集的当前节点及其分枝,直到遍历了所有的决策属性,获得全部的叶子节点。叶子节点的数值就是从决策树根节点开始,沿相关路径(分枝)到达叶子节点所包含的样本集可能发生交通事故的概率。
这样建立的决策树及概率分布就把交通事故与驾驶员的关系清晰地表露出来,同样,也可选择其他挖掘主题如交通事故与机动车辆的关系、与天气的关系等进行挖掘。
经过多年的发展与积累,与交通管理相关的部门积累了大量的与交通安全相关的数据资源,充分利用这些数据资源,使其为促进经济发展、创建和谐社会服务。数据挖掘技术是开发这些数据资源的有效手段,可以找出这些海量数据之间的内在的规律性的联系,从而为相关部门或机构的宏观决策提供技术支持。与其他相关研究不同.这里的工作基于对机动车驾驶员总体样本的研究,结果会更真实可信,指导意义更强。
《数据挖掘技术在交通事故分析中设计》相关文章
- › 数据挖掘技术在交通事故分析中设计
- 在百度中搜索相关文章:数据挖掘技术在交通事故分析中设计
- 在谷歌中搜索相关文章:数据挖掘技术在交通事故分析中设计
- 在soso中搜索相关文章:数据挖掘技术在交通事故分析中设计
- 在搜狗中搜索相关文章:数据挖掘技术在交通事故分析中设计