基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法

文档序号:10686380阅读:442来源:国知局
基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法
【专利摘要】基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法,属于信息检索领域,由于不同的备件在主组号相同的情况下,分组号仍有差异,为了能够解决精确匹配备件的问题,技术要点是:对故障码识别和分类;解析车辆VIN码得到变量,所述变量包括由VIN码解析得到的发动机排量、车身类型、发动机变速箱类型;对变量所对应的备件代码做决策树分析,完成变量数据归类形成备件信息,并建立索引,形成诊断知识库;创建语言模型,建立细胞词库,在所述细胞词库中切词检索细胞词,并排列所述细胞词,利用决策树模型的决策分类,形成故障码对应工项的诊断数据库;将诊断数据库与诊断知识库关联,并建立主键;效果是:可在获取故障码后,快速找到常见故障的解决方案和对应备件、工项。
【专利说明】
基于决策树分类和故障码分类的车辆远程诊断与备件检索的 方法
技术领域
[0001] 本发明属于信息检索领域,涉及一种用于车辆远程诊断与备件检索的方法
【背景技术】
[0002] 目前我国汽车维修行业已经从完全依靠检查者的感觉和实践经验进行诊断的阶 段,发展到了利用专门设备进行综合检测诊断阶段,但是在传统汽车维修行业中普遍存在 着很多问题,比如维修工人技术老化,经常无法快速、经济地利用各方面的技术力量解决故 障;随着汽车保有量的日益增多,汽车后市场各项服务如雨后春笋般大量涌现。那么从车主 角度,如何才能更好更全面的了解车况,发生故障时,如何快速获取爱车待解决方案及所需 工时及备件相关信息,精准的汽车可穿戴设备对满足车主实时需求是完全必要的。一般的 0BD车载设备,只能读取到相关车辆故障信息,不能对故障做出详细解决方案及相关维修人 工费、备件费,从而造成车主盲目进店,盲目消费。

【发明内容】

[0003] 为了解决车主车辆出现故障时,能够准确和快速匹配该故障码所对应的工项与备 件,本发明提出如下技术方案:一种基于决策树分类和故障码分类的车辆远程诊断与备件 检索的方法,包括
[0004] 步骤一.采集车辆信息数据;
[0005] 步骤二.对故障码识别和分类;
[0006]步骤三.解析车辆VIN码得到变量,所述变量包括由VIN码解析得到的发动机排量、 车身类型、发动机变速箱类型;
[0007] 步骤四.对变量所对应的备件代码做决策树分析,完成变量数据归类形成备件信 息,并建立索引,形成诊断知识库;
[0008] 步骤五.创建语言模型,建立细胞词库,在所述细胞词库中切词检索细胞词,并排 列所述细胞词,利用决策树模型的决策分类,形成故障码对应工项的诊断数据库;
[0009] 步骤六.将诊断数据库与诊断知识库关联,并建立主键;
[0010]步骤七.对车辆故障生成的故障码识别,并通过关键字解析车辆VIN码得到的变 量以进行分类检索,得到工项及备件信息。
[0011]有意效果:本发明可以在获取故障码后,快速找到常见故障的解决方案和对应备 件、工项。有效解决技师和备件员的经验局限性问题,从大数据出发,获得故障的解决方案。 本发明其具有对故障码识别和分类的步骤,可以在不同车型间的故障码出现差异时,判断 其一致性;且,本发明的步骤五构建了一个从故障描述到词向量分解,建立维修细胞词库; 通过故障描述在细胞词库的切词检索,依据细胞词权重建立的句法规则,实现从决策过程 到决策建议再到维修解决方案的维修决策树,最终实现故障远程诊断。
【附图说明】
[0012]图1为本发明用于车辆远程诊断与备件检索的方法的流程图;
[0013] 图2为底盘号为LFV5A14B8Y3000001的车辆的VIN号码翻译示意图。
【具体实施方式】
[0014] 实施例1: 一种基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法, 包括
[0015] 步骤一.采集车辆信息数据;
[0016] 步骤二.对故障码识别和分类;
[0017] 步骤三.解析车辆VIN码得到变量,所述变量包括由VIN码解析得到的发动机排量、 车身类型、发动机变速箱类型;
[0018] 步骤四.对变量所对应的备件代码做决策树分析,完成变量数据归类形成备件信 息,并建立索引,形成诊断知识库;
[0019] 步骤五.创建语言模型,建立细胞词库,在所述细胞词库中切词检索细胞词,并排 列所述细胞词,利用决策树模型的决策分类,形成故障码对应工项的诊断数据库;
[0020] 步骤六.将诊断数据库与诊断知识库关联,并建立主键;
[0021] 步骤七.对车辆故障生成的故障码识别,并通过关键字进行分类检索,得到工项及 备件信息。
[0022] 实施例2 :具有与实施例1相同的技术方案,更为具体的,对于实施例1的步骤四来 说,
[0023] 所述步骤四中以维修备件表的历史记录为数据基础,通过决策树模型对备件做 分类,维修备件表样例如表一所不:
[0024] 表一
[0026] 决策树模型的基本原理如下:
[0027] 首先:确定每一维度备件不同分类的熵,以VIN4为例,熵定义为
[0028] E = sum(_p(I)*log(p(I)))
[0029] 其中I = 1: N(N类结果,如本例1种,即该备件属于此车型,故概率P( I) = 1)
[0030] 则E(5)=-( 1/1 )Log2( 1/1 )-(0/l)Log2(0/l )=0+0 = 0
[0031] E(3) =-( 1/1 )Log2( 1/1 )-(0/l)Log2(0/l )=0+0 = 0
[0032] E(4) =-( 1/1 )Log2( 1/1 )-(0/l)Log2(0/l )=0+0 = 0 [0033]如果熵为0,则表明区分度越高;熵为1,则表明没有区分度;
[0034] 故这三个不同的备件代码可以通过VIN4做区分。
[0035]确定完每个维度如何分类后,不同维度之间的优先级别通过信息增益区分Gain (Sample,Action) = E(sample)_sum( | Sample(v) | /Sample*E(Sample(v)))则Gain(VIM)= E(S)-(l/3)*E(5)-(l/3)*E(3)-(l/3)*E(4) = l-0 = lGain(VIN6)=E(S)-(l/3)*E(l)-(2/ 3)*E(2) = l-0-2/3=l/3Gain(VIN78)=E(S)-(l/3)*E(4B)-(l/3)*E(8K)-(l/3)*E(4F) = 1-0 = 1
[0036]如果信息增益越大,则表明分类优先级越高;反之,优先级越低。
[0037]所以,底盘号第4位(VIN4)和底盘号78位(VIN78)的分类优先级相同,其次是底盘 号第6位(VIN6)。
[0038] 通过以上关键步骤,可将备件代码按照底盘号第4位(VIN4)、底盘号第6位(VIN6) 和底盘号78位(VIN78)区分。
[0039] 综上所述,备件检索方法的基本步骤是:
[0040] 将维修备件表同一维度按信息熵做区分;
[0041 ]将维修备件表不同维度按信息增益划分优先级;
[0042]按照1、2步划分的优先级和区分程度画出决策树;
[0043] 输入一个规则的底盘号,系统根据¥預123、¥1财、¥預6、¥預78以及得出的决策树输 出该车型下的备件代码。
[0044] 该备件代码通过关联备件价格表,得到备件的中文名称、价格和现在使用状态以 及备件的适用车型信息。
[0045] 上述技术方案的获得,是在将不同车型、不同排量、不同发动机变速箱类型所对应 的备件代码逐一归类进行分析对比后,发现在相同主组号前提下,车型排量等信息不同,所 对应的备件代码也不尽相同,为了找寻其中规律,使用了上述方法,以形成较完备且全面的 理论知识信息库。
[0046] 实施例3:具有与实施例1或2相同的技术方案,更为具体的,对于实施例1的步骤五 来说,
[0047] 所述步骤五中的创建语言模型,建立细胞词库包含如下步骤:
[0048] S1.1采集专业故障描述语言;
[0049] S1.2对所述专业故障描述语言进行词向量分解。
[0050] 所述语言模型的创建基于第n个所述细胞词的出现只与前面n-1个所述细胞词相 关的假设;所述一故障描述语句T出现权重的计算公式为:
[0051] P(T) =P(W1,W2,W3, ,Wn)
[0052] =P(W1) XP(W2 I Wl) XP(W3 I W1,W2) X …XP(Wn| W1,W2,…,Wn-1)
[0053] ~P(W1) XP(W2 I Wl) XP(W3 I W2)…P(Wn I Wn-1);
[0054] 其中,P⑴为所述故障描述语句T的权重,P(wn| wi,W2, ???,wn-i)为第n个所述细胞词 的权重。
[0055] 所述步骤五中的细胞词库中切词检索细胞词,并排列所述细胞词的步骤是:
[0056] S2.1针对所述一故障描述语句T在所述细胞词库中进行切词检索;
[0057] S2.2若检索到所述细胞词,计算所述细胞词的权重;
[0058] S2.3按照所述细胞词权重的大小排列所述细胞词。
[0059] S2.4若没有检索到所述细胞词,则将此次未检索到的所述细胞词存入新增细胞词 库。
[0060]所述S2.2步骤中所述细胞词权重的计算方法为:
[0061 ] S2.2.1计算每个所述细胞词的卡方统计量;
[0062] S2.2.2取所述卡方统计量分值最高的第i个细胞词,计算所述第i个细胞词在第j 个故障描述中出现的次数;所述S2.2.1步骤所述卡方统计量分值的计算方法为:
[0063] weight = round( (10 X (l+lg(tfij))/(l+lg(lj))),n);
[0064] 其中tfij为第i个细胞词在第j个故障描述中出现的次数,lj为第j个故障描述的长 度,n为3-6的整数。
[0065] 利用决策树模型的决策分类,形成故障码对应工项的诊断数据库,该步骤中,还包 括结合元器件测量值给出维修解决方案(工项)。
[0066]更为具体的,
[0067]本实施例通过将自然语言数字化达成将自然语言理解的问题转化为机器自学习 的问题。
[0068] (1)构建基础语料库
[0069] 创建基础语料库的方法为给定一个字符串,它的自然语言的概率是P(wl,w2, w3,…,wn),wl到wn依次是这句话的各个细胞词。
[0070] 模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词 都不相关,整句的概率就是各个分词出现概率的乘积。
[0071] 对于一个故障描述T,它的概率计算公式为:
[0072] P(T) =P(wi,W2,W3, ,Wn)
[0073] =P(W1) XP(W2 I Wl) XP(W3 I W1,W2) X …XP(Wn| W1,W2,…,Wn-1)
[0074] ~P(W1) XP(W2 I Wl) XP(W3 I W2)…P(Wn I Wn-1)
[0075] (2)词向量分解:词向量为切分成若干个细胞词后的语句。每个故障描述T都可表 示成n维的词向量,T=(wi,W2, . . .,wn),其中wi到wn为各个词向量中包含的各个细胞词。 [0076]以汽车故障为例:
[0077]故障描述为:
[0078] P0021 A凸轮轴位置(气缸列2)_正时过度超前
[0079] 以词向量表示上述故障描述语句,上述故障描述语句可以用词向量(Wl,W2,W3,…, Wn)。其中,W1为凸轮轴,W2为位置,W3为气缸,W4为正时,W5为过度。选取各个细胞词作为特征 项,其中Wi表示第i个特征项。
[0080] 算出各个细胞词的卡方统计量,然后在训练集中取分值最高的第i个细胞词作为 代表词,从而找出与词向量(¥1,'\¥2,'?3,一,'?〇相关性最小的细胞词。
[0081] Wi的权重的计算公式为:
[0082] weight = round( (10 X (l+lg(tfij))/(l+lg(lj))),3);
[0083]其中tfij为第i个词向量在第j个故障描述中出现的次数,lj为第j个故障描述的长 度。Round函数四舍五入到指定的小数位,在上式中为小数点后第三位。
[0084]计算权重之后的故障描述词向量的特征表述为:

[0086] (1)检索排列细胞词:
[0087] 如图1所示,当用户输入故障描述T后,首先对故障描述T进行词向量分解将完整语 句切分成多个细胞词的组合。然后针对各个细胞词,在细胞词库中进行切词检索。如果检索 到了,则计算该细胞词的权重;如果没有检索到,则将此次未检索到的细胞词存入新增行业 细胞词库,再针对剩余细胞词进行检索,计算其概率。
[0088] 根据在细胞词库中检索到的各个细胞词并计算权重,按照权重从大到小排列细胞 。
[0089] (2)分析结果:
[0090] 以汽车故障为例:
[0091] 故障描述为:
[0092] P0021 A凸轮轴位置(气缸列2)_正时过度超前
[0093]在细胞词库中检索到的各个细胞词并计算权重,按照权重从大到小排列细胞词:
[0095] (3)使用判别分析法:
[0096] 故障描述T的词向量序列为T=(wl,w2,w3, . . .,wn),故障描述T中每个细胞词计算 权重后的序列为3=(81,82, 83,...,811)。词向量分类匹配最大概率的计算公式为:¥ = argmaxP(S|T)〇
[0097] 按照词向量分类匹配最大概率从高到低排列的句法规则进行分级:
[0099] (4)决策树分析
[0100] 根据上述句法规则针对细胞词分级的结果建立决策树。
[0101] 分类模型1
[0102] 如图2所示,凸轮轴为一级,位置、转换、调节为二级,传感器、促动器、响应、正时、 排气为三级。相对应的解决方案分别是:传感器对应凸轮轴位置传感器、发动机线束和发动 机控制单元,促动器对应发动机线束、发动机控制单元和凸轮轴调节器,正时对应发动机线 束、发动机控制单元、凸轮轴调节器、凸轮轴张紧器和正时链条,以此类推。粗箭头指向的解 决方案表示需要更换此配件的概率远大于更换其他细箭头指向的配件的概率,此概率为根 据大量维修数据而预先设定入决策树模型中的。因此,通过对故障描述"凸轮轴位置(气缸 列2)-正时过度超前"进行词向量分解并在细胞词库中进行检索,得到凸轮轴、位置和正时 三个细胞词,经计算细胞词权重并根据句法规则对细胞词进行排列得出凸轮轴位于一级, 位置位于二级,正时位于三级。经过决策树模型的决策分类,得出最有可能的维修解决方案 为更换或维修凸轮轴张紧器。
[0103] 分类模型2
[0104] 对故障描述语句"凸轮轴位置传感器= > 传感器不可信信号"进行词向量分解并在 细胞词库中检索,得到凸轮轴、位置、传感器三个细胞词。针对三个细胞词计算细胞词权重 并根据句法规则对细胞词进行排列得出凸轮轴位于一级,位置位于二级,传感器位于三级。 再结合元器件测量值,判断需要更换的配件。首先检查电线插头有无接触不良,针头弯曲。 如果是,则需要更换电线插头。如果否,则进入下一级决策树,检查凸轮轴传感器电压供应 是否在4.5-5.5V之间。如果是则检查发动机控制单元的信号电压,是否在4.5-5.5V之间。如 果否则需要更换发动机线束。以此类推,经过决策树模型的决策分类结合元器件测量值,给 出维修解决方案。
[0105] 本实施例可以远程并快速地识别设备的故障,准确的给出有效维修解决方案。检 测标准统一,避免由于人工判断带来的误差。并且节省了大量人力物力。
[0106] 实施例四:具有与实施例1或2或3相同的技术方案,更为具体的,对于实施例1的步 骤二来说,
[0107] 所述对故障码识别和分类的方法,包括:
[0108] 首先利用训练数据集构建朴素贝叶斯分类器,具体步骤为:
[0109] S1:对训练集中的故障码进行人工分类,人工分类后的类别集为c:
[0110] C= {ci,C2,…,Ci,…,cn};
[0111] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
[0113] TFiS特征词i的词频;^为特征词i在所有故障码中出现的次数,表示故障码 中所有特征词的出现次数总和;
[0115] IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数,{k:Wi G ek}表示包含 特征词i的故障码数;
[0116] TF-IDF权重值为:TF-IDF = TF X IDF,也就是是词频与逆向文件频率的乘积;
[0117] S3:根据TF-IDF权重值筛选出特征词并建立特征词库,将故障码e定义成若干个特 征词的集合:
[0118] e= {wi,W2,…,Wn}
[0119] S4:分别计算每个类别中特征词在该类别条件下的条件概率,依据贝叶斯定理计 算出某个故障码e属于Cl类故障的概率,具体公式如下:
[0120] P(ci|e) = [P(e|ci)P(ci)]/P(e)
[0121] 其中,P(e)为从故障码空间中随机抽取一个故障码e的概率;P(Cl)为一个故障码 类别Cl在故障码空间所占比率;P(e| Cl)为对于给定的故障码类别(^中故障码e的出现概率;
[0122] 对于每个故障码类别而言,从故障码空间中随机抽取一个故障码的概率都是一样 的,因此P(e)可以忽略不予计算,这样公式(1)就可以写成如下形式:
[0123] P(ci | e) °cP(e | Ci)P(Ci)
[0124] 计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类 结果,具体为:
[0125] G(e) =argmax{P(e | Ci)P(ci)} 〇
[0126] S5:构建朴素贝叶斯分类器。
[0127] 然后对新故障码进行具体分类,具体为:
[0128] 更具体的,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待 匹配的故障码enew,它们的分词情况如下:
[0129] ei= {W1,W2,W3,W4}
[0130] enew= {w2,W3,W5}
[0131 ]步骤1:由这两组的特征词集合构成一个向量空间:
[0133]步骤2:结合向量空间,分别得到两个故障码的词向量值:

[0136]步骤3:利用余弦相似度计算两个故障码近似情况,具体公式如下:
[0138] 步骤4:如果所计算的相似度值大于80%,则可以判断这两个故障码是相同的;如 果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似 度计算。
[0139] 采用以上技术方法,能够取得如下的技术效果:准确地自动分类不同车型的故障 码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的探索。能节 省大量的劳动力,缩短工作周期,降低成本。
[0140]以上所述,仅为本发明创造较佳的【具体实施方式】,但本发明创造的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明 创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之 内。
【主权项】
1. 一种基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法,其特征在 于,包括 步骤一.采集车辆信息数据; 步骤二.对故障码识别和分类; 步骤三.解析车辆VIN码得到变量,所述变量包括由VIN码解析得到的发动机排量、车身 类型、发动机变速箱类型; 步骤四.对变量所对应的备件代码做决策树分析,完成变量数据归类形成备件信息,并 建立索引,形成诊断知识库; 步骤五.创建语言模型,建立细胞词库,在所述细胞词库中切词检索细胞词,并排列所 述细胞词,利用决策树模型的决策分类,形成故障码对应工项的诊断数据库; 步骤六.将诊断数据库与诊断知识库关联,并建立主键; 步骤七.对车辆故障生成的故障码识别,并通过关键字解析车辆VIN码得到的变量以进 行分类检索,得到工项及备件信息。2. 如权利要求1所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于,所述步骤四中以维修备件表的历史记录为数据基础,通过决策树模型对备 件做分类; 备件检索方法的步骤是: (1) 将维修备件表同一维度按信息熵做区分; (2) 将维修备件表不同维度按信息增益划分优先级; (3) 按照步骤(1)、(2)划分的优先级和区分程度画出决策树; (4) 输入一个规则的VIN码,根据VIN码以及得出的决策树输出该车型下的备件代码。3. 如权利要求2所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于,所述备件代码关联备件的价格表,所述备件信息包括备件的中文名称、价 格和现在使用状态以及备件的适用车型信息。4. 如权利要求1所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于,所述步骤五中的创建语言模型,建立细胞词库包含如下步骤: S1.1采集专业故障描述语言; S1.2对所述专业故障描述语言进行词向量分解。5. 如权利要求4所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于:所述语言模型的创建基于第n个所述细胞词的出现只与前面n-1个所述细 胞词相关的假设;所述一故障描述语句T出现权重的计算公式为: P(T)=P(wi,W2,W3,-- - ,Wn) = P(W1) XP(W2 | Wl) XP(W3 | W1,W2) X …XP(Wn | W1,W2,…,Wn-1) ~P(W1) XP(W2 | Wl) XP(W3 | W2)…P(Wn| Wn-1); 其中,P ( T )为所述故障描述语句T的权重,P ( Wn I Wl,W2,???,Wn-1)为第n个所述细胞词的权 重。6. 如权利要求1所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于,所述步骤五中的细胞词库中切词检索细胞词,并排列所述细胞词的步骤 是: S2.1针对所述一故障描述语句T在所述细胞词库中进行切词检索; S2.2若检索到所述细胞词,计算所述细胞词的权重; S2.3按照所述细胞词权重的大小排列所述细胞词。7. 如权利要求6所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于, S2.2.1计算每个所述细胞词的卡方统计量; S2.2.2取所述卡方统计量分值最高的第i个细胞词,计算所述第i个细胞词在第j个故 障描述中出现的次数;所述S2.2.1步骤所述卡方统计量分值的计算方法为: weight = round( (10 X (l+lg(tfij))/(l+lg( lj))) ,n); 其中tfij为第i个细胞词在第j个故障描述中出现的次数,lj为第j个故障描述的长度,n 为3-6的整数。8. 如权利要求1所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方 法,其特征在于,所述对故障码识别和分类的方法,包括: 首先利用训练数据集构建朴素贝叶斯分类器; 然后对新故障码进行具体分类; 构建朴素贝叶斯分类器的步骤为: S1:对训练集中的故障码进行人工分类; S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值; S3:根据TF-IDF权重值筛选出特征词并建立特征词库; S4:分别计算每个类别中特征词在该类别条件下的条件概率; S5:构建朴素贝叶斯分类器。9. 如权利要求8所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的方法,其特征在于,步骤S2中的 TFiS特征词i的词频;^为特征词i在所有故障 ). 码中出现的次数,EjWj表示故障码中所有特征词的出现次数总和;IDFi为特征词i的逆向文件频率;E为语料 j 库中故障码的总数,{k:WlGek}表示包含特征词i的故障码数; 步骤S2中的TF-IDF权重值为: TF-IDF = TFXIDF TF-IDF权重值是词频与逆向文件频率的乘积。10. 如权利要求8所述的基于决策树分类和故障码分类的车辆远程诊断与备件检索的 方法,其特征在于,对新故障码进行具体分类,设在类别i中的故障码为 ei,同时还有个待匹 配的故障码enew: 步骤1:由这两组的特征词集合构成一个向量空间: 步骤2:结合向量空间,分别得到两个故障码的词向量值: 步骤3:利用余弦相似度计算两个故障码近似情况; 步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如果所 计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计 算;步骤S3中判断两个故障码近似情况,具体公式如下:
【文档编号】G05B23/02GK106054858SQ201610365652
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】田雨农, 刘亮
【申请人】大连楼兰科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1