决策树上市企业信用风险模型分析

发布于：2015-08-28 09:48:28 来自：环保工程/节能技术 [复制转发]

随着我国证券市场机制和企业破产制度的完善，信用风险问题日益突出，不但使企业遭受巨大损失，而且直接影响企业的生存和发展；此外，大量上市公司存在信用风险时，将有可能引发金融危机。因此，对上市公司信用风险的管理是非常必要和迫在眉睫的。而上市公司信用风险评估模型的建立是防范信用风险的重要手段，因此，研究上市公司信用风险评估这一课题，已经成为我国目前经济生活中亟待解决的一个重要问题。目前许多定量技术和支持工具、软件已付诸商业应用，继传统的比例分析之后，统计方法得到了广泛的应用，如判别分析和Logistic回归等。信用等级评估是通过对企业或个人的某些单一财务指标进行加权平均确定的。该方法的最大缺陷在于指标和加权值的确定带有很大的主观性，使得评估结果和实际状况有很大的出入。因此需要引入科学方法来确定有效评估指标，并建立准确的定量模型来解决信用等级评估的问题。近年来，信息技术得到了迅速发展，如数据挖掘技术等能从海量数据中智能发现有用的规则和知识，再加上我国上市公司信息披露制度的不断完善，使得我们的研究能够得到的数据资料也不断的增多，这些有利条件的出现使得我们对基于数据挖掘的上市公司信用风险评估模型的研究具有了数据基础和技术基础。
一、模型简介
(一)决策树算法
决策树是对已知类别的数据样本进行归纳学习获得的树形结构，树内每个非叶节点代表对一个属性取值的测试，每个叶节点代表一个类别。决策树方法利用信息理论的信息增益选择具有最大信息量的属性来建立决策树的一个节点，再根据属性字段的不同取值来建立树的分枝，如此对每个分枝重复递归建立整个决策树。产生决策树的基本算法如下：输入：训练样本，各属性均取离散数值，可供归纳的备选属性集合为attribute_list。输出：决策树算法：Gen_decision—tree创建一个节点Node；IF该节点中的所有样本均为同一类别cTHEN返回Node作为一个叶节点并标志为类别c；IFattribute_list为空THEN返回Node作为一个叶节点并标记为该节点所含样本中类别个数最多的类别；从atribute_list选择一个信息增益最大的属性test_atribute；将节点Node标记为teste：_atribut根据test_atribute=Vi条件，从节点Node产生相应的一个分枝，且设si为根据该分枝条件所获得的样本集合；IFsi为空THEN将相应叶节点标志为该节点所含样本中类别个数最多的类别，ELSE，将相应叶节点标志为由Gen_decision_tree(Si，attribute_list，test_atribute)返回的值。其中，信息增益的计算方法为：设S为一个包含S个数据样本的集合，类别属性可以取N个不同的值，对应于N个不同的类别ci，j∈{1，2，3，…，Nl，S为类~lJlcj中的样本个数。那么对一个给定数据对象进行分类所需的信息量为：Infor(S1，S2，…SN)=一pjlog2(pj)(1)j：1其中，PJ是任意一个数据对象属于类SJc；的概率，~pj=Sj／S。设属性V取v个不同的值{vv：…，V}，则利用属性V可以将集合s划分为v个子集{s，s…，s}，其中S包含了集合S中属性V取V值的那些样本。设S为子集Si中属于c；类别的样本个数。那么利用属性v划分当前样本集合所需要的信息熵可以计算如下Entr(v)：∑Sil+Si2+""*+SiNInfor(sS，…SN)(2)Infor(Sil,s一SiR)一pijlog2(p)(3)pSi…i+s(4)这样利用属性v对样本集合进行划分所获得的信息增益为：Cain(V)=Infor(S1S2，…SN)一Entr(V)(5)
(二)K最近邻法
K最近邻法简称KNN算法，在理论上是比较成熟的方法，最初于1968年由Cover和Hart提出，其思路非常简单直观。KNN方法是一种有监督学习的分类算法，它并不需要产生额外的数据来描述规则，它的规则就是数据(样本)本身，并不要求数据的一致性问题，也就是说K最近邻法在一定程度上减小了噪声样本对分类的干扰。KNN根据未知样本的K个最近邻样本来预测未知样本的类别，K个最近邻样本的选择是根据一定的距离公式判定的。KNN分类算法的基本原理为：首先将待分类样本Y表达成和训练样本库的样本一致的特征向量；然后根据距离函数计算待分类样本Y和每个训练样本的距离，选择与待分类样本距离最小的K个样本作为y的K爪最近邻；最后根据Y的K个最近邻判断y的类别。KNN算法必须明确两个基本的因素：最近邻样本的数目K和距离的尺度。K表示选择参考样本的数目，距离尺度对应一个非负的函数，用来刻画不同数据问的相似性程度。在KNN算法里对于模型的选择(尤其是K值)往往是通过对大量独立的测试数据、多个模型来验证最佳选择。
(三)Logistic回归模型
Logistic回归模型是一种非线性概率模型，其因变量是分类变量只有0和1两个取值。回归模型可表述为1ps=∑ckx其中x(k=1…2．，m)为上市公司信用风险评定中的影响变量，c(j=l，2…，m)为回归系数，通过回归或极大似然估计获得，Logisticl~归值P∈(0，1)为信用风险分析的判别结果。P是的连续增函数，S∈(一，+∞)。并且p=丽1=1p=1=0对某上市公司i(i=l…2．，n)来说，如果其Logistic回归值P。接近于0或(P一0)，则被判定为一类经营差的企业，若其Logistic回归值pl接近于l或(Pl一1)，则被判定为经营好的企业。并HPi／l~越远离0，表示该企业陷入财务困境的可能性越小；反之，表示该企业陷入则务困境的可能性越大。
二、基于决策树的上市公司信用风险评估模型实证分析
(一)指标体系建立
通过综合考虑信用风险的各种影响因素，借鉴我国财政部统计评价司的企业效绩评价指标体系和国有商业银行企业资信评估指标体系以及国内外有关文献的相关指标，在分类、汇总、整理的基础上，同时兼顾数据的可获取性原则和可量化原则，从企业盈利能力、偿债能力、营运能力和发展能力4个方面，选取了lO+财务指标。(1)盈利能力指标。企业获利能力是企业信用的基础，企业只有盈利，才有可能按时偿还债务。本文选取的反映企业赢利能力的指标有净资产收益率x1、销售(营业)利润率X2。(2)偿债能力指标。偿债能力是企业资信的保证，企业偿债能力如何，通常是评估企业资信评级最直接的依据，偿债能力归根结底是企业自有资产的变现能力。本文选取的反映企业偿债能力的指标有流动比率X3、速动比率X4和资产负债率X5。(3)营运能力指标。营运能力分析是对企业资金周转状况进行的分析，资金周转得越快，说明资金利用效率越高，企业的经营管理水平越好。本文选取的反映企业营运能力的指标有总资产周转率X6、存货周转率x7和应收账款周转率X8。(4)发展能力指标。发展能力反映企业未来发展前景及潜力。本文选取的反映企业发展能力的指标有资本积累率X9和总资产增长-~Xl0。将上市公司分为两组，第1组包含sT公司，认为该类企业具有较大的财务风险。非ST公司作为第2组，认为该类企业财务状况正常。若模型将sT组样本判为非sT组，则称为犯第一类错误；将非sT组样本判为ST$1~I，则称为犯第二类错误。
(二)样本选取
样本的选取为两分类模式，即违约和不违约。将ST上市公司作为财务状况异常一类，也即会发生违约的一类；将非sT公司作为财务状况正常的一类，即不会发生违约的一类。sT公司是指出现财务状况或其他状况异常，导致投资者难于判断公司的前景，权益可能受到损害的公司。本文实证分析中的原始数据来自于色诺芬数据库，随机选取我国深、沪两市交易所2009年公布的6O家sT公司作为一类经营“差”的企业，同时另随机选取75家不亏损公司作为一类经营“正常”的企业与之相匹配，因此，数据样本集由135家上市公司组成，然后从中任选30家sT公司及38家非sT公司组成训练样本集，余下的67家公司组成测试样本集。
(三)模型构造与检验
构造决策树，关键是找到样本空间的最优划分，ID3算法的属性选择策略就是选择信息增益最大的属性作为测试属性，从而确定样本空间的一个划分。但ID3算法存在着输出分支多，预测可靠性性差的问题。C4．5算法从ID3算法演变而来，提出用信息增益比来作为测试属性选择的依据，通过大量的实验测试表明：用C4．5算法构造的决策树较ID3算法的预测效果有更好的可靠性和健壮睦。实验模型运用数据挖掘软件WEKA3．6．3，根据C4．5算法以信息增益比最大为原则选取节点生成决策树，如图1所示。最终选出了6个好的属性作为决策树节点，x5为根节点，也就是资产负债率对于违约和履约分类的贡献程度是最大的。括号中的数代表平均有几个样本数据根据条件被分到了相应的类中，用10次迭代交叉验证法来验证模型的误差率，验证结果如下：正确分类的样本数5886．5671％错误分类的样本数913．4328％
(四)结果分析
本文运用决策树模型与Logistic和K最近邻模型进行了比较分析。从结果来看，三种模型都具有较好的预警效果，但相比之下，决策树模型的总体判定准确率更高，说明决策树模型对样本所包含的数据信息的学习比较充分。作为一种非线性映射，数据之间的自相关性以及个别数据的缺失对模型的预测效果影响不大。因此，决策树在分析和研究上市公司信用风险方面，具有良好的应用前景。从表中可以看出，决策树在测试样本集中的整体准确率(也即预测准确率)达到了87％，明显好~LogistiJfIlK最近邻模型的78％。在本实验过程中，在建立模型时考虑的是整体准确率，从这一角度看，决策树模型具有一定的优势。从三种模型的结果中比较，训练样本第一类错误率明显高于测试样本的第一类错误率。对此问题目前还不能做机理上的解释，但这种现象恰好是希望得到的。通过表1，还可以对模型的鲁棒性做一个比较。对于训练样本集，决策树的整体准确率是最高的，达到了75％，其次是Logistic模型的74％，效果最差的是K最近邻模型的66％。在测试样本集中，准确率(预测准确率)都有了不同程度的上升。变化率最大的是决策树，为12％；其次是K最近邻模型，为8％；变化率最小的是Logistic，仅为4％。可以看出，在三种模型中，决策树模型的鲁棒性最差，Logistic模型的鲁棒性最好。决策树模型的鲁棒性虽然不是最好的，但也保持了一个较好的水平，能够满足实际应用的要求。
综上所述，本文以我国上市公司作为研究对象，以因财务状况异常而被特别处理作为界定上市公司陷入财务困境的标志，采用交叉验证技术建立决策树模型，并与Logistic~IK最近邻模型进行了比较分析。实证结果表明决策树模型能有效地预测上市公司的信用风险，且适用性较好。当然，在分析过程中，存在以下有待改进之处，如：以上市公司样本代替所有企业，可能会造成典型性不强的问题；只考虑财务因素作为影响变量，未对非财务因素(如行业因素、其他宏观因素)加以考虑。

0人已收藏
0人已打赏
免费
0人已点赞
分享

复制链接新浪微博微信扫一扫

全部回复（1 ）

只看楼主我来说两句 抢板凳