1数据和方法论
1.1样本与指标选取
影响房价的因素众多,考虑到数据的可获得性,我们选取江苏省9个指标2000-2010年的年度汇总数据以及苏南、苏中、苏北三地区2004-2010的年度面板数据.由于省统计年鉴和地级市的差别,面板数据用城镇人均住房面积代替汇总数据中的城镇人均建筑面积.其中汇总数据的CF>I以1999年的数据为基期100,面板数据以2003年的为基期100.所有数据均来自于江苏省统计年鉴、江苏省各市统计年鉴、统计公告以及门户网站.分析软件SAS9.0以及SIMCA-P12.0.
1.2偏最小二乘回归法
偏最小二乘回归法是一种新型的多元统计数据分析方法,它在建模过程集中了主成分分析、典型相关分析以及多元线性回归分析技术,不仅考虑了自变量的信息,也考虑了因变量的信息,因此能够有效地解决多元回归分析中自变量存在多重共线性的问题,同时对样本容量也没有特殊要求.单变量的PLS方法的基本原理如下:设因变量Y和由p维自变量构成的集合X=(xux2,---,xp),PLS方法首先在矩阵X中提取成分h,要求尽可能携带X中的变异信息,且与Y的相关程度尽可能大.如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被h解释后的残余信息以及Y被Q解释后的残余信息进行第二轮的成分提取,如此往复,直到能够达到一个满意的精度为止.设最终对X共提取了m个成分“,…,“?偏最小二乘回归将实施Y对m个成分的回归,然后再表示成Y关于原变量X的回归方程.
2江苏省汇总数据分析
2.1多重共线性判断
多重共线性(Multicollineaxity)是指线性回归模型中的解释变量之间存在精确或高度相关关系.当回归模型中的自变量存在高度共线性时,虽然参数的OLS法估计量仍然是BLUE估计,但是其估计量的稳定性却很差.因此,在进行多元线性回归分析时,判断和处理多重共线性非常重繁一般来说,VIF值大于10,则表明自变量间存在高度共线性.条件指数是指最大特征值与每个特征值比值的平方根,其中最大条件数K称为矩阵X'X的条件数.一般来说,如果1 30,认为自变量间存在高度的多重共线性.此处给出各变量的VIF值。
2.2成分个数的确定
在偏最小二乘回归分析中,通常采用交叉检验(CrossValidation,CV)方法来确定PLS的成分数,其具体的方法步骤如下:1)把所有的样本分成两个部分,第一部分是除去某个样本点i的所有样本点集合,用这个部分样本点并使用k个P$S成分拟合一个方程;把刚才排除的样本点代入该拟合方程中,得到M—i)。虽然预测误差PRESS在选择5个成分时达到最小,但是在0.1的水乎下,使得选择5个成分的模型与其他模型之间的差异不显著的最小的成分个数为1,所以我们选择1个主成分.此外,根据PLS的精度分析技术分析发现,当取1个PLS回归成分时,自变量X的累计信息利用率将达到97.51%,同时能解释因变量y的91.22%的变异信息.说明选取的这个主成分对自变量和因变量的解释能力非常好.
3苏南、苏中、苏北面板数据分析
考虑到江苏的发展具有明显的地域差异性,根据地理位置主要分为苏南(包括苏州、无锡、常州、镇江、南京五个地级市)、苏中(包括扬州、泰州、南通三个地级市)、苏北(包括徐州、淮安、连云港、宿迁、盐城五个地级市)三模块.为了更全面的研究江苏不同地区房价的影响因素,我们分别对苏南、苏中以及苏北进行房价的影响因素研究.首先,还是对三地区的数据进行多重共线性诊断.经计算,三地区的条件数分别为25.76、40.19和23.2.说明变量间存在严重的多重共线性.因此,一般多元回归分析方法仍然不适合此处的研究.接着分别对三地区做交叉有效性分析,结果显示苏南需要选择2个主成分.自变量X的累计信息利用率达到86.94%,能解释因变量y的87.97%的变异信息.苏中地区选择1个主成分,自变量X的累计信息利用率达到81.7%,能解释因变量j/的87%的变异信息.苏北地区連择1个主成分,自变量X的累计信息利用率将达到72.05%,能解释因变量y的81.6%的变异信息.说明选取的主成分对自变量和因变量的累积解释能力还是令人满意的.
0人已收藏
0人已打赏
免费0人已点赞
分享
城市规划设计
返回版块15.37 万条内容 · 248 人订阅
阅读下一篇
做一个详规,一般业主会向设计提哪些要求请各位高手赐教,不甚感激! 1、在做一个详规的时候,开讨论会议上,一般业主会向设计提哪些要求(可以尽量告诉我一些苛刻的要求)? 2、面对这些要求怎么来应对?
回帖成功
经验值 +10
全部回复(7 )
只看楼主 我来说两句回复 举报
回复 举报