合肥市二手房价多元线性回归预测模型

> 中国论文网 >
经济论文 >
合肥市二手房价多元线性回归预测模型

合肥市二手房价多元线性回归预测模型

来源:用户上传作者:

　　 [提要] 房地产价格变化一向是社会关注的热点。本文从链家二手网站上爬取了近万组合肥市截止到2018年3月的最新二手房交易数据，据此建立因变量为二手房售价，自变量分别为建筑面积、使用年限、户型等11个变量的多元线性回归模型，并对模型进行优化，最终得到较优的二手房价预测模型，为合肥二手房交易各方提供一种有实用价值的房价定价工具。
　　关键词：合肥二手房价格;房价预测模型;逐步回归
　　本文为云南师范大学研究生核心课程建设项目（项目编号：YH2018-C08）;指导老师：郭民之
　　中图分类号：F293.3 文献标识码：A
　　收录日期：2019年2月25日
　　一、引言
　　住房是我国城乡居民的一个基本生活需求，房屋价格一向是社会热点话题。2016年内合肥房屋均价涨幅为48.4%，涨幅排名全球第一，受到了国内外特别关注。本文选用了涉及建筑面积、户型、区域均价等13个影响因素共9，185组合肥市二手房相关交易数据，据此建立二手房售价预测模型，并对模型进行优化，为合肥二手房交易各方提供了一种有实际价值房价定价工具。
　　二、数据预处理
　　本文数据主要来自链家二手房网（https：//hf.lianjia.com），全部为介于2017年3月至2018年3月合肥二手房交易相关数据，首先对原始数据进行拆分、归类和缺失值处理，共得到9，185组有效数据，每组数据中Price（房价）为因变量，其余13个变量为自变量，分别为：Avep（区域均价）、Deco（装修程度）、Towards（房屋朝向）、HT（户型）、HA（建筑面积）、TF（该楼层高度）、KF（楼层段）、HY（使用年限）、Focus（网络关注人数）、Visit（看房人数）、Ad（信息发布时间）、HCY（房产证是否满五年唯一）、NTS（是否靠近地铁站）。例如变量区域均价Avep就包括政务区、滨湖区、蜀山区、庐阳区、包河区、瑶海区六个城区的二手房均价、装修程度分为精装、简装、毛坯和其他四类;其余自变量类似处理，这里略。本文主要考虑二手房交易中常规的交易数据，故将原始数据中价格超高的数据（超过1，000万）直接删除。
　　三、多元线性回归模型
　　（一）模型定义。多元线性回归模型通常用来描述因变量y与p（p≥1）个自变量x1，x2，…，xp之间的线性相关关系，模型形式为：
　　 y=？茁0+？茁1x1+…+？茁pxp+？着
　　其中，？茁0，？茁1，…，？茁p是回归系数，？着～N（0，？滓2）是随机误差。
　　（二）建立模型。本文借助R软件中线性回归函数lm（）给出模型回归系数的最小二乘估计，并对回归方程和回归系数进行显著性检验，程序输出结果见表1，从中看出检验统计量F所对应的p值为2.2×10-16，说明回归方程是非常显著的，但是对诸回归系数的t检验所对应的p值显示自变量Towards、KF不显著，其余自变量和常数项显著;判定系数R2等于0.8349，拟合程度较高。（表1）
　　下面，用R软件中的逐步回归函数step（）对上面建立的线性回归方程进行变量筛选和优化，程序输出结果见表2所示。（表2）
　　结果显示采用全部自变量作回归（即<none>所对应的情形）时，AIC为63173，当去掉不显著自变量Towards时，AIC达到最小值63171。当去掉另一个不显著的自变量KF时，AIC值为63173，与<none>情形所对应的AIC值一样。进一步用View（drop1（lm.step））函数查看在逐步回归模型（即已去掉Towards后的模型）基础上再逐一强制去掉一个自变量后的各种可能情形。可见，去除KF变量后，AIC稍稍变大：从63171.47变为63171.50，但变大的幅度很小。对应残差平方和（sum of Sq）1967.737最小，所以最终决定在原模型中去除Towards和KF两个变量。
　　现用R软件中函数summary（）函数观察Price关于Avep、Deco、HT（不包括Towards、KF变量）等11个变量的回归模型的信息，并同样做逐步回归，结果如表3所示。（表3）
　　从表3中，看出检验统计量F所对应的p值几乎为零，说明回归方程是非常显著的，对诸回归系数的t检验所对应的p值显示全部11个自变量和常数项均显著;判定系数R2等于0.8349，模型拟合效果较好。
　　综上所述，我们得到了较优模型：
　　 Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS
　　從模型中可以看出，因变量Price与Avep、Deco、HT、HA、TF、Visit、NTS等7个自变量成正相关关系（区域均价上涨、或装修程度越高、或住房面积越大、或户型越好等必然会导致房价越高），因变量Price与Focus、Ad、HY、HCY等4个自变量成负相关关系（网络关注度高（但无人买），或发售日期长，或使用年限长，或待售房产“满五唯一”，会导致房价下降）。可见，本文所得到的房价预测模型与二手房交易的实际意义是相符合的。
　　四、模型的交叉验证及实际预测示例
　　用十折交叉验证法对模型预测结果做交叉验证，其平均标准化均方误差（NMSE）为0.1659765，远小于1，模型交叉验证效果较好。
　　再随机抽取链家二手网上已经成交的10套房的房价与模型预测的房价作对比如表4所示。（表4）
　　预测模型使用说明：合肥某人有一房产，一个月前在链家二手交易市场中发布房屋出售信息，信息如下：房屋地处政务区，3室2厅，建筑面积为120平方米，简装房，共2层，房屋使用2年，网络关注有2人，0人参观，房产证没有满五年，靠近地铁站。将上述信息量化后带入到模型中，计算出的房价为255.49万元。于是买卖双方可在255.49万元这个参考价格进行议价，最终完成交易过程。
　　五、总结与评价
　　本文中最终得出了拟合度较高的房价预测模型，为合肥市二手房交易提供了一个有实用价值的房价参考定价工具，买卖双方或中介公司只要将模型中所需的变量值带入，就可得出相对应的二手房价，在这个参考房价上双方可以商议具体房屋交易价格。
　　当然，模型也存在着一些问题。根据经验，建立模型时去除的自变量Towards（房屋朝向）和KF（楼层处于哪段），在二手房交易中往往也是不能忽略的因素。另外，由于数据是从网络收集到的，有的重要数据资料难于收集，比如是否为学区房、房屋建筑的安全系数等。所以，模型还可以结合实际数据作进一步的优化。
　　主要参考文献：
　　[1]中商情报网.http：//www.askci.com/news/dxf/20170119/
　　16085988495.shtml，2017.1.19.
　　[2]合肥链家网.https：//hf.lianjia.com/.
　　[3]南方财富网.http：//www.southmoney.com/paihangbang/201712/1834628.html，2017.12.
　　[4]费宇.郭民之.陈贻娟.多元统计分析——基于R[M].北京.中国人民大学出版社，2014.
　　[5]郭会利.多元回归分析的逐步回归预测模型[J].考试周刊，2009（26）.
转载注明来源:https://www.xzbu.com/2/view-14784899.htm

查看更多→

合肥市二手房价多元线性回归预测模型

相关文章