合肥市二手房价多元线性回归预测模型
来源:用户上传
作者:
[提要] 房地产价格变化一向是社会关注的热点。本文从链家二手网站上爬取了近万组合肥市截止到2018年3月的最新二手房交易数据,据此建立因变量为二手房售价,自变量分别为建筑面积、使用年限、户型等11个变量的多元线性回归模型,并对模型进行优化,最终得到较优的二手房价预测模型,为合肥二手房交易各方提供一种有实用价值的房价定价工具。
关键词:合肥二手房价格;房价预测模型;逐步回归
本文为云南师范大学研究生核心课程建设项目(项目编号:YH2018-C08);指导老师:郭民之
中图分类号:F293.3 文献标识码:A
收录日期:2019年2月25日
一、引言
住房是我国城乡居民的一个基本生活需求,房屋价格一向是社会热点话题。2016年内合肥房屋均价涨幅为48.4%,涨幅排名全球第一,受到了国内外特别关注。本文选用了涉及建筑面积、户型、区域均价等13个影响因素共9,185组合肥市二手房相关交易数据,据此建立二手房售价预测模型,并对模型进行优化,为合肥二手房交易各方提供了一种有实际价值房价定价工具。
二、数据预处理
本文数据主要来自链家二手房网(https://hf.lianjia.com),全部为介于2017年3月至2018年3月合肥二手房交易相关数据,首先对原始数据进行拆分、归类和缺失值处理,共得到9,185组有效数据,每组数据中Price(房价)为因变量,其余13个变量为自变量,分别为:Avep(区域均价)、Deco(装修程度)、Towards(房屋朝向)、HT(户型)、HA(建筑面积)、TF(该楼层高度)、KF(楼层段)、HY(使用年限)、Focus(网络关注人数)、Visit(看房人数)、Ad(信息发布时间)、HCY(房产证是否满五年唯一)、NTS(是否靠近地铁站)。例如变量区域均价Avep就包括政务区、滨湖区、蜀山区、庐阳区、包河区、瑶海区六个城区的二手房均价、装修程度分为精装、简装、毛坯和其他四类;其余自变量类似处理,这里略。本文主要考虑二手房交易中常规的交易数据,故将原始数据中价格超高的数据(超过1,000万)直接删除。
三、多元线性回归模型
(一)模型定义。多元线性回归模型通常用来描述因变量y与p(p≥1)个自变量x1,x2,…,xp之间的线性相关关系,模型形式为:
y=?茁0+?茁1x1+…+?茁pxp+?着
其中,?茁0,?茁1,…,?茁p是回归系数,?着~N(0,?滓2)是随机误差。
(二)建立模型。本文借助R软件中线性回归函数lm()给出模型回归系数的最小二乘估计,并对回归方程和回归系数进行显著性检验,程序输出结果见表1,从中看出检验统计量F所对应的p值为2.2×10-16,说明回归方程是非常显著的,但是对诸回归系数的t检验所对应的p值显示自变量Towards、KF不显著,其余自变量和常数项显著;判定系数R2等于0.8349,拟合程度较高。(表1)
下面,用R软件中的逐步回归函数step()对上面建立的线性回归方程进行变量筛选和优化,程序输出结果见表2所示。(表2)
结果显示采用全部自变量作回归(即<none>所对应的情形)时,AIC为63173,当去掉不显著自变量Towards时,AIC达到最小值63171。当去掉另一个不显著的自变量KF时,AIC值为63173,与<none>情形所对应的AIC值一样。进一步用View(drop1(lm.step))函数查看在逐步回归模型(即已去掉Towards后的模型)基础上再逐一强制去掉一个自变量后的各种可能情形。可见,去除KF变量后,AIC稍稍变大:从63171.47变为63171.50,但变大的幅度很小。对应残差平方和(sum of Sq)1967.737最小,所以最终决定在原模型中去除Towards和KF两个变量。
现用R软件中函数summary()函数观察Price关于Avep、Deco、HT(不包括Towards、KF变量)等11个变量的回归模型的信息,并同样做逐步回归,结果如表3所示。(表3)
从表3中,看出检验统计量F所对应的p值几乎为零,说明回归方程是非常显著的,对诸回归系数的t检验所对应的p值显示全部11个自变量和常数项均显著;判定系数R2等于0.8349,模型拟合效果较好。
综上所述,我们得到了较优模型:
Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS
從模型中可以看出,因变量Price与Avep、Deco、HT、HA、TF、Visit、NTS等7个自变量成正相关关系(区域均价上涨、或装修程度越高、或住房面积越大、或户型越好等必然会导致房价越高),因变量Price与Focus、Ad、HY、HCY等4个自变量成负相关关系(网络关注度高(但无人买),或发售日期长,或使用年限长,或待售房产“满五唯一”,会导致房价下降)。可见,本文所得到的房价预测模型与二手房交易的实际意义是相符合的。
四、模型的交叉验证及实际预测示例
用十折交叉验证法对模型预测结果做交叉验证,其平均标准化均方误差(NMSE)为0.1659765,远小于1,模型交叉验证效果较好。
再随机抽取链家二手网上已经成交的10套房的房价与模型预测的房价作对比如表4所示。(表4)
预测模型使用说明:合肥某人有一房产,一个月前在链家二手交易市场中发布房屋出售信息,信息如下:房屋地处政务区,3室2厅,建筑面积为120平方米,简装房,共2层,房屋使用2年,网络关注有2人,0人参观,房产证没有满五年,靠近地铁站。将上述信息量化后带入到模型中,计算出的房价为255.49万元。于是买卖双方可在255.49万元这个参考价格进行议价,最终完成交易过程。
五、总结与评价
本文中最终得出了拟合度较高的房价预测模型,为合肥市二手房交易提供了一个有实用价值的房价参考定价工具,买卖双方或中介公司只要将模型中所需的变量值带入,就可得出相对应的二手房价,在这个参考房价上双方可以商议具体房屋交易价格。
当然,模型也存在着一些问题。根据经验,建立模型时去除的自变量Towards(房屋朝向)和KF(楼层处于哪段),在二手房交易中往往也是不能忽略的因素。另外,由于数据是从网络收集到的,有的重要数据资料难于收集,比如是否为学区房、房屋建筑的安全系数等。所以,模型还可以结合实际数据作进一步的优化。
主要参考文献:
[1]中商情报网.http://www.askci.com/news/dxf/20170119/
16085988495.shtml,2017.1.19.
[2]合肥链家网.https://hf.lianjia.com/.
[3]南方财富网.http://www.southmoney.com/paihangbang/201712/1834628.html,2017.12.
[4]费宇.郭民之.陈贻娟.多元统计分析——基于R[M].北京.中国人民大学出版社,2014.
[5]郭会利.多元回归分析的逐步回归预测模型[J].考试周刊,2009(26).
转载注明来源:https://www.xzbu.com/2/view-14784899.htm