您好, 访客   登录/注册

傅立叶级数+机器学习法双联预测小行星分类

来源:用户上传      作者:

  摘要:利用傅立叶级数对散点小行星光变数据进行曲线拟合,以获得小行星表示参数,选取傅立叶级数为6的拟合方式对单体或双体小行星光变曲线进行分类,并用机器学习算法中的SVM和决策树建立预测模型。检验结果表明,SVM模型对单体和双体小行星的预测正确率达到95%,相较于决策树正确率提高了10%,为从小行星实际观测数据直接推测双体小行星潜在相关应用提供了参考。
  关键词:傅立叶级数;机器学习;预测;小行星
  DOI:10. 11907/rjdk. 201152                                                                  开放科学(资源服务)标识码(OSID):
  中图分类号:TP301   文献标识码:A                 文章編号:1672-7800(2020)011-0042-04
  Asteroid Classification Based on Joint Fourier Series and Machine Learning
  XU Yuan-jing
  (State Key Laboratory of Lunar and Planetary Science,Macau University of Science and Technology,Macau 999078,China)
  Abstract:In this article, the Fourier series is used to fit the light change data of scattered asteroids, so as to obtain the representation parameters of the asteroids. A fitting method is choser with a Fourier series of 6 to classify the light curve of single or binary asteroids, and SVM and decision tree in machine learning algorithm are used to build prediction model. The result shows that the accuracy rate of SVM model predicting single and binary asteroids is 95%, which is 10% higher than that of decision tree. This method can be applied to provide reference for directly estimating the potential twin asteroids from the actual observation data of the asteroids.
  Key Words:Fourier series; machine learning algorithm; prediction; asteroids
  0 引言
  小行星是太阳系中围绕太阳系质心运动的小天体,其保留了大量太阳系形成初期的珍贵信息[1]。但其本身不发射可见光,只有通过反射太阳光才能被观测到,目前通过测光观测获得行星自转轴在空间指向的小行星仅有几百颗[2]。小行星光变是指由于小行星自转引起的光度变化,对小行星进行激光观测,可得到小行星光变曲线[3]。小行星和地球在绕日公转过程中,它们与太阳的几何位置会变化,当运行到恰当位置时,才能在地球上被观测到,形成可观测窗口。不同观测窗口获得的小行星光变曲线存在差异,故通过积累多个观测窗口的多条光变曲线数据可反演计算出小行星形状、自转轴指向及表面基本光学特征[4]。因小行星数量众多,实际观测数据量将非常庞大,且观测过程中可能出现两个或多个小行星共同旋转的情况。
  近年来,太阳系中所有小行星种群中都发现了双星系统,其构成了近地小行星(NEA)和小型主带小行星的主要部分[5]。在近地小行星中,双体小行星数量约占其总数的15±4%[6-7]。双体小行星模型的不确定性及其附近复杂多变的动力学环境,对双体小行星探测任务设计提出了挑战[8]。
  1965年,张鈺哲等[9]使用60cm望远镜结合光电倍增管对小行星(26)Proserpina进行时序测光,获得该小行星的光变曲线。但在小行星实际测光过程中,只能测得一些分散的数据点。为了从这些分散的数据点中找到其内在规律,需运用多项式或函数逼近这些已知点,许多学者对其进行了研究。如张勤[10]认为最小二乘法是一种简便、有效的拟合方法;肖轶军等[11]提出基于迭代最近点的优化方法;包健等[12]研究由输入层神经元数、输出层神经元数及样本点数确定隐含层神经元数的BP神经网络结构。但目前通过计算机模拟预测小行星特性的研究很少。   本文尝试了傅立叶级数、多项式、高斯、神经网络4种拟合方式,最后确定采用精度最高的傅里叶级数对小行星测光数据进行拟合,以期获得小行星表示参数,找出其特征;通过机器学习法对单体和双体小行星光变曲线进行检验,以推算哪些是潜在可能的双体小行星。
  1 傅里叶级数
  傅里叶级数(Fourier Series)是一种将波状函数表示为简单正弦波的方法,对周期现象进行数学分析可将任何周期函数或周期信号分解为一组简单的振荡函数(可能由无限元素组成),即正弦函数和余弦函数(或等效地使用复指数)。
  设定傅立叶级数为N、矩阵大小为N×2N+1,矩阵第一列为常数项,第二列至N+1列为cos(x)-cos(Nx),第N+2至2N+1列为sin(x)-sin(Nx),得到矩阵M为:
  M=1cosx1cos2x1?cosNx1sinx1sin2x1?sinNx11cosx2cos2x2?cosNx2sinx2sin2x2?sinNx21cosx3cos2x3?cosNx3sinx3sin2x3?sinNx31cosx4cos2x4?cosNx4sinx4sin2x4?sinNx4?????????1cosxNcos2xN?cosNxNsinxNsin2xN?sinNxN      (1)
  y的线性方程为:
   b=y1y2?yn           (2)
  AX=b可表示为:
  y1y2?yn=1cosx1cos2x1?cosNx1sinx1sin2x1?sinNx11cosx2cos2x2?cosNx2sinx2sin2x2?sinNx21cosx3cos2x3?cosNx3sinx3sin2x3?sinNx31cosx4cos2x4?cosNx4sinx4sin2x4?sinNx4?????????1cosxNcos2xN?cosNxNsinxNsin2xN?sinNxN
  a0a1?aNb1b2?bN   (3)
  求解得到傅立葉级数对应的每一个系数,包括a0~an,以及b1~bn,得到公式:
  ft=a0+a1cosω0t+a2cos2ω0t+?+b1sinω0t+b2sin2ω0t+?=a0+n=1∞ancosnω0t+bnsinnω0t  (4)
  2 机器学习算法
  机器学习是一类算法的总称,是指通过赋予机器学习的能力,使计算机能够从特定数据集中学习规律并作出预测。主要分为线性模型和非线性模型,非线性模型又分为传统机器学习模型(如SVM、KNN、决策树等)和深度学习模型。本文选取SVM和决策树两种方法进行研究。
  2.1 支持向量机
  支持向量机(Support Vector Machine,SVM)是基于统计学理论发展起来的一种机器学习方法,其以结构风险最小化原则为理论基础,引入核函数方法,将原始问题映射到高维空间,把待求解问题转换为二次优化问题,使SVM收敛于问题全局最优解。它能较好地解决小样本、非线性、高维数和局部极小点等实际问题,具有良好的泛化能力[13]。
  通过高斯径向核函数?(x)将训练集xi映射到高维线性空间,构造回归估计函数:
  f(x)=ω?(x)+b  (5)
  式中,ω为高维空间权向量,b为偏置常数。则最优问题为:
  minR=12ω2+12γi=1mξ2i
  yi=ωT?(x)+b+ξi      (i=1,2,…m)                 (6)
  式中,ξi为松弛因子。
  利用Lagrange函数求解上述优化问题,即:
  L(ω,,b,ξ,α,γ)=12ω2+12γi=1mξ2i-i=1mαiωT?(xi)+b+ξi-yi         (7)
  式中,αi∈R(i=1,2,…,m)为拉格朗日乘子。
  根据Karush-Kuhn-Tucher(KKT)优化条件,得到如下等式:
  ?L?ω=0→ω=i=1mαi?(xi)?L?b=0→i=1mαi=0?L?ξ=0→αi=γξi?L?αi=0→ωT?(xi)+b+ξi-yi=0      (8)
  代入式(4)消去ω和ξ,得到以下线性方程:
  01…m1K(x1+x1)+1γ…K(x1+xm)…………mK(xm+x1)…K(x1+xm)+1γ?bα1…αm=0y1…ym           (9)
  式中,K(xi,xj)为核函数。
  然后用最小二乘法求出α和b,即得到非线性预测输出模型。
  y=i=1mαiK(x,xi)+b          (10)
  2.2 决策树
  决策树(Decision Tree)是指在已知各种情况发生概率的基础上,通过构成决策树求取净现值期望值大于等于零的概率,从而评价项目风险、判断其可行性的决策分析方法,是直观运用概率分析的一种图解法[14]。假设T为训练集, 为T构造决策树时, 选择信息增益值作为分裂节点的属性及标准, 按照该标准将T分成n个子集。若第i个子集Ti含有的元组类别一致, 该节点即成为决策树的叶子节点而停止分裂。对于不满足该条件T的其它子集, 按照上述方法继续分裂,直至所有子集所含元组都属于一个类别为止[15]。   3 实例分析
  3.1 傅立叶拟合级数确定
  从DAMIT(Database of Asteroid Models from Inversion TEchniques)[16]小行星形状模型数据库的300多个小行星凸壳反演模型中,选取小行星Hebe的某组观测数据为样本,以二范数(观测结果与拟合结果之差)为精度参数。
  以小行星星等[17]为纵坐标,初始化后的旋转时间为横坐标,带入到傅立叶拟合公式中,并设置其级数N变化范围为1~18,依次得到二范数变化情况如图1、表1所示。
  根据图1、表1的拟合结果可知,随着N值的增加,小行星光变曲线拟合精度逐渐提高,而二范数会逐渐变小。二范数越小,表示曲線拟合精度越高。尤其当N从5变化到6时,二范数的值下降幅度较大。但随着N值继续增加,精度提升并不明显,而且可能导致光变曲线过拟合。为节省计算空间,本文确定N=6为测试标准,得到拟合曲线(见图2)。然后在拟合结果基础上增加时间序列,通过预测曲线推测光变曲线的周期变化情况(见图3)。
  得到傅里叶变换公式如下:
  f(x)=0.999 1+0.019 6cos(x)+0.008 2sin(x)+0.010 2cos(2x)+0.004 7sin(2x)+0.001 1cos(3x)+0.006 7sin(3x)-0.001 8cos(4x)-0.001 1sin(4x)+0.007 2cos(5x)+0.003 7sin(5x)+0.005 9cos(6x)+0.001 3sin(6x)   (11)
  3.2 数据筛选与处理
  在特定观测角度及照射角度下,本文通过改变小行星形状模拟得到100组光变曲线,其中单体和双体小行星各50组(见图4、图5)。
  对每一组光变曲线分别进行傅立叶级数N=6的拟合,得到拟合公式。傅里叶拟合公式中的第一项是常数项,主要代表函数起始位置,对描绘观测结果起着重要作用。但不同行星的该常数项差异很大,故在建立机器学习预测模型过程中,为能更好地找到单体或双体小行星的内在联系和相互区别,删除傅里叶拟合公式中的常数项,提取其中所有函数的指数项,并将其归类。
  由于各小行星星等不同,为方便计算,需要对样本数据进行归一化处理,使数据值都归一至[0,1]之间,归一化公式[18]为:
  x=x-xminxmax-xmin             (12)
  式中,x为标准化处理后的数据,x为标准化处理前的数据,xmin为样本数据中因素最大值,xmax为样本数据中因素最小值。
  选取训练集/测试集为50/50、60/40、70/30等不同组合,对预测模型进行测试。预测结果相似,但60/40方案误差最小,故本文方案选取60%的数据为训练集、40%的数据为测试集进行验证。
  3.3 预测结果分析
  将归一化后的小行星光变拟合数据作为输入值、判断结果作为输出值,单体小行星设为Class1,双体小行星设为Class2,通过SVM、决策树得到混淆矩阵(见图6、图7)。
  由图6、图7可知,SVM判断正确率为95%,而决策树仅为85%。
  由表2运行结果可知,SVM预测结果相比决策树,MAE降低了0.01,MAPE降低了0.5%,RMSE降低了0.103 5,Mspe降低了0.258 8。
  4 结语
  本文提出基于傅立叶级数与机器学习的双联预测算法,测试了傅里叶拟合级数N在1~18范围内的二范数变化情况。为在保证精度的同时节省计算空间,本文确定了N=6的单体和双体小行星光变数据拟合曲线。以机器学习算法中的SVM和决策树为例,建立单体小行星或双体小行星预测模型。研究结果表明,SVM预测精度优于决策树。该算法解决了依据小行星光变数据曲线判别是单体还是双体小行星的问题,对于进一步研究双体小行星旋转及轨道特征打下了基础。
  参考文献:
  [1] 杨彬. 小行星的测光和光谱研究[D]. 北京:中国科学院国家天文台, 2003.
  [2] DURECH J,HANUS J,OSZKIEWICZ D A,et al. New and updated convex shape models of asteroids based on optical data from a large collaboration network[J]. Astronomy & Astrophysics,2016,587: A108.
  [3] 李彬,赵海斌,王歆. 小行星(26)Proserpina的测光观测和建模研究[J]. 天文学报, 2015(4):28-38.
  [4] YANG B,ZHU J, GAO J,et al. Observation of 2000 DP107 in NAOC:rotation period and reflectance spectrum [J].  Planetary & Space Science, 2003, 51(6):411-414.
  [5] MARGOT J L. Binary asteroids in the near-earth object population[J].  Science, 2002, 296:1445-1448.
  [6] PRAVE C P. Photometric survey of binary near-Earth asteroids[J].  Icarus, 2006, 181(1):63-93.   [7] 杜燕茹,李翔宇,韩宏伟,等. 双体小行星系统平衡态与稳定性研究[J]. 深空探测学报,2019,6(5):456-462.
  [8] SCHEIRICH P, PRAVEC P. Modeling of lightcurves of binary asteroids[J].  Icarus, 2009, 200(2):531-547.
  [9] 張钰哲, 周兴海, 杨修义,等.  小行星光变曲线(Ⅳ)[J].  天文学报, 1981(2):65-69.
  [10] 张勤.  最小二乘估计在曲线拟合中应用的研究[J].  成功(教育),2011(18): 296-297.
  [11] 肖轶军,丁明跃,彭嘉雄. 基于迭代最近点的B样条曲线拟合方法研究[J]. 中国图像图形学报,2000(7): 585-588.
  [12] 包健, 赵建勇,周华英. 基于BP网络曲线拟合方法的研究[J]. 计算机工程与设计,2005, 26(7):1840-1841,1848.
  [13] 毕天腾,刘越,翁冬冬,等. 基于监督学习的单幅图像深度估计综述[J]. 计算机辅助设计与图形学学报,2018,30(8):1383-1393.
  [14] ABHISEK U. Support vector machine[J].  Computer Science, 2002 (4):1-28.?
  [15] 联合开发网. matlab例程[EB/OL]. http://www.pudn.com/Download/item/id/3707674.html.
  [16] 刘红岩,陈剑,陈国青. 数据挖掘中的数据分类算法综述[J]. 清华大学学报(自然科学版),2002(6):727-730.
  [17] EDBERG S J. International Halley watch amateur observers’manual for science comet studies [M]. Jwt Propulsion Lab,California Inst.of Technology,1993.
  [18] 白春红. 基于SVM模型的充填体强度与采场稳定性需求智能匹配研究[J]. 中国矿业,2019,28(11):104-108.
  (责任编辑:黄 健)
转载注明来源:https://www.xzbu.com/8/view-15383308.htm