我们在研究某些问题时,需要处理带有很多变量的数据。变量和数据虽然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少数变量来代表所有的变量,用来解释研究者所要研究的问题,化繁为简,抓住关键,也就是降维思想。本文以黄金期货为例,通过对其基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
我们在研究某些问题时,需要处理带有很多变量的数据。变量和数据虽然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少数变量来代表所有的变量,用来解释研究者所要研究的问题,化繁为简,抓住关键,也就是降维思想。本文以黄金期货为例,通过对其基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
主成分分析法的核心思想
我们在研究某些问题时,需要处理带有很多变量的数据。比如,研究房价的影响因素,需要考虑的变量有物价水平、土地价格、利率、就业率等。变量和数据很多,但可能存在噪音和冗余,因为这些变量中有些是相关的,那么就可以从相关的变量中选择一个,或者将几个变量综合为一个变量,作为代表。用少数变量来代表所有的变量,用来解释所要研究的问题,就能化繁为简,抓住关键,这也就是降维的思想。
主成分分析法(Principal Component Analysis,PCA)就是一种运用线性代数的知识来进行数据降维的方法。它将多个变量转换出少数几个不相关的变量来,但转换后的变量能比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来表达各原始变量之间的信息。
具体来看,在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大且和第一变量不相关,称为第二主成分。依次类推,i个变量就有i个主成分。其中,Li为p维正交化向量(Li×Li=1),Zi之间互不相关且按方差由大到小排列,则称Zi为X的第i个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量。可以证明,λi所对应的正交化特征向量,即为第i个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量K满足Σλk/Σλj>0.85。
图为相关变量线性转换
主成分分析法的核心思想是降维,而降维的基础是变量之间的相关性。主成分分析法不要求所有变量都相关,但部分变量之间的相关性比较大才能满足降维的条件,否则强制对不相关的变量进行降维,主成分分析法就失去了实际意义。因此,对于价格内在影响因素相关度较强的期货品种,用主成分分析法进行分析研究是比较合适的,而对于影响因素相关度较弱的期货品种不适合。
那么主成分分析法是如何降维的呢?我们从坐标变换的角度来获得一个感性的认识。
图为主成分分析法降维正态分布
在短轴上,观测点数据的变化比较小,如果把这些点垂直地投影到短轴上,那么有很多点的投影会重合,这相当于很多数据点的信息没有被充分利用到。而在长轴上,观测点的数据变化比较大。因此,如果坐标轴和椭圆的长短轴平行,那么代表长轴的变量直接可以从数据集的原始变量中找到,它描述了数据的主要变化。而另一个原始变量就代表短轴的变量,描述的是数据的次要变化。
在极端情况下,短轴退化成一个点,那么就只能用长轴的变量来解释数据点的所有变化,就可以把二维数据降至一维。不过,坐标轴通常并不和椭圆的长短轴平行,就像上图所展示的那样。因此,需要构建新的坐标系,使得新坐标系的坐标轴与椭圆的长短轴重合或平行。这需要用到坐标变换,把观测点在原坐标轴的坐标转换到新坐标系下,同时也把原始变量转换为长轴的变量和短轴的变量,这种转换是通过对原始变量进行线性组合的方式而完成的。
举例来说,一个观测点在原X―Y坐标系中的坐标为(4,5),坐标基为(1,0)和(0,1),如果长轴为斜率是1的线,短轴为斜率是-1的线,新坐标系以长轴和短轴作为坐标轴,那么新坐标基可以取为和。我们把两个坐标基按行放置,作为变换矩阵,乘以原坐标,即对原坐标进行线性组合,可以得到该点在新坐标系下的坐标。可以看到,变换后长轴变量的值远大于短轴变量的值。
如果长轴变量解释了数据集中的大部分变化,那么就可以用长轴变量来代表原来的两个变量,从而把二维数据降至一维。椭圆的长轴和短轴的长度相差越大,这种做法的效果也就越好。本文以黄金期货为例,使用主成分分析法,对影响黄金期货价格的基本面变量数据进行降维,构建其量化交易策略。
影响黄金价格的主要因素
黄金作为一种特殊的大宗商品,具有商品、货币和投资避险的多重属性。本文从黄金的供需、经济数据、金融资产三个维度中,选一些基本面因子对黄金价格的影响进行分析。
首先来看黄金的供需。作为一个大宗商品,黄金的上游供给量受到金矿开采以及废金回收的影响,而主要的下游需求可分为制造业需求(珠宝首饰、工业材料等)和金融投资需求。此外,像央行这样的大型市场参与者的售金、买金行为也会影响市场供需格局。
其次来看经济数据。黄金作为金融投资品,受到所处时期经济周期的影响,比如,经济滞涨时期,黄金的表现通常较好,投资者也更愿意将资金配置在黄金上。经济数据除了描绘当前的经济图景外,也会影响各国央行的货币政策。而以美联储为代表的大国央行的货币政策,也对同时期黄金价格走势产生比较大的影响。
最后来看金融资产。一方面,一些金融资产的变化可以直接影响黄金价格和投资者偏好。比如,在利率较低的时期,黄金的持有成本相对较低,配置价值也相对较高。外汇的波动会直接影响以该货币计价的黄金价格等。另一方面,一些金融资产和黄金受到相同影响因素的影响,价格波动有着较高的相关度,并且能够更好更快地反映当时市场的经济和金融氛围。
根据以上分析,笔者选取了10个与黄金相关度较高的基本面指标进行分析回测,分别是美国10年期国债收益率、美国10年期国债实际收益率、美元指数、VIX恐慌指数、美国失业率、美国新增非农就业人数、美国CPI、美国PPI、美国ISM制造业PMI、各国央行和其他机构黄金需求。
数据处理
数据预处理
商品期货的基本面数据具有种类多、时间离散、公布时间不规律等特点,需要对其进行预处理,预处理的主要目的是将其转化为可以对比分析的数据。对其进行数据公布频率的分类,并将其在时间上进行对齐处理。在数据处理时,要注意美国数据的公布时间和国内数据公布时间的时区差异,以及月度和季度数据公布的滞后性。
Z―Score模型
由于基本面数据量纲不统一,需要将其处理成无量纲且可对比的数据。在基本面分析中,一般采用Z-Score的方法对基本面数据进行处理。Z-score模型是以多变量的统计方法为基础,以破产企业为样本,通过大量的实验,对企业的运行状况、破产与否进行分析、判别的系统。具体处理方法为,将原始数据减去一段时间的均值再除以这段时间数据的标准差。Z-Score数据能够真实地反映一个分数距离平均数的相对标准距离,能确实反映原始数据的波动率信息。
举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义,但从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。
量化回测
变量选取
首先要确定降维后的变量个数,其次通过对其波动变量方差占比进行分析,最后选出对变量集合波动贡献较大的变量。
图为变量波动方差贡献分布
从波动的贡献来看,波动率贡献最大的前四个变量对数据整体波动率贡献分别为25.24%、16.74%、12.85%和11.76%,均大于10%。考虑到后面两个影响较少和尽量精简模型输入,选取最为重要的两个变量。确定好最终的变量个数后,用主成分分析法对数据进行降维处理,降维后得到两个新的数据序列。
变量分析
为方便识别,降维后的变量序列称为principalcomponent1和principalcomponent2。对原始基本面数据变量进行编码:fx为美国10年期国债收益率;realfx为美国10年期国债实际收益率;dollarindex为美元指数;vixindex为VIX恐慌指数;lossjob为美国失业率;offfarm为美国新增非农就业人数;uscpi为美国CPI环比;usppi为美国PPI环比;uspmi为美国ISM制造业PMI;balancedata为各国央行和其他机构黄金需求量。
图为原始变量和降维后变量关系(绝对值)
从上图可以看出,和降维后数据关系较为密切的变量为美国10年期国债收益率、美国10年期国债实际收益率、美国CPI环比和PPI环比等数据,这说明在这10个基本面的变量中,单个变量对其他的变量影响较大的为以上四个变量。在实际分析中,美国10年期国债收益率、美国10年期国债实际收益具有较高的相关性,CPI和PPI长期走势趋于统一。因此,对基本面影响较大的两个变量可以概括为美国10年期国债收益率和CPI。部分数据,如各国央行和其他机构黄金需求量公布频率较低,经过数据处理后,整体波动不大,弱化了它对其他变量的影响。美元指数和VIX指数尽管公布频率较高,但整体对基本面数据影响较小。
数据回测
对降维后的两个变量进行处理,构建与黄金价格的关系,其较为直接的想法是对两个变量进行赋权,构建成一个包含两个变量的线形变量。
综合变量被设计成一个与黄金期货价格正相关的变量。从原始变量和降维后变量关系图中可以看出,principalcomponent1与美国10年期国债收益率相关度较高,由此可以判断它与黄金价格为负相关关系;principalcomponent2与美国CPI、PPI相关度较高,由此可以判断它与黄金价格为正相关关系。不过,在构建变量时,不能简单地做权重分布,还要考虑方向问题。
图为降维后的变量走势
由于前期做了数据的Z-Score处理,数据本身具有均值回复的特征,类似布林带指标,设定一个阈值,当综合指标低于阈值的反数时,做多黄金期货;在综合指标高于阈值时,做空黄金期货。为充分反映趋势,当做多时,综合指标高于阈值时平仓;当做空时,综合指标低于阈值的反数时平仓,平仓和开仓不同时进行,不做止损和止盈。
数据回测中,采用黄金期货指数,资金不加杠杆,策略的开平仓费率设为0.02%,数据结果仅供投资者参考。用年化波动率对收益净值进行仓位控制,控制目标为年化波动率为10%,其收益走势如下:
图为收益净值和仓位控制后净值
该量化策略近10年时间共交易58次,做多38次,做空20次,持有时间波动较大,最近一次交易为2019年6月10日收盘做多,多单持有至今。策略不经仓位控制的年化收益为8.22%,最大回撤为23.20%;经仓位控制后年化收益为7.15%,最大回撤为10.36%。
总结
本文对黄金期货的基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
通过数据回测,笔者发现,基本面数据对黄金的量化择时(利用数量化的方法,通过对各种宏观、微观指标的量化分析,试图找到影响大盘走势的关键信息)起到一定效果,在不加杠杆的情况下,总体年化收益在7%以上。在数据降维后,研究发现,黄金基本面数据较为核心的影响因素为美国10年期国债收益率和CPI,美元指数和VIX指数对基本面数据的整体影响则较弱。
(作者单位:申银万国期货)
文章作者:FCA外汇,如若转载,请注明出处:http://www.809030.com/futures/76063.html