炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:建榕量化研究)
事物内部的各要素之间,往往存在着对立统一的矛盾。在金融市场中,当人们普遍预期的行为模式未能出现时,常常只是因为代理变量选得不好,以致未能窥见其内部更为本质的精细结构。我们在近十几年的因子研究历程中,既收获了大量个性鲜明的独家因子,也从中领悟了系统普适的方法论——因子切割论,详见我们于2020年9月发布的专题报告《因子切割论》(魏建榕、苏俊豪)。
在2023年的专题报告《遗传算法赋能交易行为因子》(魏建榕,盛少成)中,我们创新性地提出“切割算子”,并结合其他算子和变量,利用改进的遗传算法流程,经过1轮10代的挖掘,得到了开源金工遗传算法因子,因子在样本内外整体表现优异。本篇报告我们尝试将因子切割论思想与神经网络模型结合,提升模型的信息提炼能力与预测效果。开源证券长期关注金融科技发展,本项研究的高效开展,得益于开源证券总部高性能服务器资源的稳定算力支持。
01
因子切割论回顾:剖析市场精细结构的利器
我们以开源金工“理想反转因子”的开发过程为例展开讨论。众所周知,
A
股市场中的反转效应比较显著,典型的代理变量可取为
Ret20
(最近
20
日的区间收益率)。然而,反转因子
Ret20
一方面是收益很强劲,另一方面却是稳定性很不理想、常常出现较大回撤。在这种“用之不安、弃之可惜”的困境下,对传统反转因子的改进,是一个非常具有吸引力的课题。
我们最初的灵感触发点,是来自咖啡店里一件非常简单直白的事情:既然花式咖啡的成分里可以有苦有甜,那么涨跌幅的成分里为何不能区分出反转和动量?我们留意到,传统反转因子本质上是一段区间的涨跌幅,可以被很自然地拆分为许多更小的时段。那么,会不会存在这样的情况:组成传统反转因子的各个时段中,某些时段贡献了很强的反转,而某些时段只是贡献了很弱的反转、甚至是贡献了动量效应?换而言之,信息在时间轴上的分布可能是不均匀的。这是我们分析的出发点。
上古的神话传说中,盘古用巨斧在一片混沌中开辟出了天和地。面对分布不均匀的市场信息,我们的处理方法也是如出一辙——切割。切割是剖析精细结构、寻找最优变量的有效方法。下面以我们独家理想反转因子的构造过程为例,阐述开源金工因子切割论的思想:
(1)对选定股票,回溯取其过去20日的数据;
(2)计算该股票每日的平均单笔成交金额(成交金额/成交笔数);
(3)单笔成交金额高的10个交易日,涨跌幅加总,记作M_high;
(4)单笔成交金额低的10个交易日,涨跌幅加总,记作M_low;
(5)理想反转因子 M = M_high–M_low;
(6)对所有股票,都进行以上操作,计算每只股票的理想反转因子M。
我们从前文讨论中可以归纳出因子切割论的三个要素:
对象:具有可加性的目标变量
刀法:有区分能力的切割指标
产出:对切割后变量的再加工
关于对象。我们要求对象要具有可加性。所谓可加性,是指在时间轴上对“整体”进行分割后所得到的“部分”,其变量含义保持不变,并且可以重新进行组合加总。在“理想反转因子”的步骤中,切割对象为股票的涨跌幅。涨跌幅是具有可加性的母变量,股票20日的总涨跌幅被拆分为逐日的涨跌幅,进而被重新分组加总为M_high和M_low两个子变量。具有类似性质的对象,还有换手率、成交量、日均振幅等常见量价指标,而流通市值、市盈率等指标则显然不具有可加性。
关于刀法。对信息有区分能力的指标则犹如盘古开天辟地的大斧,是切割论的核心所在。在“理想反转因子”的构造中,我们选定了股票每日的“平均单笔成交金额”作为切割指标。我们根据切割指标的大小,把股票的逐日涨跌幅分为两组,若两组之间表现出显著差异,则说明我们的切割达到了目的。
切割指标的形式和来源,往往需要我们不拘一格、匠心独运。在开源金工独家的众多交易行为因子中:聪明钱因子使用“机构参与痕迹”在分钟数据上进行切割,APM因子直接以“日内交易时段”为依据切割,理想振幅因子则以“股票高低价态”为切割指标。
关于产出。切割完成之后,我们对信息进一步加工便可得到最终产出。我们可以单独选用切割后信息含量高的部分,作为新因子的代理变量,此时切割过程相当于起到了沙里淘金、信息提纯的作用。在更多情况下,我们推荐使用“相减或相除”的操作,把切割后的各部分信息都纳入到新因子的构造中。“相减或相除”在隐蔽之处起到了“标准化”的重要作用。被减去的部分,通常并未带来显著的收益增量,却提供了公允标准化的水准线,从而最终提升了因子的稳定性。
关于逻辑。切割论的提出来源于市场信息分布的不均匀,而其底层的逻辑,是投资者在不同市场环境下的行为差异。切割的本质在于寻找合理的市场环境代理变量,使其可以对投资者的行为进行有效的区分,为此我们需要对切割对象所表征的交易行为有更深入的理解。仍然以“理想反转因子”为例。在研究报告《A股反转之力的微观来源》(魏建榕、傅开波)中,我们剖析了理想反转因子有效性的原因:反转效应来源于投资者的跟风效应与过度反应,而在大单交易更多的时候,这类行为也会更多,从而使得后续的反转效应更强。简而言之:反转之力的微观来源,是大单成交。大单成交较多的交易日,其平均单笔成交金额也较大,因此我们的模型可以获得理想的切割效果。
02
DBD-GRU模型:因子切割论与深度学习的有机结合
从理想反转因子以及表1中各因子的构造过程,我们可以抽象出因子切割论下的因子构造的一般流程,如图3所示。特征A代表切割指标,特征B代表切割对象,f代表对切割对象进行再加工的函数。
我们使用GRU模型进行时序信息提取,GRU是一种改进的循环神经网络,通过两个门控机制动态控制信息流动,在处理序列数据(如时间序列、文本)时表现良好。我们将切割论思想与GRU模型结合,构造如图4所示的双分支差异网络模型(Dual-Branch Difference GRU,以下简称DBD-GRU模型)。
在DBD-GRU模型中,假设输入的数据包含了A、B两个特征,其中特征A为切割指标。我们以特征A在时序上的中位数为阈值,构造两个掩码和,将使用掩码处理后的数据分别输入两个分支网络和中。取两个网络最后一个时间步的差异输入输出层。
本篇报告选取A股2010年1月~2025年5月的数据进行模型的训练与测试,以5年为窗口滚动训练模型,每年年底更新。为提高训练效率,在构建训练集数据时,采取按周抽样的方法,在每周最后一个交易日回溯过去20个交易日的数据。
模型的其他训练参数如下表所示:
我们选取表4中的三个基于日线数据的切割论因子作为改进对象,三个因子中,理想反转因子的构造过程在第一部分已经列出,理想振幅因子与主动买卖因子的构造过程详见附录。在构造DBD-GRU模型时,将对应因子的切割指标与切割对象作为特征输入模型,使用切割指标生成掩码。同时,选择GRU模型作为基线模型,基线模型的输入特征为不经切割掩码处理的切割指标与切割对象,其他参数设置与DBD-GRU模型一致。因子测试区间为20241231~20250530,月频调仓,测试时剔除上市未满60天的新股、因涨跌停无法成交的股票以及ST股票,并对因子进行市值行业中性化。
切割论因子的分组表现与绩效指标如图5~6与表5所示。理想反转因子与理想振幅因子整体表现优异,在测试区间内十分组多空组合年化收益均可达20%以上。其中,理想反转因子自2018年底发布至今已有近7年时间,因子在样本外表现十分稳健,经受住了市场的考验。不过,从图6我们也可以发现,理想振幅因子与理想反转因子在10分组下的分组收益并不完全单调。
同样的,我们对基线模型下的几个因子进行测试,测试结果如图7~8与表6所示。相较于原始的切割论因子,基线模型下几个因子的表现均有较大提升,其中主动买卖因子提升最为明显。同时,理想振幅-GRU、理想反转-GRU因子的分组收益单调性相较原因子也有所改善。
最后,我们测试DBD-GRU模型下各因子的表现,如图9~10与表7所示。和基线模型相比,DBD-GRU模型的表现进一步提升。其中,理想振幅-DBD的RankIC为-10.33%,提升最为明显(基线模型中为-8.26%);理想反转-DBD在RankICIR(-3.28% vs 3.57%)与多空年化收益率(33.79% vs 37.62%)上也有较大提升;主动买卖-DBD则与基线模型表现相当。
分年来看,三个因子的表现如表8所示,在测试区间内,DBD-GRU模型的三个因子在每一年的多空对冲与多头超额收益均为正值,总体表现十分稳健。
图11展示了各因子之间的相关性。可以看到,使用相同数据的因子(如理想反转因子、理想反转-GRU、理想反转-DBD)两两间相关性较高,其中DBD-GRU模型与切割论因子相关性明显高于GRU模型与切割论因子的相关性,这表明DBD-GRU模型确实对“切割”做了有效融合。
DBD-GRU模型可以看作是切割论与GRU模型的有机结合,那么,模型在二者的基础上提供了多少增量呢?我们把DBD-GRU模型因子分别对切割论因子和GRU模型因子作截面回归以剔除两者的影响,计算残差因子的RankIC均值。作为对比,我们还计算了GRU模型因子剔除DBD-GRU模型因子的表现。如图12所示,DBD-GRU模型因子在剔除切割论因子与GRU模型因子后仍有较强的预测能力。而GRU模型因子在剔除DBD-GRU模型因子后预测能力大幅削弱,RankIC绝对值均小于2%。
最后,我们测试DBD-GRU模型因子在主流宽基指数(沪深300、中证500、中证1000)中的因子绩效与指增选股效果。由于DBD-GRU模型下的几个因子相关性较高,我们先对因子做对称正交处理,再将处理后的因子等权合成为DBD-Combine因子。
在构建指增组合时,我们以最大化因子暴露为目标,并规定以下约束条件:
(1)个股权重偏离:上限1%;
(2)行业权重偏离:上限2%;
(3)Barra风格暴露偏离:上限0.2个标准差;
(4)成分股约束:权重不低于80%;
(5)换手率约束:上限50%。
在沪深300中,DBD-Combine因子RankIC均值为-5.76%,RankICIR为-1.87。如图13、14所示,因子RankIC序列总体表现平稳,十分组多空年化收益为14.9%。指增组合层面,组合超额表现十分稳健,年化超额收益为7.64%,超额IR为1.84,超额最大回撤仅3.37%。
中证500中,因子的RankIC与Rank ICIR分别进一步提升至-7.40%与-2.58,十分组多空年化收益为17.5%。不过,从图16也可以发现,近两年来因子选股能力有所减弱。指增组合层面,组合年化超额为7.23%,超额IR为1.37,超额最大回撤为6.43%。
中证1000中,因子表现与全市场选股最为接近,RankIC可达-9.84%,RankICIR为-3.48,十分组多空收益则为30.8%。指增组合表现优秀:年化超额收益率11.8%,超额IR为2.21,超额最大回撤3.94%。
03
附录:理想振幅因子与主动买卖因子的构造过程
理想振幅因子用来衡量股票高价态和低价态振幅信息差异程度,具体步骤如下:
(1) 对选定股票,回溯取其最近20个交易日数据,计算股票每日振幅(最高价/最低价-1);
(2) 选择收盘价较高的25%有效交易日,计算振幅均值得到高价振幅因子 ;
(3) 选择收盘价较低的25%有效交易日,计算振幅均值得到低价振幅因子 ;
(4) 将高价振幅因子 与低价振幅因子 作差,得到理想振幅因子 。
详细构造步骤请参考开源金工专题研究报告《振幅因子的隐藏结构》(魏建榕、高鹏、苏俊豪)。
本文中,主动买卖因子(小单)构造方法如下:
(1) 对选定股票,回溯其过去过去20个交易日的数据,计算每日的股票涨跌幅与小单流入强度,其中,小单流入强度的计算公式为:
(2) 选择收盘价较低的25%有效交易日,计算小单流入强度均值,得到主动买卖因子(小单)。
主动买卖因子衡量了散户在下跌市场环境中的交易行为,对于各类资金流的详细讨论请参考开源金工专题研究报告《主动买卖因子的正确用法》(魏建榕、傅开波、苏俊豪)。
值得注意的是,在构造主动买卖因子时,我们并未采用相减的操作,而是只取用了其中的一部分。这也是对应的DBD-GRU因子与切割论因子相关性较低的原因:原切割论因子中并未包含“相减”的结构。
模型测试基于历史数据,市场未来可能发生变化。
更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊 蒋韬