炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(转自:华安证券研究)
非线性效应无处不在
在当前A股市场的量化实践中,传统线性模型对因子收益关系的刻画存在局限。市值因子的实证研究率先揭示了这一困境——Barra风险模型发现,线性假设会系统性高估中盘股收益并低估大小盘分化,其通过在CNE5/CNE6模型中构建对数市值立方残差项,分离出中盘股独立风险敞口。这类非线性效应在基本面领域同样具有普适性。无论是市场风格指数的长期表现,还是行业市值中性化处理后的因子分组测试,均指向了核心规律:基本面指标的边际效用存在临界点,历史财务数据的线性外推常因商业环境剧变、信息快速定价、财务粉饰行为而失效。
非线性因子的挖掘框架
本文突破传统线性框架,主要以三大财务报表的字段为特征,辅以因子库中的基本面与量价因子,通过四类模型系统挖掘因子非线性效应:1、多项式回归:通过中心化处理与残差正交化分离高阶效应;2、样条回归:捕捉局部非线性结构并平滑过渡;3、锯齿函数:组间非线性+组内线性化;4、门限模型:自动识别关键状态转折点。通过经上述模型转换后的新因子与原始因子进行截面回归,提取残差项作为剥离线性成分后的纯非线性因子。
自2013年1月1日-2025年5月30日,非线性复合因子Rank IC均值为9.4%,年化ICIR为4.53,IC月胜率为90.6%,分组严格单调,多头年化超额12.7%,信息比3.31,且样本内外表现较为一致。
基于非线性复合因子的指数增强策略表现优异
为考察非线性复合因子对多因子模型的实际贡献,我们以沪深300、中证500和中证1000增强模型为例,结果表明,沪深300增强组合的年化超额收益为6.5%,信息比1.64;中证500增强组合的年化超额收益为8.6%,信息比1.67;中证1000增强组合表现相对优异,年化超额收益为13.4%,信息比2.22。样本外增强策略仍有不错的表现。
本报告基于历史个股数据进行测试,历史回测结果不代表未来收益。未来市场风格可能切换,Alpha因子可能失效,本文内容仅供参考。
1
A股市场存在非线性基本面效应
1.1 非线性效应无处不在,并非市值因子独有
在A股市场中,市值长期以来都是一个关键的系统性风险因子。众多市场现象表明,小市值股票具有显著的溢价效应。然而,随着实证研究的深入,我们发现线性模型在刻画市值与收益关系时存在明显局限,其背后实际蕴含着复杂的非线性特征。Barra早期模型就已指出,市值因子对中盘股的收益预测存在偏差,线性模型可能高估中盘股表现,同时低估大盘与小盘股之间的收益分化。为捕捉这种市值与收益的非线性关系,Barra在CNE5和CNE6模型中引入了“非线性市值因子”,通过对数市值的立方回归提取残差项,从而有效分离出中盘股这一独特且具有显著影响的风险敞口,成为了风险模型分析框架中不可或缺的一部分。
在观察市场时,我们注意到,非线性效应并非市值因子所独有,在常见的估值类指标中同样存在。以申万高市盈率、中市盈率和低市盈率指数为例,下图展示了三者的历史走势和历年涨跌幅情况:在过去的15年里,中市盈率指数的长期年化回报高于高市盈率和低市盈率指数。具体来看,低市盈率指数表现强势的年份主要集中在2011、2012、2014、2016-2018以及2022-2024年。这些年份市场普遍呈现防御性特征,低市盈率股票凭借其相对稳定的估值和业绩,吸引了风险偏好较低的投资者。而中市盈率指数则在2010、2015、2019-2021年这些成长型市场环境中表现更佳,其涨幅甚至超过了高市盈率指数。长期来看,投资者对中等市盈率股票呈现持续偏好,这可能源于:相较估值透支的高市盈率标的,中等市盈率企业风险溢价更为合理;相比潜在增长乏力的低市盈率股票,其成长空间更具确定性,进而在不同市场周期中为投资者提供更为稳健的收益。
当然,市场上多数风格指数编制未剔除行业和市值因素的影响,因此我们观察到的非线性效应可能是这两类变量干扰所致,而非源于风格本身。为更严谨地检验基本面因子中是否真实存在非线性效应,我们选取归母净利润TTM同比增速和ROE_TTM这两个典型因子,在行业和市值中性化处理后展开测试,将全市场股票按因子值分为20组,观察各组超额收益表现:自2013年1月1日至2025年5月30日,两个因子经中性化处理后仍呈现显著的非线性分布特征。归母净利润增速在因子值较高的第16-20组中,超额收益与增速呈负相关;在中段区间3-16组中,呈现正向关系;而在低因子值区间又再度转为负相关。而ROE_TTM与涨跌幅之间亦呈现非单一方向变动关系,其顶点出现在15组,当ROE高于15组,超额收益随因子值上升而递减,当ROE低于15组,超额收益随因子值下降而递减。
以上现象仅是财务指标与市场表现之间复杂关联的冰山一角。事实上,多数财务指标与收益率之间均存在形态各异的非线性关系。受制于低频更新与高噪声特征,此类指标严重削弱了传统基本面因子的预测效力。在分组回测时我们频繁观察到,因子值最高的一组表现弱于次高组,这种现象直接侵蚀了线性合成因子的稳定性。另外,在现行线性框架下,大量财务指标难以转化为有效因子,导致财报数据的利用率低下,财务科目的覆盖度不足,最终制约量化模型对企业基本面信息的全面捕捉与分析能力。
1.2 应对非线性效应的解决方案
为应对上述现象,业界也对其展开了广泛的研究,大致改进思路总结如下:(1)算子层面,对传统计算方法进行改进和迭代。例如,用回归、夹角等方法替代除法,缓解低基数带来的“微利效应”;借助遗传规划进行因子挖掘等等;(2)特征方面,聚焦于对现有特征进行扩展和微优化,例如,用企业价值替代市值,更全面地反映企业的整体规模;加入业绩快报、业绩预告等更具时效性的信息;引入财务附注数据等以往被忽视的信息;(3)因子合成环节,采用机器学习模型替代传统线性模型,旨在提取有效特征间的非线性交互效应。从实践效果来看,部分方法确实取得了一定成效。然而回归投资逻辑的本质,核心观点仍遵循传统投资理念——历史盈利能力越强,成长性越突出的股票,未来涨幅潜力越高。这个观点看似契合大众所熟知的传统投资理念,但从量化建模视角审视,隐含了将历史财务指标线性外推至未来财务增长的假设,这种假设是否可靠恰是量化基本面领域的核心争议点。在当今瞬息万变的商业环境中,高增速和高盈利状态往往难以持续。与此同时,信息高效传播加速市场对公开财务数据的消化效率;另一方面,大量学术研究也揭示了一个不容忽视的问题,部分企业可能存在财务粉饰行为,这就导致中间区域数据偏离线性预测轨迹,从而使基于线性假设的模型产生偏差。鉴于上述分析,我们认为,财务指标与收益之间的线性关系假设本身缺乏坚实的理论支撑。在投资实践中,企业历史业绩改善的幅度或许并非越高越好,而将增长维持在合理区间反而更具可持续性。因此,本文将系统引入非线性回归模型,探索基本面指标与股价变动间的复杂映射机制,以期构建具备增量解释能力的非线性因子体系。
2
非线性基本面因子挖掘框架
2.1 基本面非线性效应的经济逻辑
缺乏坚实经济逻辑支撑的基本面因子如同无根之木,其稳定性和可解释性存在内生局限。尤其在探索因子非线性效应这一领域,理解其背后的经济逻辑是指导模型构建方向与甄别有效信号的前提。本节旨在梳理这些驱动基本面因子呈现非线性关系的核心逻辑依据,为后续的定量挖掘流程奠定理论基础。
2.1.1 成长持续性困境:越高越好还是过犹不及?
传统多因子模型的线性范式隐含单调性假设——基本面指标的边际改善应与预期收益线性正相关。然而市场实践中,投资者对极端成长值存在非对称预期:超高速增长的可持续性常引发质疑,甚至触发估值折价。
为验证这一非线性效应,我们基于上市公司年报归母净利润同比增速构建五等分组,其中,组5代表了最高增速组,我们通过跨期转移概率矩阵解析增速动态演进规律,结果揭示如下现象:
1.高速增长组存在较大的均值回归压力:处于最高增速组的企业,仅有23%的概率在下一年仍维持领先地位,但有26%的概率滑落至最低增速组,增速反转概率约次高组的2倍,印证“高增长难以持续”的市场认知。
2.黄金增长区间:处于次高组的企业稳定性更强,下一期维持原分组的概率最高,且落入最低增速组的概率在所有组别中最低,构成“增速适当”的黄金区域。
3.底部增长组困境反转:最低增速组企业展现超预期弹性,下一年有41%的概率跃升至最高增速组,显著高于其他组向上跃迁的概率,未来可能激发市场对被错杀标的修正动能,可见基于成长性的低位布局有一定合理性。
综上所述,增速转移矩阵印证了成长因子非线性定价的倒U型或三次函数规律,超常增速伴随均值回归压力,引发现实折价;可持续中高速增长获得市场持续溢价;极端底部可能蕴含非对称收益机会。
2.1.2 财务粉饰行为引起的数据可信度干扰
成长性因子的倒U型关系源于对增长持续性的担忧,而盈利类因子呈现的正U型关系则映射出另一种非线性机制:监管规则与市场压力催生的报表调节行为。具体而言,A股上市规则规定连续两年净利润为负将触发ST警示,导致处于盈亏平衡点0值附近的企业存在利润粉饰动机,削弱其基本面信息的可信度。
为验证这一现象,我们在每个年末基于年报净资产收益率将公司分为4组:财务困境组(ROE<-2%),财务压力组(ROE处于-2%-0%),微利观察组(ROE处于0%-2%),以及财务健康组(ROE >2%)。类似的,统计净资产收益率的跨期转移概率矩阵,结果表明财务状况持续性存在明显的不对称性:
财务健康组持续性强,下一期仍维持原状态概率达 91%,体现高质量盈利的稳定性;困境组反转效应显著,下一期有45%的概率持续承压,但跃升至健康组的概率达39%。
财务压力和微利观察组剧烈分化,存在财务粉饰风险。我们发现,处于中间两组的企业次期分布存在明显的两级发散特征。尤其是对于财务压力组的企业,下一期维持原状态的概率仅8%,38%改善至财务健康组,约31%恶化至财务困境组。
由此可见,微利或微亏组企业的极端不稳定性加剧市场对其财务数据的信任危机。由监管规则驱动的粉饰行为,使得微利企业呈现“财务路径不可预测”的统计特征,引发投资者要求额外的风险补偿。虽然精准识别财务粉饰行为难度较大,且其对涨跌幅的传导往往存在迟滞性,但远期潜在的尾部风险不容忽视。这正是部分盈利因子正U型关系的核心成因。当ROE逼近零值时,对粉饰风险的担忧往往超过基本面改善的利好,最终形成U型底部的收益洼地。
2.2 非线性基本面数据挖掘流程
在这一节中,我们以利润表、现金流量表、资产负债表中的所有字段作为基础数据,介绍非线性基本面因子的挖掘流程,具体过程如下:
1、字段覆盖度筛选:剔除全市场覆盖率低于60%的原始字段,确保数据代表性。
2、字段标准化加工:对于每个指标,字段统一加工为单季度、TTM和累计值。
•资产负债表:单季度值=本季末累计值-上季末累计值;TTM值=近4季度单季度值之和;累计值为历史累计;
•利润表/现金流量表:单季度值=本季年内累计值-上季年内累计值;TTM值=近4季度单季度值之和;累计值为年内累计值。
3、基础算子构建:继承经典因子构造逻辑,定义七类基础算子,分别是原始值,市值比率,净资产比率,总资产比率,同比增长率,环比增长率和超预期幅度,这样能保证初步构建的基础特征是易于理解的。
4、特征预处理:基于加工后的特征和算子计算基础因子值,并依次进行行业中位数缺失值填充、5MAD去极值、Z-score标准化和行业市值中性化处理。
5、非线性特征转换:以2010-2019年的数据为训练集拟合模型参数,并应用于全样本(具体模型和转换步骤参见后续章节)。通过对新因子与原始因子进行截面回归,提取残差项作为剥离线性成分后的纯非线性因子。
6、有效性验证:以2010-2019年作为因子筛选期,以2020-2025年5月为测试验证期。由于因子剔除了线性成分后,普遍收益预测能力会衰减,因此我们以一个较低的标准来筛选:月度Rank IC均值绝对值大于2%,年化ICIR绝对值大于1.5。
2.3 如何刻画基本面因子中的非线性效应?
2.3.1 多项式回归:捕捉简单抛物线型规律
传统线性模型中“指标值越高越好”的隐含假设在现实中存在明显局限。我们发现基本面因子常呈现抛物线型特征:一方面,当盈利增速突破可持续阈值时,市场对其持续性的质疑会引发估值折价,形成“中间高、两端低”的倒U型关系;另一方面,在盈亏平衡点附近,因财务粉饰行为导致基本面数据失真,产生“两端高、中间洼”的正U型特征。
这类抛物线规律与二次函数数学特性较为契合——其顶点对应收益率的转折临界点。因此,我们采用二次多项式回归模型来捕捉基本面指标与收益率的这一类非线性关系。模型如下:
其中,r_(i,t+1)为股票i的下一期收益率,x_(i,t)为股票i当期经标准化和行业市值中性化处理后的因子值。具体转换步骤如下:
1、在训练期内的每个月末进行二次多项式回归,筛选二次项系数统计显著(p值<0.1)的样本,并根据显著样本中二次项系数符号的众数方向判定主导形态;
2、计算主导方向内显著样本的回归系数中位数,并按如下公式计算顶点位置;
该值反映了因子对收益率影响的极值点。系数c的符号决定曲线形态,当c<0时为倒U型,顶点对应收益峰值,当c>0时则为正U型,顶点对应收益谷值。
3、基于顶点进行非线性特征提纯。首先,将特征进行顶点中心化处理,即z=x-v,然后通过将z^2对z回归提取残差项。中性化处理能有效消除原变量x的线性成分,使二次项更纯粹地捕捉非线性效应。
以季度资本公积超预期因子为例,其本身虽非典型的二次函数关系因子,但隐含的局部二次结构经多项式回归转换后,预测能力有显著提升,诠释了如何通过非线性技术将财务噪声转化为可用的信息。下面展示经多项式回归转换前的因子表现。测试范围为全市场,时间区间为2013年1月1日- 2025年5月30日,通过Rank IC、年化ICIR、以及分十组年化收益(超额收益比较基准为成分股等权,不考虑交易费用)来判断因子的有效性,下文中因子的回测部分如无特殊说明,均与上述参数保持一致。
季度资本公积超预期因子原始Rank IC均值仅-0.2%,几乎不具备收益预测能力。分组测试显示其与收益存在复杂的非线性结构:低值组(第1-2组)收益优于市场基准,中间区域(第3-5组)收益位于低谷,中高组(第6-7组)收益再度高于基准,而最高组(第8-10组)收益回落。从行为金融视角解析,这种特殊分布源于市场对资本扩张性质的差异化解读:季度资本公积的超预期幅度实质捕捉了再融资落地效率与资产注入质量的市场预期差。更谨慎、稳健的资本扩张传递财务稳健信号,形成避险资产属性;而温和变动由于战略信号传导不足,引发投资者对资金使用效能与协同价值的评估分歧;积极资本运作存在两种可能,一种是优质资产注入提振信心,另一种则是可能触发整合风险与股权稀释担忧,最终形成局部弱U型+高值区无序的定价曲线。
下面展示经多项式回归转换后的非线性资本公积因子在样本内外的表现情况。
可以看到,自2013年1月1日-2025年5月30日,因子月度Rank IC均值2%,年化ICIR为2.08,IC月胜率71.1%,具有稳定的正向预测能力。
从分十组测试结果来看,因子多头年化超额7.6%,年化信息比约1.37,分年度表现相对稳定,除2017与2024年外均能战胜基准指数。
此外,该因子样本内外表现较为一致,样本外(2020.1-2025.5)检验显示,因子Rank IC均值为2.1%,且多头持续有效,今年以来超额收益达7.9%。
2.3.2 样条回归:捕捉基本面因子非线性效应的灵活框架
传统多项式回归虽能捕捉简单非线性关系,但其全局函数形式存在形态刚性与局部敏感度不足的双重局限,难以全面刻画基本面因子与收益率间的复杂交互结构。事实上,部分基本面因子存在多峰形态。以行业市值中性化后的EP_TTM因子为例,在全市场范围内根据因子值等分为20组,发现收益率呈现典型的三段式关系:在低估值区,即在因子值最高的5组中,EP提升反而伴随收益下行,反映估值修复动能衰竭的边际效应;在合理估值带,即在EP适中的3-16组中展现稳健的正向关联,说明基本面定价有效;在高估值区,即因子值最小的三组中又呈现负向关系。这种含双转折点的三次函数形态亟需更灵活的非线性建模工具,此时样条回归便成为自然选择。
样条回归的核心优势在于通过分段多项式+节点连接的机制,允许关系形态在数据驱动的节点区间内自适应变化,同时通过平滑性约束避免过拟合,实现“全局连续性+局部灵活性”的平衡。具体模型设定如下:
基于样条回归的非线性转换步骤如下:
1、参数搜索与基函数生成:遍历节点数(k = 1,2,3)和多项式阶数(p = 2,3)组合,对每组参数,每个月末生成B样条基函数并拟合样条回归;
2、参数优化与评估:对每组参数组合,取各期回归系数的均值作为参数估计,计算样条回归预测收益率,并与原始因子进行回归提取残差项作为该组参数下的候选因子,根据因子在训练期内的Rank ICIR确定最优节点数K和多项式阶数。
3、因子生成:采用最优参数组合构建最终样条模型,输出全样本的纯非线性因子值。
以季度扣非净利润因子为例,下图展示未经非线性转换的原始因子表现:Rank IC均值5.2%,Rank ICIR约2.58,具有显著的正向预测能力。从分组情况来看,存在多处局部高点和低点。作为利润表的核心科目,扣非净利润剥离了非经常性损益干扰,真实反映企业持续经营利润的质量。该因子的非线性特征蕴含重要经济学逻辑:当扣非净利润较低时,边际改善的定价弹性会放大困境反转效应;而在高盈利区域,竞争壁垒松动可能引发收益衰减拐点,反映龙头股边际收益递减规律。基于此,我们采用样条回归对盈利拐点进行动态捕捉,通过对“低弹性放大”与“高弹性弱化”的双向捕捉,从而在横截面上精准构建经营质量层级与定价效率的单调正相关关系。
下面展示经样条回归转换后的非线性扣非净利润因子在样本内外的表现情况。
可以看到,全样本区间内,该因子Rank IC均值3.4%,年化ICIR为2.83,IC月胜率75.8%,具有显著的正向预测能力。
从分十组测试结果来看,因子单调性较强,多头年化超额6.3%,年化信息比约1.68,分年度表现稳定,除2021年外均能战胜基准指数。
此外,该因子样本外表现仍较为突出,样本外(2020.1-2025.5)检验显示,因子Rank IC均值为3.2%,无明显衰减,且多头端稳定提供正贡献,今年以来超额收益达3.7%,表现出色。
2.3.3 “锯齿函数”:融合微观线性与宏观非线性结构
传统线性模型、多项式回归与样条回归均基于“连续渐变”假设,但真实市场中企业异质性与投资者认知差异常引发因子效应的结构性断层,具体表现为:
1、域内同质化:当企业处于同一细分领域时,相似的供需结构与市场预期促使因子效应呈现连续线性规律。例如,科创板块内,研发投入直接量化了企业的技术壁垒强度,导致内部具有较强的可比性。
2、组间异质性:跨经营生态圈的因子效应存在非线性跃变。例如,商业性质的差异、市场情绪的传导等因素导致高研发组与中低研发组间的因子比较失去经济学意义。
这种“域内线性规律稳定,跨域逻辑跃变”的典型特征,形似锯齿函数的分段折线形状。我们可以通过“组间非线性+组内线性化”来实现,与多项式回归的全局弯曲建模哲学截然不同,后者则强制全域服从单一抛物线形态。而锯齿函数通过分域线性建模捕捉局部定价效率,再叠加跨域非线性转换捕捉特定拐点,在保障局部稳定性的同时实现动态适应性,形成更贴近市场真实的多级定价结构。
基于上述分析,我们尝试引入“组间非线性+组内线性化”的锯齿函数,具体实现步骤如下:
(1)根据2.3.1节中的多项式回归模型确定顶点位置及曲线形态方向;
(2)在每个月末将全市场股票按因子值大小等分为10组,计算各组因子均值作为组的重心值;
(3)计算各组重心值与顶点距离的平方,若曲线与因子同向(例如正U型+正向因子),组得分即为距离平方值;若两者反向,组得分为距离平方值的相反数;
(4)将个股原始因子值乘以万分之一,与组得分叠加形成个股最终得分,确保组内保持原始排序。
以季度基本EPS同比增长率为例,下图展示非线性转换前的因子表现:Rank IC均值为3.0%,Rank ICIR为1.90,虽具备正向预测能力但稳定性不足。该因子作为股东权益回报扩张动能的直接度量指标,理论上应持续正向驱动收益预测,然而分组测试揭示其存在典型的增速舒适边界效应:具体表现为,以相邻4组为跨度构成大组时,大组内部收益率分布高度聚合,而跨大组边界则产生显著收益跃迁,显示市场对企业盈利增速变化存在阶梯式定价机制。
下面展示了经“锯齿函数”转换后的非线性季度基本每股收益同比增长率因子在样本内外的表现。
结果表明,该因子Rank IC均值-2.8%,年化ICIR为-2.42,IC月胜率79.2%,具有稳定的负向预测能力。值得注意的是,负向IC印证了基本EPS增长率的非线性本质——市场对其定价存在均衡阈值,增速过度扩张引发的折价效应会超过增长溢价,导致收益弹性逆转。
从分十组测试结果来看,因子多头年化超额7.4%,年化信息比约1.87,且所有年份均能战胜基准指数。与之相比,全局多项式回归因强制全市场统一顶点而模糊了赛道差异。
样本外(2020.1-2025.5)检验显示,因子Rank IC均值为3.2%,无明显衰减,且多头端稳定提供超额收益,今年以来超额收益达3.7%,表现出色。
2.3.4 门限回归:捕捉基本面因子中的结构突变与非连续效应
“锯齿函数”虽然通过“组间非线性+组内线性化”框架捕捉结构性突变,但其对人为分组规则的高度依赖导致了分组边界难以匹配真实经济断点。门限回归则通过内生门限变量客观识别断点位置,以临界值划分样本区间,每个区间内因子效应可保持线性形式,在边界处实现参数阶跃式跳变。较锯齿函数的本质差别在于基于Hansen法的断点自发现机制,规避节点预设的主观干扰。单门限模型设定如下:
具体非线性转换的步骤如下:
1、在每个月末,参考Hansen门限效应检验框架,以组间残差平方和最小化准则寻找最优阈值点;
2、对划分后的两区间分别进行OLS回归,筛选两段区间回归系数具有显著差异(p<0.1)的样本,并取阈值和回归系数中位数作为参数估计;
3、基于最优参数组合构建最终门限模型,将门限模型预测值对原始因子正交化得到纯非线性因子值。
以股息率因子为例,下图展示原始因子的表现情况:其Rank IC均值为4.2%,Rank ICIR为2.17,本身是一个典型的风格因子。然而,分组测试揭示出关键的非线性断点——第12组出现显著的定价机制跃迁。具体而言,在股息率较高的12到20组内,因子呈现严格单调正向关系,充分反映了具备稳定现金流和“真金白银”分红能力的企业所享有的市场溢价。相反,在股息率较低的1至12组区间,因子收益与分组之间几乎呈现水平走势,线性效应失效。这一现象背后源于强制分红新规下催生的两种市场扭曲:一方面,低股息率企业往往面临现金流紧张,其价值受到质疑;另一方面,部分位于低分红区间内的公司为了满足监管要求或迎合市场可能进行“达标式”分红,这两种情况共同显著削弱了该区间内股息率因子的线性预测效力。
下图展示了经门限回归处理后的非线性股息率因子在2013年1月-2025年5月期间的Rank IC和分组表现:
可以看到,全样本区间内,该因子Rank IC均值3.1%,年化ICIR为1.79,IC月胜率69.1%,具有稳定的正向预测能力。门限模型通过自动识别最佳分区点,精确提取了股息率在合理区间的正向溢价。
从分十组测试结果来看,因子多头年化超额4.5%,年化信息比约1.05,除2021和2025年外均能战胜基准指数。
此外,该因子在样本内外表现较为一致,样本外(2020.1-2025.5)检验显示,因子Rank IC均值为3.0%,无明显衰减,多头端一定程度上受价值成长风格切换,今年有一定回撤。
最后,为便于读者把握模型特点与因子成果,我们对四类模型的核心参数、比较优势及应用局限进行汇总,并展示代表性基本面因子的转换示例及绩效表现:
2.4 非线性效应是否存在于量价因子中?
前文主要基于三大财务报表构建了非线性基本面因子体系。那么,一个自然的问题是,量价因子中是否也同样存在非线性效应呢?本节我们将因子库中的日频量价因子也作为模型的输入,尝试挖掘具有增量解释力的衍生量价因子。
下表展示部分非线性量价因子的表现:可以看到,流动性和动量反转因子中存在显著的非线性效应,其转换后的衍生因子总体表现出色。我们猜想,流动性因子本身的逻辑是常规低换手状态带来流动性溢价,但当流动性过度枯竭时,可能引发资金踩踏或恐慌性抛售,破坏原有溢价,从而形成非线性拐点;反转动量因子产生非线性效应的逻辑类似,在超卖的情况下预期带来反转收益,但极端超卖时市场反应过度或流动性衰竭,会削弱反转效应,导致收益非线性衰减。至于波动率因子,其风险定价机制本质上是连续的,市场对风险补偿的要求呈全域单调变化,因此非线性效应较少被捕捉。
以10日非流动性因子为例,其本身是一个非常显著的正向因子,而不同期限的非流动性因子在不同模型的转换下均能取得显著的表现。其中,经锯齿函数转换后的10日非流动性因子Rank IC均值为-4.3%,年化ICIR为-3.45,IC月胜率85.2%,表现十分稳定。
从分十组测试结果来看,因子多空年化收益达17.4%,多头年化超额11.6%,信息比为1.76,分年度表现稳定。
此外,从样本外检验来看,Rank IC均值-4.1%,年化ICIR为-3.17,且多头表现持续优异,总体仍能保持显著的预测能力。
2.5 非线性复合因子表现
由于单一非线性因子虽具有预测能力,但其逻辑解释复杂度较高,且对原始线性项正交化后显著性有限。通过多因子信息融合,可提取共性规律并提升稳定性。本节我们将挖掘得到的一系列非线性基本面因子和量价因子进行线性合成,考察复合因子的表现。
具体而言,以0.9作为因子值相关系数的筛选阈值,优先选取训练集中ICIR高的因子,入选的因子以截面对称正交消除因子间的共线性,并以滚动12个月ICIR进行加权复合得到非线性基本面因子、非线性量价因子,以及由前两者二次合成的非线性复合因子。
可以看到,自2013.1.1-2025.5.30,非线性基本面因子Rank IC均值为6.6%,年化ICIR为3.88,IC月胜率为84.6%,分组严格单调,多头年化超额10.7%,信息比2.74,表现十分出色。此外,因子在样本外的表现仍较为稳定,因子Rank IC均值6.3%,年化ICIR为3.32,每年均能稳定跑赢基准,且相对回撤较小,仅-3.3%。
非线性量价因子Rank IC均值为7.8%,年化ICIR4.46,IC月胜率92.6%,从分组表现来看,因子空头端区分度更强,多空年化收益26.3%,多头年化超额7.1%,信息比2.24,多头相对回撤仅-2.9%,表现出色。此外,因子在样本外的表现仍较为稳定,因子Rank IC均值6.7%,年化ICIR为3.77,每年仍能稳定跑赢基准。
叠加了非线性量价因子后,复合因子的表现获得进一步提升。全样本区间内,Rank IC均值为9.4%,年化ICIR约4.53,IC月胜率达90.6%。从分组测试结果来看,因子空头端剔除能力得到明显提升,空头年化超额为-21.1%,且多头端超额表现提升至12.7%。
从样本外检验来看,因子Rank IC均值8.5%,多头超额收益仍持续有效。但与非线性基本面因子相比,量价的非线性成分在样本外一定程度上拖累了非线性基本面因子的多头表现。
下表展示了复合因子在不同指数域的选股能力,可以看到,因子在各个指数内均有不俗的选股能力。沪深300内,复合因子Rank IC均值为4.5%,年化ICIR为2.02,分五组多头年化超额4.1%;中证500内,复合因子Rank IC均值为5.9%,年化ICIR为2.75,分五组多头年化超额6.0%;中证1000内,复合因子Rank IC均值为8.9%,年化ICIR为4.0,分五组多头年化超额9.9%;科创板内,非线性基本面因子表现较为突出,多头年化超额7.1%,说明了基本面非线性效应的广泛适应性。
进一步统计了复合因子在BARRA风格上的暴露情况:结果表明,由于在非线性转换的过程中对原始线性项进行正交处理,非线性基本面因子在Barra风格上的暴露较低,相关系数均在0.2以下。而由于非线性量价因子更多的由非流动性和反转动量的衍生因子参与,因此本身剔除波动率和换手率的信息较少,因而与波动率和换手率因子具有一定的信息重叠性。
3
非线性复合因子在指数增强策略中的应用
为更客观地考察非线性复合因子对多因子模型的贡献,后文将通过更贴近实战的方式考察因子的有效性,主要结合沪深300、中证500、中证1000指数增强模型进行判断。
3.1 沪深300增强
对非线性复合因子构建沪深300指数增强组合,具体细节如下:
•股票池:全市场A股,剔除ST、涨跌停、停牌、上市不满180天的股票
•回测时间区间:2013年1月1日 - 2025年5月30日
•调仓频率:月末调仓
•基准:申万一级行业、市值暴露、个股权重均以沪深300指数为基准
•约束上下限:80%成分股约束,个股偏离幅度1%,行业暴露偏离2%,市值暴露偏离0.2,其余Barra风格暴露偏离0.5
•成交价格:收盘价
•交易费用及仓位:双边千三,满仓
•调仓策略:以非线性复合因子作为Alpha得分,在风险约束的条件下最大化复合因子暴露,来求解股票的最优权重。
沪深300增强组合年化超额收益为6.5%,信息比1.64,最大相对回撤约-6.8%,总体表现出色。分年度表现来看,策略除今年以外均能跑赢基准指数,今年主要受宏观政策切换和AI主题结构性行情冲击,策略有效性阶段性承压。
样本外策略年化超额为5.2%,多头信息比1.24,仍有稳定的正向贡献。
3.2 中证500增强
对非线性复合因子构建中证500指数增强组合,具体细节如下:
•股票池:全市场A股,剔除ST、涨跌停、停牌、上市不满180天的股票
•回测时间区间:2013年1月1日 - 2025年5月30日
•调仓频率:月末调仓
•基准:申万一级行业、市值暴露、个股权重均以中证500指数为基准
•约束上下限:80%成分股约束,个股偏离幅度0.8%,行业暴露偏离2%,市值暴露偏离0.2,其余Barra风格暴露偏离0.5
•成交价格:收盘价
•交易费用及仓位:双边千三,满仓
•调仓策略:以非线性复合因子作为Alpha得分,在风险约束的条件下最大化复合因子暴露,来求解股票的最优权重。
可以看到,中证500增强组合的年化超额收益为8.6%,信息比1.67,最大相对回撤约-7.1%。分年度表现来看,除今年外策略均能跑赢基准。
样本外平均超额收益达3.9%,多头信息比0.79,表现尚可。
3.3 中证1000增强
对非线性复合因子构建中证1000指数增强组合,具体细节如下:
•股票池:全市场A股,剔除ST、涨跌停、停牌、上市不满180天的股票
•回测时间区间:2014年10月31日 - 2025年5月30日
•调仓频率:月末调仓
•基准:申万一级行业、市值暴露、个股权重均以中证1000指数为基准
•约束上下限:80%成分股约束,个股偏离幅度0.5%,行业暴露偏离2%,市值暴露偏离0.2,其余Barra风格暴露偏离0.5
•成交价格:收盘价
•交易费用及仓位:双边千三,满仓
•调仓策略:以非线性复合因子作为Alpha得分,在风险约束的条件下最大化复合因子暴露,来求解股票的最优权重。
结果表明,中证1000增强组合表现优异,年化超额收益为13.4%,信息比2.22,最大相对回撤约-11.8%。分年度表现来看,策略每年稳定跑赢基准。
样本外策略年化超额9.6%,信息比1.75,仍具有显著正向贡献。
4
总结
A股市场历史表明,传统线性模型难以精准刻画因子与收益的复杂关系。以市值因子为例,Barra模型发现其对中盘股存在系统性定价偏差——线性假设高估中盘股表现,低估大盘与小盘股的分化。在CNE5/CNE6模型中,通过对数市值立方回归残差分离中盘股风险敞口,验证了非线性市值因子的必要性。这种非线性现象在基本面领域也尤为显著:申万市盈率指数15年数据显示,中市盈率组合年化收益持续超越高/低市盈率组合。此类现象揭示核心规律:基本面指标的边际效用存在临界点,历史财务数据(如盈利增速)的线性外推常因商业环境剧变、信息快速定价、财务粉饰行为而失效。
本文突破传统线性框架,主要以三大财务报表的字段为特征,辅以因子库中的基本面与量价因子,通过四类模型系统挖掘基本面因子非线性效应:1、多项式回归:通过中心化处理与残差正交化分离高阶效应;2、样条回归:捕捉局部非线性结构并平滑过渡;3、锯齿函数:组间非线性+组内线性化;4、门限模型:自动识别关键状态转折点。通过经上述模型转换后的新因子与原始因子进行截面回归,提取残差项作为剥离线性成分后的纯非线性因子。
此外,我们发现,量价因子中也同样存在非线性效应,尤其是对于流动性和动量反转类因子。其中,经锯齿函数转换后的非流动性因子表现尤为出色,因子Rank IC均值为-4.3%,年化ICIR为-3.45,IC月胜率85.2%,多空年化收益达17.4%,多头年化超额11.6%,信息比为1.76,分年度表现稳定。
由于单一非线性因子虽具有预测能力,但其逻辑解释复杂度较高,且对原始线性项正交化后统计显著性有限。通过多因子信息融合,可提取共性规律并提升稳定性。我们进一步将挖掘得到的非线性基本面因子和量价因子进行线性合成。自2013年1月1日-2025年5月30日,非线性基本面因子Rank IC均值为6.6%,年化ICIR为3.88,IC月胜率为84.6%,分组严格单调,多头年化超额10.7%,表现十分出色。叠加了非线性量价因子后,复合因子的表现得到进一步提升,其Rank IC均值为9.4%,年化ICIR约4.53,IC月胜率达90.6%,多头端超额表现提升至12.7%。此外,非线性因子在从样本内外表现较为一致,样本外多头超额收益仍持续有效。非线性复合因子在不同指数域均有不俗的表现,且与Barra风格因子和常规选股因子均保持较低的相关性,具有显著信息增量。
最后,为考察非线性复合因子对多因子模型的实际贡献,我们以沪深300、中证500和中证1000增强模型为例,结果表明,沪深300增强组合的年化超额收益为6.5%,信息比1.64;中证500增强组合的年化超额收益为8.6%,信息比1.67;中证1000增强组合表现相对优异,年化超额收益为13.4%,信息比2.22。样本外增强策略仍有不错的表现。
文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。
本报告摘自华安证券2025年6月12日已发布的《【华安证券·金融工程】专题报告:临界相变:探寻传统因子中的非线性基因》,具体分析内容请详见报告。若因对报告的摘编等产生歧义,应以报告发布当日的完整内容为准。