华泰｜基于遗传规划的一致预期因子挖掘——华泰人工智能系列之54 - 公司新闻

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

林晓明 S0570516010001 SFC No. BPY421 研究员

李子钰 S0570519110003 SFC No. BRV743研究员

何康 S0570520080004 SFC No. BRB318研究员

报告发布时间：2022年04月07日

摘要

华泰金工人工智能54：本文介绍了基于遗传规划的一致预期因子挖掘

遗传规划是一种启发式的公式演化技术，通过模拟自然界中遗传进化的过程来逐渐生成契合特定目标的公式群体，适合进行因子挖掘。本文运用遗传规划挖掘一致预期因子，是遗传规划系列研究的第四篇报告。实现层面，本文针对一致预期数据的特点量身定制数据处理方案，适配了遗传规划中的矩阵运算算法，使得短时间内进行大量因子挖掘成为可能。结果层面，本文展示了挖掘出的11个因子及其测试结果，因子可解释性较高，我们也对因子的构建逻辑和模式进行了详细分析。

分析师一致预期数据蕴含丰富的信息，具有深度挖掘的价值

分析师一致预期数据归纳总结了卖方分析师报告对个股的财务指标预测、评级以及关注情况，是除公司财报数据、交易数据以外重要的第三方数据，一致预期数据可达到日频更新的水平，一定程度上能反映基本面的高频变化，具有深度挖掘的价值。本文使用的一致预期数据包含：一致预期EPS、ROE、PE、PB等财务指标类预测数据，以及业绩上下调、分析师预测标准差等衍生数据。本文还引入真实的PE_TTM来与一致预期数据结合挖掘复合因子。

针对一致预期数据的特点和遗传规划的需求，本文量身定制数据处理方案

考虑到每日每只股票通常包含2-3个未来年份的一致预期数据，本文设计了一个三维数据结构来存储一致预期数据，第一维是股票，第二维是交易日，第三维是预测年份。该数据结构具有以下优点：(1)解决了年度财务报表公布前后一致预期数据预测年份变动的问题。(2)适配了遗传规划中的矩阵运算算法，算法可在三维数据结构上快速运算得出因子值，使得短时间内进行大量因子挖掘成为可能。具体实现中，我们主要对gplearn的因子计算模块进行了修改，可支持三维数据结构的矩阵运算。

本文展示了挖掘出的11个因子及其测试结果，因子都有较高的可解释性

对于挖掘出的一致预期因子，其可解释性至关重要，分析因子的构建逻辑可得以下结论：(1)11个因子中，计算变化率的函数ts_return出现次数最多，这与一致预期数据的内涵相符，分析师对于上市公司的预期变化，往往表明公司的基本面发生变化，可能对公司未来的股价产生影响。(2)复合因子中，主要为数据之间的乘除，说明这两种运算是构建复合因子的有效方式。(3)一致预期数据也可以和真实的基本面数据结合挖掘复合因子，其中本文挖掘所得的复合因子可视为一种超预期因子。(4)改进的因子中多出现除以分析师预测标准差的运算，这可能与新冠疫情以来分析师预测离散度增大有关。

风险提示：通过遗传规划挖掘的选股因子是历史经验的总结，存在失效的可能。本文测试的股票池仅包含有分析师覆盖的A股，测试结论不能推广到全部A股。

遗传规划研究回顾

一致预期数据的特点和形式

在使用遗传规划进行量价因子挖掘时，因子计算过程是在二维(第一维是股票，第二维是交易日)的量价数据上进行矩阵预算。而在进行一致预期因子挖掘时，情况变得更加复杂了一些，每日每只股票通常包括未来2-3个年份的预期数据，此时需要一个三维数据结构来存储数据，第一维是股票，第二维是交易日，第三维是预测年份，如图表5所示，我们把原始一致预期个股数据表中的数据依次填入到三维数组中。

1. 首先对交易日进行遍历，在存储最小预测年份的二维数组中找到每只股票当日的最小预测的年份。如2021年2月2日，股票000001和股票000002的最小预测年份分别为2021年和2020年。

2. 针对每只股票在三维数组中查找过去5个交易日相同预测年份的数据，如股票000001需要找到(000001,2021/1/27-2021/2/2,2021)的数据，而股票000002则需要找到(000002,2021/1/27-2021/2/2,2020)的数据。

3. 基于每只股票的窗口数据，即可以计算ts_mean(CON_EPS,5)的运算值，该日运算完成后，再进行2021年2月3日的计算，最后将所有交易日的运算值合并则可以得到最终的运算结果。

测试流程包含下列步骤：

1. 数据获取和特征提取：

(1) 股票池：全A股中具有分析师一致预期数据的股票，剔除ST、PT股票，剔除每个截面期下一交易日涨停和停牌的股票。

(2) 回测区间：2012/4/27～2022/3/31。时间排前80%的截面为训练集，后20%的截面为验证集。

(3) 原始因子列表如图表7所示，函数列表如图表8所示。

3. 对遗传规划挖掘出的因子进行 IC 测试、分层测试和相关性分析。

遗传规划所得一致预期因子的单因子测试

单因子测试方法简介

IC值分析模型构建方法如下：

1．股票池：沪深300成分股、中证500成分股、全A股，剔除ST、PT股票，剔除每个截面期下一交易日停牌的股票。

2．回溯区间：2012/4/27～2022/3/31。

3．截面期：每个交易日作为截面期计算因子值，与该截面期之后20个交易日内个股收益进行计算。

4．先将因子暴露度向量进行去极值、行业市值中性化，再计算处理后的T期因子暴露度向量和T+1期股票收益向量的Spearman秩相关系数，作为T期因子Rank IC值。

5．因子评价方法：

a) Rank IC值序列均值——因子显著性；

b) Rank IC值序列标准差——因子稳定性；

c) IC_IR(Rank IC值序列均值与标准差的比值)——因子有效性；

d) Rank IC值序列大于零的占比——因子作用方向是否稳定。

分层回测法

依照因子值对股票进行打分，构建投资组合回测，是最直观的衡量因子优劣的手段。分层测试法与IC值分析相比，能够发掘因子对收益预测的非线性规律。也即，若存在一个因子分层测试结果显示，其Top组和Bottom组的绩效长期稳定地差于Middle组，则该因子对收益预测存在稳定的非线性规律，但在IC值分析过程中很可能被判定为无效因子。

分层测试模型构建方法如下：

1. 股票池、回溯区间与IC值分析法相同。

2. 换仓：每隔20个交易日换仓，在每个换仓截面期核算因子值，构建分层组合，在截面期下一个交易日按当日收盘价换仓，交易费用为单边0.2%。

3. 分层方法：先将因子暴露度向量进行一定预处理(下文中会指明处理方式)，将股票池内所有个股按处理后的因子值从大到小进行排序，等分N层，每层内部的个股等权重配置。当个股总数目无法被N整除时采用任一种近似方法处理均可，实际上对分层组合的回测结果影响很小。分层测试中的基准组合为股票池内所有股票的等权组合。

4. 多空组合收益计算方法：用Top组每天的收益减去Bottom组每天的收益，得到每日多空收益序列r1,r2,...rn,再计算累积收益。

5. 评价方法：全部N层组合年化收益率(观察是否单调变化)，多空组合的年化收益率、夏普比率、最大回撤等。

因子汇总说明

因子表达式和说明

1. 上表的因子中，计算变化率的函数ts_return出现次数最多，说明一致预期数据的变化率是一类常见的因子构建逻辑。这与一致预期数据的内涵相符，分析师对于上市公司的预期产生变化，往往表明公司的基本面发生变化，可能对公司未来的股价产生影响。

2. 上表的一致预期复合因子中，主要为数据之间的乘除，说明这两种运算是构建一致预期复合因子的有效方式。

3. 除了一致预期数据之间构建复合因子，一致预期数据也可以和真实的基本面数据构建复合因子。例如，Alpha11是一致预期EP和EP的复合因子，可将其视为基于一致预期EP的超预期因子。

Alpha1的详细测试结果

Alpha10的详细测试结果

本文总结如下：

本文介绍了基于遗传规划的一致预期因子挖掘。遗传规划是一种启发式的公式演化技术，通过模拟自然界中遗传进化的过程来逐渐生成契合特定目标的公式群体，适合进行因子挖掘。实现层面，本文针对一致预期数据的特点量身定制数据处理方案，适配了遗传规划中的矩阵运算算法，使得短时间内进行大量因子挖掘成为可能。结果层面，本文展示了挖掘出的11个因子及其测试结果，因子可解释性较高，我们也对因子的构建逻辑和模式进行了详细分析。

分析师一致预期数据蕴含丰富的信息，具有深度挖掘的价值。分析师一致预期数据归纳总结了卖方分析师报告对个股的财务指标预测、评级以及关注情况，是除公司财报数据、交易数据以外重要的第三方数据，一致预期数据可达到日频更新的水平，一定程度上能反映基本面的高频变化，具有深度挖掘的价值。本文使用的一致预期数据包含：一致预期EPS、ROE、PE、PB等财务指标类预测数据，以及业绩上下调、分析师预测标准差等衍生数据。本文还引入真实的PE_TTM来与一致预期数据结合挖掘复合因子。

针对一致预期数据的特点和遗传规划的需求，本文量身定制数据处理方案。考虑到每日每只股票通常包含2-3个未来年份的一致预期数据，本文设计了一个三维数据结构来存储一致预期数据，第一维是股票，第二维是交易日，第三维是预测年份。该数据结构具有以下优点：(1)解决了年度财务报表公布前后一致预期数据预测年份变动的问题。(2)适配了遗传规划中的矩阵运算算法，算法可在三维数据结构上快速运算得出因子值，使得短时间内进行大量因子挖掘成为可能。具体实现中，我们主要对gplearn的因子计算模块进行了修改，可支持三维数据结构的矩阵运算。

本文展示了挖掘出的11个因子及其测试结果，因子都有较高的可解释性。对于挖掘出的一致预期因子，其可解释性至关重要，分析因子的构建逻辑可得以下结论：(1)11个因子中，计算变化率的函数ts_return出现次数最多，这与一致预期数据的内涵相符，分析师对于上市公司的预期变化，往往表明公司的基本面发生变化，可能对公司未来的股价产生影响。(2)复合因子中，主要为数据之间的乘除，说明这两种运算是构建复合因子的有效方式。(3)一致预期数据也可以和真实的基本面数据结合挖掘复合因子，其中本文挖掘所得的复合因子可视为一种超预期因子。(4) 改进的因子中多出现除以分析师预测标准差的运算，这可能与新冠疫情以来分析师预测离散度增大有关。

关于使用遗传规划挖掘预期类因子的研究，仍有以下值得尝试的方向：

1. 本文使用的是朝阳永续计算后的一致预期数据，实际上还可从原始研报数据出发构建定制的分析师预期数据(如核心分析师预期)来进行因子挖掘。

2. 本文初步尝试了一致预期数据和真实基本面数据结合进行因子挖掘，这种方法或有深入研究的空间。

参考文献

[1] Gao H , Wen H , Yu S, “Pandemic Effect on Analyst Forecast Dispersion: Earnings Uncertainty or Information Lockdown?”, Emerging Markets Finance and Trade 2021: Volume 57, Issue 6, Pages 1699-1715.

风险提示

通过遗传规划挖掘的选股因子是历史经验的总结，存在失效的可能。本文测试的股票池仅包含有分析师覆盖的A股，测试结论不能推广到全部A股。

相关文章

相关动态

最新文章