新闻动态

多因子模型水平测试题,金工也来试答

2024-02-06 06:00

李腾、陈晔、邓越三位老师在知乎上发布了多因素模型能力测试题。 我们金工也来尝试一下,和大家一起讨论学习。

试题地址:多因素模型级别试题

因素

1.A股市场的驱动因素可以分为哪几类?

从广义上讲,可以说风格因素和行业因素。 有关详细信息,请参阅下一个问题。

2. 公因子类别?

风格因素可分为基本面因素和技术面因素。 估值和质量等因素是基本因素。 这些因素的计算原材料取自财务报表,而技术因素一般只使用价格和交易量。 根据基础数据计算。 当然,还有其他常用的因素,比如分析师预期、大数据、高频因素等。

3、除了最常用的回归方法外,还有其他单因素检验的方法吗? 各自的优点和缺点是什么? 注:以下问题都是关于回归方法的。

其他常用的方法还有直接计算因子rankIC,利用IC检验因子的预测效果以及对股票的区分度; 另外,采用分组方法检验因子效应,选择不同分位数因子构建投资组合,然后比较各组的收益。 表现。

4、单因素测试是否需要纠正行业、市值偏差等问题? 如何纠正?

行业中性还是市值中性取决于个人。 行业中性和市值中性可以帮助我们更好地了解回报的来源。 也许某个财务因素表现良好,但很可能它与市值因素高度相关。 。 行业的修正可以使投资组合中各个行业的比例与基准保持一致,市值的修正可以在优化约束中加入零市值暴露的限制,或者简单地构造一个按市值加权的投资组合。

5. 行业归因因素是否应该选择动态变化的数据?

是的,因为同一家公司的主营业务在不同时期可能会发生变化,导致行业分类发生变化。 一方面,使用静态数据是不合理的,另一方面,它隐含地使用了未来的数据。

6、混业上市公司应对行业因素的方法有哪些? 优点和缺点?

常见的方法是继续使用虚拟变量来代表行业因素。 但对于混合经营的公司来说,并不是简单的0和1,而是根据一定的财务指标(如营业收入占比)来确定每个行业。 分配比例。

7、行业因素使用GICS、证监会、申万、中信等第三方数据是否更好? 还是利用相关性、聚类分析等算法来动态判断更好? 各自的优点和缺点是什么?

个人认为使用市场上常见的第三方数据比较好,比如申万; 相关性、聚类分析等算法可能存在伪回归的风险,缺乏扎实可靠的财务运行逻辑,第三方数据会根据公司的经营状况而定。 动态的更新也将形成市场的一致预期。

8. 为什么规模因素(Size,也称市值因素)在中国有如此显着的影响? 选择长期投资小盘股有何利弊?

一是小盘股的壳资源效应; 二是小盘股操作性强,A股市场散户投资者居多,内幕交易盛行。 三是小盘股具有较高的成长性。 正如三个因素中提到的,从长期来看,小盘股确实比大盘股有超额收益。

如果出现像2014年12月这样的流动性危机,注册制实施后,规模因素肯定不会一直表现得那么好。

9. 市值系数应如何确定? 市值本身、市值的对数和市值的平方根有什么区别? 哪一个更好? 您认为流通市值和市值哪个信号更强?

对市值取对数会缩小个股之间的差距,而且很多股票的权重几乎相等。 至于哪一种更好,还要看实际的回测效果。 从个人经验和直觉来看,流通市值更具代表性。

10. 周转率如何计算? 长时间暂停交易怎么办?

对于个股而言,换手率一般以成交量/总流通股数计算。 对于策略来说,一般用换手率来衡量手续费的高低。 常按每日双边交易总额/前一日收盘价总资产计算。 暂停交易时没有交易,只需清零即可。

11、如果某个因子包含长期平均数据(如5年平均净利润),中间有缺失数据段(如缺失近5年2份年报),应该如何处理处理? 参考方法有两种:设置为空值,或者取现有数据的平均值作为长期平均值。 哪一个更好? 还是没关系?

处理缺失值没有完美的方法,不同的情况应该区别对待。 以本文为例,计算五年的平均净利润。 如果公司的利润呈线性增长,那么采用现有数据就会高估平均值。 利润,同样,如果企业利润线性下降,那么拿现有数据就会低估平均利润,具体情况要具体分析。

12. 财务数据应在什么时候更新? 例如,对于月度多因素模型,年度报告可能会在三月或四月发布。 公布的数据是3月底立即更新,还是4月底统一更新使用?

为了更好地获得信息的时效性,通常的做法是随时发布和更新。

13、单因素检验的结果可以用哪些指标来衡量?

回归方法中,t绝对值均值、|t|>2比例、t序列方差、β均值、β方差等。

在组合方法的构建中,使用了信息比IR、夏普值、最大回撤、周转率等常用指标。

14、根据单因素检验结果,如何对因素有效性进行排序? 换句话说,如何用单一指标来衡量要素有效性?

如果评估风险因素,请使用abs(mean(t))/std(t)

如果评估α因子,请使用信息比

15. 所谓的“阿尔法因素”和“风险因素”应该如何区分?

风险因素更关心解释股票收益的来源。 从经济金融的角度来看,也符合投资逻辑。 从统计的角度来看,如上一个问题所列,abs(mean(t))/std(t)是显着的,比如大于2的比例就很高; 并且alpha因子有更高的要求。 从统计学上来说,它可以表示为平均值(t)/标准差(t),这是显着的。 直观地说,就是风险因子不需要方向,只需要因子值。 它对于股票具有解释性和可区分性,而α因子要求该因子的方向保持稳定且显着,这样才能获得稳定的超额收益。

16.您的理解中有效且符合逻辑的因素是什么? 哪些因素是合乎逻辑但效果较差的? 如果你用某种方法组合了一个解释力很强的奇怪因素,但你看不到该因素的经济意义怎么办?

估值、市值等有效逻辑因素; 逻辑效果差可能是因为这些因素已经反映在价格上,或者市场效率不高(尤其是A股); 对于复杂的因素,可以使用归因分析来确定因素的风格偏差。

17、如何打磨旧因素,提高其有效性?

一个简单的想法就是测试旧因子更多不同的使用场景,比如估值因子在不同行业的表现差异; 或者构建动态场景模型(动态alpha上下文模型),看看旧因素在不同场景下的表现; 当然最直接的就是对旧因素进行计时。

18.如何寻找新的构建因素信息源? 有哪些想法?

比如现在市场上很流行的高频转低频因素; 或者是一些没有被其他投资者使用过的数据(非结构化的,需要非常轻的技术将这些数据转化为结构化的因子形式),比如人气数据、情感数据、支付数据等大数据领域。

19、现在常用的因素都是容易量化的因素。 对于基本面因素、事件驱动因素、市场情绪因素等难以量化的因素,是否有合适的处理方法?

有效流通市值是什么意思_有效流通市值是什么意思_有效流通市值是什么意思

具体问题具体分析,难以量化的因素可根据经验直接分层评分处理。

模型拟合

1. 拟合多因素模型的综合目标是什么?

增强模型的解释力,提高模型对风险的预测能力。

2.如何选择样本空间? 例如,新上市股票、ST股票、指数成分股变动、停牌股票等异常情况如何处理。

每个时期回归的样本空间需要动态处理。 明显不合理、不具有代表性的股票可以直接剔除,如新上市股票、ST股票、停牌股票等,保证最终选出的股票最具代表性。 同时需要注意的是,淘汰时需要考虑行业问题。 如果剔除不合理,某个行业就没有代表性个股,比如A股保险行业。 这种情况需要综合考虑。

3.如何选择因子组? 有没有什么经典理论可以参考?

所选因素必须符合投资逻辑,并经过长期市场的检验。 参考理论大多来自经济金融教材、论文和期刊等,如Fama-French三因素模型。

4、从因子选择到多因子策略回测,一般步骤是什么? 哪些可以排除,哪些不能排除?

单因素测试、多因素综合、个股收益预测、交易成本估算、投资组合构建

5、如果不对各期因子暴露进行离群值、缺失值和标准化处理,会产生什么后果? 如果你选择处理它,你需要注意哪些模型失真?

极值会影响回归中的整体情况。 如果不进行标准化,各因素的维度将会有很大差异。 缺失值过多也会影响模型的整体情况。 处理极值时必须考虑合理性,尤其是存在异常情况时。 的极值可以直接去掉,但是去掉太多的缺失值就不行了。 标准化必须考虑到行业之间某些因素的固有差异。

6、处理异常值的方法有哪些? 常见的方法是将偏离均值N倍标准差的异常值拉回N倍标准差的位置。 此时N的一般取值是多少?

异常值处理包括分位数去除极值和标准正态分布去除极值; 如果使用标准正态分布,则常见的N为3。

7. 处理缺失值的方法有哪些? 现提供三种参考方法:一是将空缺设置为NaN,在涉及回归时使用程序自动忽略NaN项; 另一种是从当前票据池中移除所有包含 NaN 项目的股票; 第三种是去除所有NaN(归一化后)设置为零(或中位数)。 他们之间有什么区别? 哪一个更好? 或者有更好的东西吗?

如果回归中存在NaN项,程序会自动忽略它们,这与消除的效果相同; 直接将NaN设置为0或中位数也是一种选择,但这种替代是否合理需要具体情况具体分析; 个人经验是,如果由于某种原因无法直接去掉缺失值,建议用某个值替换。 否则,它们可以被删除而不受此限制。

8、标准化的方法有哪些? 归一化后的数据近似什么样的分布模式? 各种标准化方法的优缺点是什么?

常用假设因子值服从正态分布,并使用(xu)/sigma进行标准化; 当因子值明显不服从正态分布时,可以采用中值标准化法。

9. 权重标准化,权重如何设置? 是否需要与回报时的个股权重保持一致?

您可以使用流通市值作为权重。 回归时对个股设定的权重是为了消除异方差的影响。 它不需要与完全标准化时相同。

10.标准化、离群值处理、缺失值处理。 三个链接的顺序如何建立?

一般来说,处理顺序是极值处理、缺失值处理、标准化。

11. 因素之间或多或少存在相关性。 如果所有因素正交会发生什么? 这样做或不这样做的原因是什么?

与主成分分析法类似,如果对所有因素进行正交化,就会丢失因素的投资逻辑,导致模型的可解释性不够,不如原始因素直观。

12.如何选择截面回归的频率? 依据是什么?

截面回归的频率决定了风险预测的时限,也对应了后续构建投资组合时调整仓位的频率,需要结合考虑; 横截面回归常用的计算一般是日频率。

13、回归模型涉及的个股收益率如何计算? 最简单(并且保证准确)的方法是什么?

可以采用该权利的收盘价,准确的结果应结合市场价格与股息、配股等影响收益的因素计算得出。

14、回归模型是否需要添加截距项(即常数项)? 什么情况下可以采取,什么情况下不可以采取?

当存在行业因素时,不能添加截距项,因为行业因素之和是全1的向量。 添加截距项将导致回归系数无法唯一确定。

15. 在回归中使用 OLS 和 WLS 有什么区别? 使用 WLS 的理由是什么?

WLS主要消除了异方差的影响,得到的因子回归更加有效。 现实中,不同市值的股票波动表现确实存在很大差异。 大市值蓝筹股的波动幅度明显小于小市值蓝筹股。 WLS有其合理的意义。

16.如何评估或衡量多因素模型的效果?

有两种常见的方法。 一是进行典型偏差测试,构建组合并计算BS统计量,看其波动性是否为1; 另一种是直接绘制,xy轴分别为组合的实际波动率和组合的预测波动率。

17、如何判断现有因素是否足以解释收益?

R^2,绝对的价值水平和稳定性

18、中国股市多因素模型的R^2通常是多少?

0.4~0.5

一个小广告:

友矿本身拥有400+因子库,包括基本面因子、技术面因子、文中提到的分析师因子、常见券商因子、特殊因子等。

欢迎朋友们来看看

优秀的矿物质因子数据

友矿精选数据