在金融数据科学中使用具有经济意义的因素的好处

风生水起 • 2023年9月14日 01:23 • 百科 • 阅读 188

因素选择是我们构建财务模型时最重要的考虑因素之一。那么，随着机器学习 (ML) 和数据科学越来越融入金融，我们应该为 ML 驱动的投资模型选择哪些因素以及如何选择它们？

这些都是开放且关键的问题。毕竟，机器学习模型不仅可以帮助因子处理，还可以帮助因子发现和创建。

传统统计和机器学习模型中的因素：（非常）基础知识

机器学习中的因素选择称为“特征选择”。因素和特征有助于解释目标变量的行为，而投资因素模型则描述投资组合行为的主要驱动因素。

也许多因素模型构建方法中最简单的是普通最小二乘（OLS）回归，其中投资组合回报是因变量，风险因素是自变量。只要自变量具有足够低的相关性，不同的模型将在统计上有效，并在不同程度上解释投资组合的行为，揭示相关模型对投资组合行为的百分比以及投资组合的回报对每个变量的敏感程度因子的行为由每个因子附加的 beta 系数表示。

与传统的统计模型一样，机器学习回归模型也描述变量对一个或多个解释变量的敏感性。然而，与非 ML 模型相比，ML 模型通常可以更好地解释非线性行为和交互效应，并且它们通常不提供 OLS 回归输出的直接模拟，例如 beta 系数。

为什么因素应该具有经济意义

尽管合成因素很受欢迎，但经济上直观且经过经验验证的因素比此类“统计”因素具有优势，尽管高频交易（HFT）和其他特殊情况除外。作为研究人员，我们大多数人都喜欢最简单的模型。因此，我们通常从 OLS 回归或类似的东西开始，获得令人信服的结果，然后可能转向更复杂的 ML 模型。

但在传统回归中，因素必须足够不同，或者不是高度相关，以避免多重共线性问题，而多重共线性问题可能会导致传统回归不合格。多重共线性意味着模型的一个或多个解释因素过于相似而无法提供可理解的结果。因此，在传统的回归中，较低的因素相关性（避免多重共线性）意味着这些因素在经济上可能是不同的。

但多重共线性通常并不像 OLS 回归那样适用于 ML 模型构建。这是因为与 OLS 回归模型不同，ML 模型估计不需要协方差矩阵的逆。此外，机器学习模型没有严格的参数假设，也不依赖同方差（误差独立性）或其他时间序列假设。

然而，虽然机器学习模型相对无规则，但可能需要大量的模型前工作来确保给定模型的输入既具有投资相关性又具有经济一致性，并且足够独特以产生实际结果而无需任何解释性冗余。

尽管因子选择对于任何因子模型都至关重要，但在使用基于机器学习的方法时尤其重要。在预模型阶段选择不同但经济直观的因素的一种方法是采用最小绝对收缩和选择算子（LASSO）技术。这使模型构建者能够将大量因素提炼成较小的因素集，同时提供相当大的解释力和因素之间的最大独立性。

部署具有经济意义的因素的另一个根本原因是：它们有数十年的研究和实证验证来支持。例如，Fama-French – Carhart 因子的实用性已有详细记录，研究人员已经在 OLS 回归和其他模型中研究了它们。因此，它们在机器学习驱动模型中的应用是直观的。事实上，在也许是第一篇将机器学习应用于股权因子的研究论文中，吴晨威、Daniel Itano、Vyshaal Narayana 和我证明了 Fama-French-Carhart 因子与两个著名的机器学习框架（随机森林和关联）相结合规则学习——确实可以帮助解释资产回报并塑造成功的投资交易模型。

最后，通过部署具有经济意义的因素，我们可以更好地理解某些类型的机器学习输出。例如，随机森林和其他机器学习模型提供所谓的相对特征重要性值。这些分数和排名描述了模型中每个因素相对于其他因素提供的解释力有多大。当模型的各个因素之间的经济关系被清晰地描述出来时，这些值就更容易掌握。