ML 模型需要更好的训练数据:GenAI 解决方案

我们对金融市场的理解本质上受到历史经验的限制——在无数可能展开的情景中,只实现了一个单一的时间线。每个市场周期、地缘政治事件或政策决定都只是潜在结果的一种表现形式。

训练机器学习(ML)模型时,这一限制尤为明显,因为模型可能会无意中从历史遗迹中学习,而不是学习底层的市场动态。随着复杂 ML 模型在资产管理中的普及,它们倾向于过度拟合特定的历史条件,这给投资结果带来了越来越大的风险。

生成式 AI 生成的数据(GenAI 生成数据)正在成为应对这一挑战的潜在解决方案。虽然生成式 AI 主要因其在自然语言处理方面的关注而受到关注,但其生成复杂生成数据的能力可能对量化投资过程更为重要。通过创建能够有效代表“平行时间线”的数据,这种方法可以被设计和工程化,以提供更丰富的训练数据集,同时保留关键的市场关系并探索反事实情景。

ML 模型需要更好的训练数据:GenAI 解决方案

挑战:超越单一时间线训练

传统的量化模型存在一个固有的局限性:它们仅从导致当前状况的单一历史事件序列中学习。这产生了我们称之为“经验性偏差”的问题。随着复杂机器学习模型的学习能力使其能够学习复杂的模式,它们在有限的历史数据上过度拟合的问题变得更加突出。一种替代方法是考虑反事实情景:如果某些可能任意的事件、决策或冲击以不同的方式展开,这些情景可能会发生

为了说明这些概念,考虑 MSCI EAFE 基准的活跃国际股票投资组合。图 1 展示了过去五年(截至 2025 年 1 月 31 日)多个投资组合的表现特征——上行捕捉、下行捕捉以及整体相对回报。

图 1:经验数据。EAFE 基准投资组合,截至 2025 年 1 月 31 日的五年表现特征。

ML 模型需要更好的训练数据:GenAI 解决方案

这个经验数据集仅仅代表了可能的投资组合的一小部分,而如果事件发展不同,潜在的结果样本会更小。传统上扩展这个数据集的方法存在显著的局限性。

图 2.基于实例的方法:K 最近邻(左),SMOTE(右)。

ML 模型需要更好的训练数据:GenAI 解决方案

传统合成数据:理解限制

常规的合成数据生成方法试图解决数据限制问题,但往往无法捕捉金融市场的复杂动态。以我们的 EAFE 投资组合为例,我们可以考察不同方法的表现:

基于实例的方法,如 K-NN 和 SMOTE 通过局部采样扩展现有数据模式,但从根本上仍然受限于观察到的数据关系。它们无法生成远超出训练示例的场景,限制了它们对未来市场条件的理解能力。

图 3:更具灵活性的方法通常能改善结果,但难以捕捉复杂的市场关系:GMM(左),KDE(右)。

ML 模型需要更好的训练数据:GenAI 解决方案

无论是通过实例方法还是密度估计的传统合成数据生成方法都存在根本性的局限性。虽然这些方法可以逐步扩展模式,但它们无法生成保留复杂相互关系的同时探索真正不同的市场条件的现实市场情景。当我们研究密度估计方法时,这一点尤为明显。

如 GMM 和 KDE 这样的密度估计方法在扩展数据模式方面更具灵活性,但仍难以捕捉金融市场的复杂、相互关联的动力。这些方法在制度变化期间尤其难以应对,因为历史关系可能会发生变化。

Recent 研究在城市圣乔治和华威大学进行,并在纽约大学 ACM 国际金融人工智能会议上(ICAIF)展示,表明生成式 AI 可能更好地逼近市场的数据生成函数。通过神经网络架构,这种方法旨在学习条件分布同时保留持久的市场关系。

研究与政策中心(RPC)即将发布一份报告,该报告将定义合成数据,并概述可用于创建它的生成 AI 方法。该报告将强调评估合成数据质量的最佳方法,并引用现有的学术文献来突出潜在的应用场景。

图 4:展示了 GenAI 合成数据如何扩展现实可能结果的空间,同时保持关键关系。

ML 模型需要更好的训练数据:GenAI 解决方案

这种合成数据生成的方法可以扩展以提供几个潜在的优势:

  • 扩展训练集: 对有限的金融数据集进行现实增强
  • 情景探索: 生成合理的市场条件,同时保持持久的关系
  • 尾事件分析: 创建多种但现实的压测情景

如图 4 所示,GenAI 合成数据方法旨在扩展可能的投资组合绩效特征的空间,同时尊重基本的市场关系和现实的边界。这为机器学习模型提供了更丰富的训练环境,可能减少其对历史伪影的脆弱性,并提高其在不同市场条件下泛化的能力。

在证券选择中的应用

对于特别容易学习虚假历史模式的股票选择模型而言,GenAI 合成数据提供了三个潜在的好处:

  1. 减少过拟合 : 通过在各种市场条件下进行训练,模型可能更好地区分持久信号和暂时的伪影。
  2. 增强尾部风险管理: 训练数据中包含更多样化的场景可能在市场压力期间提高模型的稳健性。
  3. 更好的泛化能力: 保持现实市场关系的扩展训练数据可能有助于模型适应不断变化的条件。

有效实施 GenAI 合成数据生成本身也带来了技术挑战,这些挑战可能比投资模型本身还要复杂。然而,我们的研究表明,成功应对这些挑战可以通过更稳健的模型训练显著提高风险调整后的回报。

GenAI 通往更好模型训练的道路

GenAI 合成数据有可能为投资和风险模型提供更强大的前瞻性洞察。通过基于神经网络的架构,它旨在更好地逼近市场的数据生成函数,从而可能更准确地代表未来市场条件,同时保持持久的相互关系。

尽管这可以惠及大多数投资和风险模型,但其之所以现在被视为一项重要的创新,关键原因在于机器学习在投资管理中的日益普及以及由此带来的过度拟合风险。GenAI 合成数据可以生成可信的市场情景,同时保持复杂关系并探索不同的条件。这项技术为更稳健的投资模型提供了途径。

然而,即使是最先进的合成数据也无法弥补简单的机器学习实现。对于过度复杂性、不透明模型或薄弱的投资理由,没有安全的解决方案。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/90313.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 10小时前
下一篇 2023年7月21日 23:20

相关推荐

  • 英伟达重燃人工智能涨势,美国主要股指创历史新高

    作者:彭博新闻社的埃琳娜·波皮纳 (Elena Popina) ,2024 年 2 月 23 日 由于英伟达公司的业绩重新点燃了人们的信心,即人工智能的突破将提高利润并为股价提供进一步的上涨空间,美国三大股指周四均飙升至历史新高。 这家芯片制造商井喷式的盈利报告引发了整个华尔街的广泛上涨,使标准普尔 500 指数在 2024 年创下第 12 个收盘纪录新高,…

    2024年3月30日
    8400
  • 夏日鸡尾酒、白色运动鞋、Nvidia:开学季

    虽然南加州的海滩版度过了一个史诗般的、没有海洋层的夏天,但似乎很少有当地人享受到它,他们反而违反了成年人生活的基本规则,没有孩子住在家里,尽管如此,夏天还是去欧洲旅行了。我们并没有想念你。 但偶尔我们也会遇到菠萝快车——这实际上是一种天气状况,而不是一种新的大麻品种——在某种程度上也是今年夏天市场的一个隐喻。这是“天哪,市场可能会下跌”的另一个版本,然而世界…

    2024年10月9日
    4300
  • 人工智能最终会结束我们与大学的恋情吗?

    关于人工智能兴起的许多讨论都集中在它对白领工作和知识工作者的威胁上。经纪人、交易员、平面设计师、软件工程师和无数其他专业人士将何去何从?长期以来,创意人士一直相信我们对人工智能的影响相对较小。一台没有灵魂、没有知觉的机器真的能为艺术注入激情和人性吗?显然是的。 当我们劳动力中最年轻的人开始规划他们的高等教育和职业选择时,哪些职业和技能能够承受下一次工业革命的…

    2023年7月28日
    17000
  • 谷歌的 YouTube 是否仍然向儿童投放广告?

    谷歌可能再次因通过 YouTube 广告侵犯儿童隐私而面临巨额罚款。 最近的两份报告表明,该公司正在收集儿童数据并向儿童投放广告,这违反了《儿童在线隐私和保护法》(COPPA) 以及谷歌与联邦贸易委员会达成的同意令。与此同时,拥有 YouTube 的谷歌正准备在一场有关其搜索引擎的重大反垄断诉讼中为自己辩护,并受到民主党和共和党的审查,而且国会也在考虑儿童在…

    2023年8月28日
    20200
  • 我们能阻止人工智能吗? 顶级计算机科学家斯图尔特·拉塞尔 (Stuart Russell) 探讨如何防止事情失控

    新闻业最困难的部分之一是在报道当前看似重要的故事和报道您知道未来真正重要的故事之间取得平衡。这很困难,因为现在发生的最重要的事情往往很无聊或难以解释。 人工智能就是此类挑战的一个很好的例子。正在进行的人工智能革命发展得如此之快,即使你很努力也很难跟上。例如, Chat GPT-4于今年 3 月发布,几乎让所有使用过它的人感到震惊。如果这个最新的大型语言模型是…

    2023年9月22日
    18700
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部