GenAI 驱动的合成数据如何重塑投资工作流程

在当今的数据驱动投资环境中,数据的质量、可用性和具体性可以决定一个策略的成功与否。然而,投资专业人士经常面临限制:历史数据集可能无法捕捉新兴风险,替代数据往往不完整或成本高昂,开源模型和数据集则偏向于主要市场和英语内容。

随着企业寻求更灵活和前瞻性的工具,合成数据——特别是从生成 AIGenAI)中衍生出来的——正在成为一种战略资产,提供了一种新的方式来模拟市场情景、训练机器学习模型和回测投资策略。本文探讨了生成 AI 驱动的合成数据如何重塑投资工作流程——从模拟资产相关性到增强情绪模型——以及从业者需要了解的内容,以评估其效用和局限性。

合成数据究竟是什么?生成式人工智能模型又是如何生成这些数据的?为什么它们在投资应用场景中越来越相关?

考虑两个常见的挑战。一位组合经理希望在不同市场环境下优化表现,但受限于历史数据,无法涵盖尚未发生的“假设”情景。同样,一位监测德语新闻中小盘股情绪的数据科学家可能会发现,大多数可用的数据集都是用英语编制的,且主要关注大盘公司,这既限制了覆盖面,也降低了相关性。在两种情况下,合成数据都提供了一个实用的解决方案。


生成式人工智能合成数据的独特之处——以及为何现在很重要

合成数据是指人工生成的数据集,其统计特性能够模拟真实世界数据。虽然这一概念并不新奇——蒙特卡洛模拟和自助法等技术长期以来一直支持金融分析——但变化在于生成方式

GenAI 指的是一类能够生成跨模态(如文本、表格、图像和时间序列)高保真合成数据的深度学习模型。与传统方法不同,GenAI 模型可以直接从数据中学习复杂的现实世界分布,从而消除对生成过程的严格假设。这种能力在投资管理领域开启了强大的应用场景,特别是在真实数据稀缺、复杂、不完整或受限于成本、语言或监管的领域。

不同类型的 GenAI 模型包括变分自编码器(VAEs)、生成对抗网络(GANs)、基于扩散的模型以及大型语言模型(LLMs)。这些模型都是基于神经网络架构构建的,尽管它们在规模和复杂性上有所不同。这些方法已经在行业内展示了增强某些数据驱动工作流程的潜力。例如,VAEs 已被用于创建合成波动率曲面以改善期权交易(Bergeron et al., 2021)。GANs 已被证明在投资组合优化和风险管理方面很有用(Zhu, Mariani and Li, 2020; Cont et al., 2023)。基于扩散的模型在模拟各种市场环境下资产回报相关矩阵方面也证明了其有用性(Kubiak et al., 2024)。而 LLMs 在市场模拟方面也证明了其有用性(Li et al., 2024)。

表1. 合成数据生成的方法。

方法 生成的数据类型 示例应用 生成型?
蒙特卡洛 时间序列 投资组合优化,风险管理
基于 copula 的函数 时间序列,表格 信用风险分析,资产相关性建模
自回归模型 时间序列 波动率预测,资产回报模拟
自助法 时间序列、表格、文本 创建置信区间、压力测试
变分自编码器 表格数据、时间序列、音频、图像 模拟波动率曲面
生成对抗网络 表格、时间序列、音频、图像, 组合优化、风险管理、模型训练
扩散模型 表格,时间序列,音频,图像, 相关建模,组合优化
大型语言模型 文本,表格,图像,音频 情绪分析,市场模拟

评估合成数据质量

合成数据应该具有现实性,并且与真实数据的统计特性相匹配。现有的评估方法可以分为两类:定量和定性。

定性方法涉及可视化真实数据集和合成数据集之间的比较。例如,可以可视化分布、比较变量对之间的散点图、时间序列路径和相关矩阵。例如,一个训练用于模拟资产回报以估计风险价值的 GAN 模型应该成功地再现分布的厚尾。一个在不同市场环境下训练生成合成相关矩阵的扩散模型应该充分捕捉资产间的联动性。

定量方法包括用于比较分布的统计测试,如柯尔莫哥洛夫-斯米尔诺夫检验、人口稳定性指数和詹森-香农散度。这些测试输出统计值,表明两个分布之间的相似性。例如,柯尔莫哥洛夫-斯米尔诺夫检验输出一个 p 值,如果小于 0.05,表明两个分布显著不同。这可以提供一个更具体的测量来衡量两个分布之间的相似性,而不是通过可视化。

另一种方法是“基于合成数据训练,基于真实数据测试”,即模型在合成数据上训练,在真实数据上测试。可以将该模型的性能与在真实数据上进行训练和测试的模型进行比较。如果合成数据成功地复制了真实数据的特性,那么两个模型的性能应该相似。

在行动:利用生成式 AI 合成数据增强金融情绪分析

为了将这一实践应用到实际中,我使用了一个公开的数据集 FiQA-SA[1],对一个小型开源 LLM Qwen3-0.6B 进行了微调,用于金融情绪分析。该数据集包含 822 个训练样本,大多数句子被分类为“正面”或“负面”情绪。

我随后使用 GPT-4o 生成了 800 个合成训练样本。GPT-4o 生成的合成数据集比原始训练数据更加多样化,涵盖了更多的公司和情绪(图 1)。增加训练数据的多样性为 LLM 提供了更多的例子,使其能够从文本内容中识别情绪,这可能在处理未见过的数据时提高模型的性能。

图1. 实际数据(左)、合成数据(右)以及包含实际和合成数据的增强训练数据集(中)的情绪类别分布。

GenAI 驱动的合成数据如何重塑投资工作流程

表2. 实际训练数据集和合成训练数据集的示例句子。

句子 类别 数据
weir 公司股价下跌,导致富时指数从历史最高点回落。 负面 真实
阿斯利康获得 FDA 批准其新的关键肺癌药物。 正面 真实
壳牌和 BG 的股东将于一月底对这笔交易进行投票。 中性 真实
特斯拉的季度报告显示车辆交付量增长了15%。 积极 合成
百事公司召开新闻发布会以应对最近的产品召回事件。 中立 合成
Home Depot 的 CEO 在内部争议中突然辞职。 负面 合成

经过在相同训练程序下对第二个模型进行微调,结合使用真实数据和合成数据后,验证数据集上的 F1 分数提高了近 10 个百分点(表 3),最终测试数据集上的 F1 分数为 82.37%。

表 3. 模型在 FiQA-SA 验证数据集上的性能。

Model 加权 F1 评分
Model 1(真实数据) 75.29%
Model 2(真实数据 + 合成数据) 85.17%

我发现增加合成数据的比例过多会产生负面影响。合成数据过多和过少之间存在一个最佳区间。

不是万能药,但是一项有价值的工具

合成数据不是真实数据的替代品,但值得一试。选择一种方法,评估合成数据的质量,并在沙盒环境中进行 A/B 测试,比较使用不同比例合成数据的工作流程与未使用合成数据的工作流程。你可能会对结果感到惊讶。

您可以在 RPC Labs 的 GitHub 仓库查看所有代码和数据集 ,并在研究与政策中心的“ 投资管理中的合成数据 ”研究报告中更深入地了解 LLM 案例研究。


[1] 数据集可在以下链接下载:https://huggingface.co/datasets/TheFinAI/fiqa-sentiment-classification

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/91326.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2025年9月12日 00:03
下一篇 2025年9月19日 00:32

相关推荐

  • 受人工智能浪潮困扰的基金专业人士正在放弃主动管理

    科技巨头永无休止的崛起正在驱使选股专业人士做他们不想做的事情:放弃超越基准。 随着微软公司和英伟达公司等公司几乎掌控 2023 年的牛市,基金经理面临着两难境地。如此多的股票被抛在了后面,以至于找到能够跑赢该指数的股票几乎是不可能的——从一项衡量标准来看,这是自 1987 年以来最难的。一种补救措施是放弃并让标准普尔 500 指数的静态分配来引导自己。 他们…

    2024年1月27日
    18000
  • 埃隆·马斯克和马克·扎克伯格:他们真的要进行笼斗吗?

    男孩们正在战斗。或者不是吗? 当然,我们所说的“男孩”指的是科技亿万富翁埃隆·马斯克( Elon Musk),他拥有特斯拉、SpaceX,最近还拥有Twitter,以及马克·扎克伯格(Mark Zuckerberg ) ,他创立了Meta(前身为Facebook),后者还拥有Instagram和 WhatsApp。 他们分别是 51 岁和 39 岁——早在 …

    2023年8月18日
    24100
  • 投资管理中的 AI:前线的 5 堂课

    作者:Markus Schuller,Michelle Sisto, PhD,Wojtek Wojaczek, PhD,Franz Mohr,Patrick J. Wierckx, CFA 和 Jurgen Janssens 资产管理行业正处于一个关键转折点,人工智能(AI)正在重新塑造许多传统流程和决策框架。从投资组合管理到公司分析,AI 的能力提供了前所…

    2025年11月13日
    2000
  • Nvidia 的高风险盈利时刻让整个市场紧张

    作者:Carmen Reinicke,2024 年 2 月 21 日 英伟达公司(Nvidia Corp.)领先市场的涨势甚至让多头质疑盈利好于预期是否足以推动这家人工智能芯片制造商的股价走高。 对于英伟达和整个市场来说,现在的关键是该公司能否达到收入预期并向投资者保证其在生成人工智能领域将进一步增长。鉴于其对今年股市收益的巨大影响,高盛集团的交易部门将其称…

    2024年3月27日
    16100
  • 自动驾驶汽车的现状:自动性能的进化

    几十年来,科幻小说一直宣扬自动驾驶汽车,家庭在享受彼此陪伴的同时被卷走的画面。这是一幅浪漫、田园诗般的画面。如今,汽车制造商正在竞相开发技术,以使全自动驾驶汽车成为现实。 处理器、相机技术和人工智能的进步让我们比以往任何时候都更加接近。自动驾驶车辆并不新鲜,但您会惊讶地发现我们还有多远的路要走。尽管像特斯拉的 Autopilot 这样的一些开发项目似乎提供了…

    2023年6月20日
    46200
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部