GenAI 驱动的合成数据如何重塑投资工作流程

在当今的数据驱动投资环境中,数据的质量、可用性和具体性可以决定一个策略的成功与否。然而,投资专业人士经常面临限制:历史数据集可能无法捕捉新兴风险,替代数据往往不完整或成本高昂,开源模型和数据集则偏向于主要市场和英语内容。

随着企业寻求更灵活和前瞻性的工具,合成数据——特别是从生成 AIGenAI)中衍生出来的——正在成为一种战略资产,提供了一种新的方式来模拟市场情景、训练机器学习模型和回测投资策略。本文探讨了生成 AI 驱动的合成数据如何重塑投资工作流程——从模拟资产相关性到增强情绪模型——以及从业者需要了解的内容,以评估其效用和局限性。

合成数据究竟是什么?生成式人工智能模型又是如何生成这些数据的?为什么它们在投资应用场景中越来越相关?

考虑两个常见的挑战。一位组合经理希望在不同市场环境下优化表现,但受限于历史数据,无法涵盖尚未发生的“假设”情景。同样,一位监测德语新闻中小盘股情绪的数据科学家可能会发现,大多数可用的数据集都是用英语编制的,且主要关注大盘公司,这既限制了覆盖面,也降低了相关性。在两种情况下,合成数据都提供了一个实用的解决方案。


生成式人工智能合成数据的独特之处——以及为何现在很重要

合成数据是指人工生成的数据集,其统计特性能够模拟真实世界数据。虽然这一概念并不新奇——蒙特卡洛模拟和自助法等技术长期以来一直支持金融分析——但变化在于生成方式

GenAI 指的是一类能够生成跨模态(如文本、表格、图像和时间序列)高保真合成数据的深度学习模型。与传统方法不同,GenAI 模型可以直接从数据中学习复杂的现实世界分布,从而消除对生成过程的严格假设。这种能力在投资管理领域开启了强大的应用场景,特别是在真实数据稀缺、复杂、不完整或受限于成本、语言或监管的领域。

不同类型的 GenAI 模型包括变分自编码器(VAEs)、生成对抗网络(GANs)、基于扩散的模型以及大型语言模型(LLMs)。这些模型都是基于神经网络架构构建的,尽管它们在规模和复杂性上有所不同。这些方法已经在行业内展示了增强某些数据驱动工作流程的潜力。例如,VAEs 已被用于创建合成波动率曲面以改善期权交易(Bergeron et al., 2021)。GANs 已被证明在投资组合优化和风险管理方面很有用(Zhu, Mariani and Li, 2020; Cont et al., 2023)。基于扩散的模型在模拟各种市场环境下资产回报相关矩阵方面也证明了其有用性(Kubiak et al., 2024)。而 LLMs 在市场模拟方面也证明了其有用性(Li et al., 2024)。

表1. 合成数据生成的方法。

方法 生成的数据类型 示例应用 生成型?
蒙特卡洛 时间序列 投资组合优化,风险管理
基于 copula 的函数 时间序列,表格 信用风险分析,资产相关性建模
自回归模型 时间序列 波动率预测,资产回报模拟
自助法 时间序列、表格、文本 创建置信区间、压力测试
变分自编码器 表格数据、时间序列、音频、图像 模拟波动率曲面
生成对抗网络 表格、时间序列、音频、图像, 组合优化、风险管理、模型训练
扩散模型 表格,时间序列,音频,图像, 相关建模,组合优化
大型语言模型 文本,表格,图像,音频 情绪分析,市场模拟

评估合成数据质量

合成数据应该具有现实性,并且与真实数据的统计特性相匹配。现有的评估方法可以分为两类:定量和定性。

定性方法涉及可视化真实数据集和合成数据集之间的比较。例如,可以可视化分布、比较变量对之间的散点图、时间序列路径和相关矩阵。例如,一个训练用于模拟资产回报以估计风险价值的 GAN 模型应该成功地再现分布的厚尾。一个在不同市场环境下训练生成合成相关矩阵的扩散模型应该充分捕捉资产间的联动性。

定量方法包括用于比较分布的统计测试,如柯尔莫哥洛夫-斯米尔诺夫检验、人口稳定性指数和詹森-香农散度。这些测试输出统计值,表明两个分布之间的相似性。例如,柯尔莫哥洛夫-斯米尔诺夫检验输出一个 p 值,如果小于 0.05,表明两个分布显著不同。这可以提供一个更具体的测量来衡量两个分布之间的相似性,而不是通过可视化。

另一种方法是“基于合成数据训练,基于真实数据测试”,即模型在合成数据上训练,在真实数据上测试。可以将该模型的性能与在真实数据上进行训练和测试的模型进行比较。如果合成数据成功地复制了真实数据的特性,那么两个模型的性能应该相似。

在行动:利用生成式 AI 合成数据增强金融情绪分析

为了将这一实践应用到实际中,我使用了一个公开的数据集 FiQA-SA[1],对一个小型开源 LLM Qwen3-0.6B 进行了微调,用于金融情绪分析。该数据集包含 822 个训练样本,大多数句子被分类为“正面”或“负面”情绪。

我随后使用 GPT-4o 生成了 800 个合成训练样本。GPT-4o 生成的合成数据集比原始训练数据更加多样化,涵盖了更多的公司和情绪(图 1)。增加训练数据的多样性为 LLM 提供了更多的例子,使其能够从文本内容中识别情绪,这可能在处理未见过的数据时提高模型的性能。

图1. 实际数据(左)、合成数据(右)以及包含实际和合成数据的增强训练数据集(中)的情绪类别分布。

GenAI 驱动的合成数据如何重塑投资工作流程

表2. 实际训练数据集和合成训练数据集的示例句子。

句子 类别 数据
weir 公司股价下跌,导致富时指数从历史最高点回落。 负面 真实
阿斯利康获得 FDA 批准其新的关键肺癌药物。 正面 真实
壳牌和 BG 的股东将于一月底对这笔交易进行投票。 中性 真实
特斯拉的季度报告显示车辆交付量增长了15%。 积极 合成
百事公司召开新闻发布会以应对最近的产品召回事件。 中立 合成
Home Depot 的 CEO 在内部争议中突然辞职。 负面 合成

经过在相同训练程序下对第二个模型进行微调,结合使用真实数据和合成数据后,验证数据集上的 F1 分数提高了近 10 个百分点(表 3),最终测试数据集上的 F1 分数为 82.37%。

表 3. 模型在 FiQA-SA 验证数据集上的性能。

Model 加权 F1 评分
Model 1(真实数据) 75.29%
Model 2(真实数据 + 合成数据) 85.17%

我发现增加合成数据的比例过多会产生负面影响。合成数据过多和过少之间存在一个最佳区间。

不是万能药,但是一项有价值的工具

合成数据不是真实数据的替代品,但值得一试。选择一种方法,评估合成数据的质量,并在沙盒环境中进行 A/B 测试,比较使用不同比例合成数据的工作流程与未使用合成数据的工作流程。你可能会对结果感到惊讶。

您可以在 RPC Labs 的 GitHub 仓库查看所有代码和数据集 ,并在研究与政策中心的“ 投资管理中的合成数据 ”研究报告中更深入地了解 LLM 案例研究。


[1] 数据集可在以下链接下载:https://huggingface.co/datasets/TheFinAI/fiqa-sentiment-classification

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/91326.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2025年9月12日 00:03
下一篇 2025年9月19日 00:32

相关推荐

  • 中国如何在电动汽车大竞赛中击败美国

    美国是全球市值最高的电动汽车生产国,但同时又是电动汽车竞赛中的落选者。这是怎么发生的? 就在 2016 年,美国上路的电动汽车数量还超过中国。如今,中国已遥遥领先。 尽管特斯拉公司在将电气化带入主流方面发挥了先锋作用,但美国电动汽车的发展仍饱受忧虑。尽管去年销量增长了 44%,但预计 2024 年这一数字将大幅放缓,不仅底特律,特斯拉本身也出现了衰退迹象。2…

    2024年5月8日
    27000
  • 巨头科技股依然值得买入

    巨头科技股依然值得买入 作者:Russ Koesterich,BlackRock,2025 年 11 月 12 日 关键 支持拉斯关于科技股持续强势的三大主要因素:盈利动能、当前估值以及支持性的宏观环境。 虽然人们最常对估值提出担忧,但 Russ 认为这些数字虽高,但合理,尤其是在巨头公司中,鉴于它们结构性更高的盈利能力。 市场并非直线发展,但2025年越来…

    2025年12月2日
    2300
  • 自动驾驶汽车的现状:自动性能的进化

    几十年来,科幻小说一直宣扬自动驾驶汽车,家庭在享受彼此陪伴的同时被卷走的画面。这是一幅浪漫、田园诗般的画面。如今,汽车制造商正在竞相开发技术,以使全自动驾驶汽车成为现实。 处理器、相机技术和人工智能的进步让我们比以往任何时候都更加接近。自动驾驶车辆并不新鲜,但您会惊讶地发现我们还有多远的路要走。尽管像特斯拉的 Autopilot 这样的一些开发项目似乎提供了…

    2023年6月20日
    47900
  • 智能时代 — The Intelligence Age

    在未来几十年里,我们将能够做到让我们的祖父母觉得像是魔法般的事情。 这种现象并非新出现的,但它将被加速。人们随着时间的推移变得越来越有能力;我们现在能够完成的事情,我们的前辈可能认为是不可能的。 我们变得更强大,并非因为基因的改变,而是因为我们受益于社会基础设施的智能和能力远超我们个人;在重要意义上,社会本身就是一种高级智能的形式。我们的祖父母,以及他们之前…

    2024年12月12日
    5400
  • 除了人工智能股票之外,到哪里寻找增长点

    理查德·伯恩斯坦表示,预计欧洲股市的增长速度将超过美国科技股。 盖蒂图片社 迄今为止,人工智能一直是2023年的主导投资主题,导致与人工智能开发相关的大盘科技股激增。但根据投资经理理查德伯恩斯坦顾问公司的说法,重要的是寻找大型人工智能相关股票之外的增长机会,以减轻主要指数的集中风险。 1月至6月,七家领先的人工智能相关科技公司——苹果、微软、Alphabet…

    2023年8月2日
    53100
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部