GenAI 驱动的合成数据如何重塑投资工作流程

在当今的数据驱动投资环境中,数据的质量、可用性和具体性可以决定一个策略的成功与否。然而,投资专业人士经常面临限制:历史数据集可能无法捕捉新兴风险,替代数据往往不完整或成本高昂,开源模型和数据集则偏向于主要市场和英语内容。

随着企业寻求更灵活和前瞻性的工具,合成数据——特别是从生成 AIGenAI)中衍生出来的——正在成为一种战略资产,提供了一种新的方式来模拟市场情景、训练机器学习模型和回测投资策略。本文探讨了生成 AI 驱动的合成数据如何重塑投资工作流程——从模拟资产相关性到增强情绪模型——以及从业者需要了解的内容,以评估其效用和局限性。

合成数据究竟是什么?生成式人工智能模型又是如何生成这些数据的?为什么它们在投资应用场景中越来越相关?

考虑两个常见的挑战。一位组合经理希望在不同市场环境下优化表现,但受限于历史数据,无法涵盖尚未发生的“假设”情景。同样,一位监测德语新闻中小盘股情绪的数据科学家可能会发现,大多数可用的数据集都是用英语编制的,且主要关注大盘公司,这既限制了覆盖面,也降低了相关性。在两种情况下,合成数据都提供了一个实用的解决方案。


生成式人工智能合成数据的独特之处——以及为何现在很重要

合成数据是指人工生成的数据集,其统计特性能够模拟真实世界数据。虽然这一概念并不新奇——蒙特卡洛模拟和自助法等技术长期以来一直支持金融分析——但变化在于生成方式

GenAI 指的是一类能够生成跨模态(如文本、表格、图像和时间序列)高保真合成数据的深度学习模型。与传统方法不同,GenAI 模型可以直接从数据中学习复杂的现实世界分布,从而消除对生成过程的严格假设。这种能力在投资管理领域开启了强大的应用场景,特别是在真实数据稀缺、复杂、不完整或受限于成本、语言或监管的领域。

不同类型的 GenAI 模型包括变分自编码器(VAEs)、生成对抗网络(GANs)、基于扩散的模型以及大型语言模型(LLMs)。这些模型都是基于神经网络架构构建的,尽管它们在规模和复杂性上有所不同。这些方法已经在行业内展示了增强某些数据驱动工作流程的潜力。例如,VAEs 已被用于创建合成波动率曲面以改善期权交易(Bergeron et al., 2021)。GANs 已被证明在投资组合优化和风险管理方面很有用(Zhu, Mariani and Li, 2020; Cont et al., 2023)。基于扩散的模型在模拟各种市场环境下资产回报相关矩阵方面也证明了其有用性(Kubiak et al., 2024)。而 LLMs 在市场模拟方面也证明了其有用性(Li et al., 2024)。

表1. 合成数据生成的方法。

方法 生成的数据类型 示例应用 生成型?
蒙特卡洛 时间序列 投资组合优化,风险管理
基于 copula 的函数 时间序列,表格 信用风险分析,资产相关性建模
自回归模型 时间序列 波动率预测,资产回报模拟
自助法 时间序列、表格、文本 创建置信区间、压力测试
变分自编码器 表格数据、时间序列、音频、图像 模拟波动率曲面
生成对抗网络 表格、时间序列、音频、图像, 组合优化、风险管理、模型训练
扩散模型 表格,时间序列,音频,图像, 相关建模,组合优化
大型语言模型 文本,表格,图像,音频 情绪分析,市场模拟

评估合成数据质量

合成数据应该具有现实性,并且与真实数据的统计特性相匹配。现有的评估方法可以分为两类:定量和定性。

定性方法涉及可视化真实数据集和合成数据集之间的比较。例如,可以可视化分布、比较变量对之间的散点图、时间序列路径和相关矩阵。例如,一个训练用于模拟资产回报以估计风险价值的 GAN 模型应该成功地再现分布的厚尾。一个在不同市场环境下训练生成合成相关矩阵的扩散模型应该充分捕捉资产间的联动性。

定量方法包括用于比较分布的统计测试,如柯尔莫哥洛夫-斯米尔诺夫检验、人口稳定性指数和詹森-香农散度。这些测试输出统计值,表明两个分布之间的相似性。例如,柯尔莫哥洛夫-斯米尔诺夫检验输出一个 p 值,如果小于 0.05,表明两个分布显著不同。这可以提供一个更具体的测量来衡量两个分布之间的相似性,而不是通过可视化。

另一种方法是“基于合成数据训练,基于真实数据测试”,即模型在合成数据上训练,在真实数据上测试。可以将该模型的性能与在真实数据上进行训练和测试的模型进行比较。如果合成数据成功地复制了真实数据的特性,那么两个模型的性能应该相似。

在行动:利用生成式 AI 合成数据增强金融情绪分析

为了将这一实践应用到实际中,我使用了一个公开的数据集 FiQA-SA[1],对一个小型开源 LLM Qwen3-0.6B 进行了微调,用于金融情绪分析。该数据集包含 822 个训练样本,大多数句子被分类为“正面”或“负面”情绪。

我随后使用 GPT-4o 生成了 800 个合成训练样本。GPT-4o 生成的合成数据集比原始训练数据更加多样化,涵盖了更多的公司和情绪(图 1)。增加训练数据的多样性为 LLM 提供了更多的例子,使其能够从文本内容中识别情绪,这可能在处理未见过的数据时提高模型的性能。

图1. 实际数据(左)、合成数据(右)以及包含实际和合成数据的增强训练数据集(中)的情绪类别分布。

GenAI 驱动的合成数据如何重塑投资工作流程

表2. 实际训练数据集和合成训练数据集的示例句子。

句子 类别 数据
weir 公司股价下跌,导致富时指数从历史最高点回落。 负面 真实
阿斯利康获得 FDA 批准其新的关键肺癌药物。 正面 真实
壳牌和 BG 的股东将于一月底对这笔交易进行投票。 中性 真实
特斯拉的季度报告显示车辆交付量增长了15%。 积极 合成
百事公司召开新闻发布会以应对最近的产品召回事件。 中立 合成
Home Depot 的 CEO 在内部争议中突然辞职。 负面 合成

经过在相同训练程序下对第二个模型进行微调,结合使用真实数据和合成数据后,验证数据集上的 F1 分数提高了近 10 个百分点(表 3),最终测试数据集上的 F1 分数为 82.37%。

表 3. 模型在 FiQA-SA 验证数据集上的性能。

Model 加权 F1 评分
Model 1(真实数据) 75.29%
Model 2(真实数据 + 合成数据) 85.17%

我发现增加合成数据的比例过多会产生负面影响。合成数据过多和过少之间存在一个最佳区间。

不是万能药,但是一项有价值的工具

合成数据不是真实数据的替代品,但值得一试。选择一种方法,评估合成数据的质量,并在沙盒环境中进行 A/B 测试,比较使用不同比例合成数据的工作流程与未使用合成数据的工作流程。你可能会对结果感到惊讶。

您可以在 RPC Labs 的 GitHub 仓库查看所有代码和数据集 ,并在研究与政策中心的“ 投资管理中的合成数据 ”研究报告中更深入地了解 LLM 案例研究。


[1] 数据集可在以下链接下载:https://huggingface.co/datasets/TheFinAI/fiqa-sentiment-classification

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/91326.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2025年9月12日 00:03
下一篇 2025年9月19日 00:32

相关推荐

  • 恩智浦和先锋集团将在新加坡投资 78 亿美元建设芯片晶圆厂,为科技公司对冲中国市场

    恩智浦和先锋集团将在新加坡投资 78 亿美元建设芯片晶圆厂,以防范科技公司对冲中国风险 恩智浦半导体公司 (NXP Semiconductors NV) 正与台湾半导体制造股份有限公司部分持股的一家公司合作,在新加坡建设一座价值 78 亿美元的芯片晶圆厂,此举将推动该岛国的科技雄心。 台积电支持的先锋国际半导体公司和恩智浦半导体公司周三在一份声明中表示,这两…

    2024年6月7日
    22900
  • 谷歌正在接受审判,这对公司和你来说都是利害攸关的事情

    现代科技巨头反垄断运动的第一次大审判就在这里:9月12日,司法部针对谷歌搜索引擎垄断的诉讼开始。有什么危险?哦,没什么——只是互联网的未来。或者也许是美国反垄断法的未来。也许两者都有。 这是自 20 世纪 90 年代末司法部起诉微软以来,首次针对大型科技公司商业行为的反垄断审判,也是联邦和州反垄断执法机构针对主导科技平台发起的一系列反垄断诉讼中的第一起。在接…

    2023年10月8日
    12400
  • 人工智能时代: 你需要知道的关于人工智能的一切

    人工智能似乎出现在现代生活的每个角落,从音乐和媒体到商业和生产力,甚至约会。内容太多,可能很难跟上——所以请继续阅读,了解从最新的重大发展到您需要了解的术语和公司的所有内容,以便在这个快速发展的领域保持最新状态。 首先,让我们确保我们都在同一频道:什么是人工智能? 人工智能,也称为机器学习,是一种基于神经网络的软件系统,这种技术实际上在几十年前就已被开创,但…

    2023年7月13日
    19000
  • 应对金融领域人工智能的风险:数据治理和管理至关重要

    监管机构意识到,投资行业数据治理 (DG) 和数据管理 (DM) 实践薄弱将带来破坏性影响和安全威胁。许多投资公司并未制定全面的 DG 和 DM 框架,以跟上其利用机器学习和人工智能 (AI) 等新技术的雄心勃勃的计划。该行业必须定义数据和 AI 工具的合法和道德用途。监管机构和金融行业需要在国家和国际层面进行多学科对话,以确立法律和道德标准。 迈向数据效率…

    2024年10月22日
    10400
  • 我们应该像1999年那样狂欢吗?

    作者:Northern Trust 的瑞安·博伊尔,2025 年 11 月 12 日 做人就是陷入怀旧的时刻。这种偏见很自然:我们会积极回忆那些获得新体验、建立深厚关系、管理责任较少的时光。当时令人担忧的不确定性并未扰乱我们的记忆。这些记忆忽视了从那时到现在之间物质收益的宏观视角;现在几乎总是比过去更好。 我自己与怀旧的斗争是,我是在1990年代末在美国成长…

    2025年12月16日
    2300
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部