GenAI 驱动的合成数据如何重塑投资工作流程

在当今的数据驱动投资环境中,数据的质量、可用性和具体性可以决定一个策略的成功与否。然而,投资专业人士经常面临限制:历史数据集可能无法捕捉新兴风险,替代数据往往不完整或成本高昂,开源模型和数据集则偏向于主要市场和英语内容。

随着企业寻求更灵活和前瞻性的工具,合成数据——特别是从生成 AIGenAI)中衍生出来的——正在成为一种战略资产,提供了一种新的方式来模拟市场情景、训练机器学习模型和回测投资策略。本文探讨了生成 AI 驱动的合成数据如何重塑投资工作流程——从模拟资产相关性到增强情绪模型——以及从业者需要了解的内容,以评估其效用和局限性。

合成数据究竟是什么?生成式人工智能模型又是如何生成这些数据的?为什么它们在投资应用场景中越来越相关?

考虑两个常见的挑战。一位组合经理希望在不同市场环境下优化表现,但受限于历史数据,无法涵盖尚未发生的“假设”情景。同样,一位监测德语新闻中小盘股情绪的数据科学家可能会发现,大多数可用的数据集都是用英语编制的,且主要关注大盘公司,这既限制了覆盖面,也降低了相关性。在两种情况下,合成数据都提供了一个实用的解决方案。


生成式人工智能合成数据的独特之处——以及为何现在很重要

合成数据是指人工生成的数据集,其统计特性能够模拟真实世界数据。虽然这一概念并不新奇——蒙特卡洛模拟和自助法等技术长期以来一直支持金融分析——但变化在于生成方式

GenAI 指的是一类能够生成跨模态(如文本、表格、图像和时间序列)高保真合成数据的深度学习模型。与传统方法不同,GenAI 模型可以直接从数据中学习复杂的现实世界分布,从而消除对生成过程的严格假设。这种能力在投资管理领域开启了强大的应用场景,特别是在真实数据稀缺、复杂、不完整或受限于成本、语言或监管的领域。

不同类型的 GenAI 模型包括变分自编码器(VAEs)、生成对抗网络(GANs)、基于扩散的模型以及大型语言模型(LLMs)。这些模型都是基于神经网络架构构建的,尽管它们在规模和复杂性上有所不同。这些方法已经在行业内展示了增强某些数据驱动工作流程的潜力。例如,VAEs 已被用于创建合成波动率曲面以改善期权交易(Bergeron et al., 2021)。GANs 已被证明在投资组合优化和风险管理方面很有用(Zhu, Mariani and Li, 2020; Cont et al., 2023)。基于扩散的模型在模拟各种市场环境下资产回报相关矩阵方面也证明了其有用性(Kubiak et al., 2024)。而 LLMs 在市场模拟方面也证明了其有用性(Li et al., 2024)。

表1. 合成数据生成的方法。

方法 生成的数据类型 示例应用 生成型?
蒙特卡洛 时间序列 投资组合优化,风险管理
基于 copula 的函数 时间序列,表格 信用风险分析,资产相关性建模
自回归模型 时间序列 波动率预测,资产回报模拟
自助法 时间序列、表格、文本 创建置信区间、压力测试
变分自编码器 表格数据、时间序列、音频、图像 模拟波动率曲面
生成对抗网络 表格、时间序列、音频、图像, 组合优化、风险管理、模型训练
扩散模型 表格,时间序列,音频,图像, 相关建模,组合优化
大型语言模型 文本,表格,图像,音频 情绪分析,市场模拟

评估合成数据质量

合成数据应该具有现实性,并且与真实数据的统计特性相匹配。现有的评估方法可以分为两类:定量和定性。

定性方法涉及可视化真实数据集和合成数据集之间的比较。例如,可以可视化分布、比较变量对之间的散点图、时间序列路径和相关矩阵。例如,一个训练用于模拟资产回报以估计风险价值的 GAN 模型应该成功地再现分布的厚尾。一个在不同市场环境下训练生成合成相关矩阵的扩散模型应该充分捕捉资产间的联动性。

定量方法包括用于比较分布的统计测试,如柯尔莫哥洛夫-斯米尔诺夫检验、人口稳定性指数和詹森-香农散度。这些测试输出统计值,表明两个分布之间的相似性。例如,柯尔莫哥洛夫-斯米尔诺夫检验输出一个 p 值,如果小于 0.05,表明两个分布显著不同。这可以提供一个更具体的测量来衡量两个分布之间的相似性,而不是通过可视化。

另一种方法是“基于合成数据训练,基于真实数据测试”,即模型在合成数据上训练,在真实数据上测试。可以将该模型的性能与在真实数据上进行训练和测试的模型进行比较。如果合成数据成功地复制了真实数据的特性,那么两个模型的性能应该相似。

在行动:利用生成式 AI 合成数据增强金融情绪分析

为了将这一实践应用到实际中,我使用了一个公开的数据集 FiQA-SA[1],对一个小型开源 LLM Qwen3-0.6B 进行了微调,用于金融情绪分析。该数据集包含 822 个训练样本,大多数句子被分类为“正面”或“负面”情绪。

我随后使用 GPT-4o 生成了 800 个合成训练样本。GPT-4o 生成的合成数据集比原始训练数据更加多样化,涵盖了更多的公司和情绪(图 1)。增加训练数据的多样性为 LLM 提供了更多的例子,使其能够从文本内容中识别情绪,这可能在处理未见过的数据时提高模型的性能。

图1. 实际数据(左)、合成数据(右)以及包含实际和合成数据的增强训练数据集(中)的情绪类别分布。

GenAI 驱动的合成数据如何重塑投资工作流程

表2. 实际训练数据集和合成训练数据集的示例句子。

句子 类别 数据
weir 公司股价下跌,导致富时指数从历史最高点回落。 负面 真实
阿斯利康获得 FDA 批准其新的关键肺癌药物。 正面 真实
壳牌和 BG 的股东将于一月底对这笔交易进行投票。 中性 真实
特斯拉的季度报告显示车辆交付量增长了15%。 积极 合成
百事公司召开新闻发布会以应对最近的产品召回事件。 中立 合成
Home Depot 的 CEO 在内部争议中突然辞职。 负面 合成

经过在相同训练程序下对第二个模型进行微调,结合使用真实数据和合成数据后,验证数据集上的 F1 分数提高了近 10 个百分点(表 3),最终测试数据集上的 F1 分数为 82.37%。

表 3. 模型在 FiQA-SA 验证数据集上的性能。

Model 加权 F1 评分
Model 1(真实数据) 75.29%
Model 2(真实数据 + 合成数据) 85.17%

我发现增加合成数据的比例过多会产生负面影响。合成数据过多和过少之间存在一个最佳区间。

不是万能药,但是一项有价值的工具

合成数据不是真实数据的替代品,但值得一试。选择一种方法,评估合成数据的质量,并在沙盒环境中进行 A/B 测试,比较使用不同比例合成数据的工作流程与未使用合成数据的工作流程。你可能会对结果感到惊讶。

您可以在 RPC Labs 的 GitHub 仓库查看所有代码和数据集 ,并在研究与政策中心的“ 投资管理中的合成数据 ”研究报告中更深入地了解 LLM 案例研究。


[1] 数据集可在以下链接下载:https://huggingface.co/datasets/TheFinAI/fiqa-sentiment-classification

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/91326.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2025年9月12日 00:03
下一篇 2025年9月19日 00:32

相关推荐

  • 关于人工智能的小说和电影探讨了爱的本质

    2013 年,当斯派克·琼斯 (Spike Jonze) 的《她》(Her)上映时,我主要认为它是一个寓言。它的背景设定在一个糖果色的反乌托邦未来,人们在地铁上对着无线耳机低声说话,依靠人工智能引擎来保持秩序并控制家里的灯光,而通讯已经严重萎缩,以至于人们雇佣专业人员来帮助他们。写私人信件。他们的技术让他们的物质生活变得更好,但他们似乎也变得原子化和孤独,难…

    2023年9月21日
    14700
  • 什么是 TikTok Shop?为什么它会破坏我的 For You 页面?

    TikTok 的 For You 页面旁边就是 TikTok Shop,这是该公司试图利用TikTok 使产品火爆的能力来赚钱的新的、不可避免的演变。 周二,当我在商店页面正式向所有美国用户推出后,我打开了商店页面,看到了两个不同品牌的流行紫色牙膏的列表(吸引力是双重的:这些品牌声称牙膏可以暂时纠正牙渍,并用它来刷牙)深紫色粘液可以产生视觉上有趣的内容)。有…

    2023年9月21日
    23800
  • 人工智能能有意识吗?这取决于你是否认为有感觉的思维可以是非生物的

    科幻小说作家特里·比森 1991 年的短篇小说《他们是肉做的》改编成电影,开头是两个沮丧的外星人。他们伪装成人类坐在路边的小吃摊上,嘴里叼着香烟,努力观察周围的生物:人类似乎完全是由肉做成的。 他们被肉本身,无需机器的帮助,就能产生思维的想法惊呆了。“会思考的肉!你是在让我相信有会思考的肉!”一个外星人嘲笑道。“是的,”另一个回答道,“会思考的肉!有意识的肉…

    2024年7月15日
    9000
  • 革命将数字化:人工智能和比特币如何改变我们的世界

    作者:Frank Holmes,2024 年 4 月 13 日 人工智能 (AI) 和比特币是巴黎区块链周的热门话题,我有幸向热情的观众发表演讲。这场区块链和数字资产活动在举世闻名的卢浮宫博物馆举行,吸引了近 10,000 人参加,比去年增加了 25%,令人印象深刻,因为比特币交易价格接近历史最高水平,人工智能占据了头条新闻。 为了让您了解人工智能在公众意识…

    2024年5月13日
    11300
  • 人工智能将如何重塑国际贸易规则

    作者:泰勒·考恩 (Tyler Cowen) 在国际贸易和投资方面,人工智能将创造一些明显的赢家和输家。二阶效应可能更有趣。 要理解这些,需要从两个前提开始:首先,人工智能服务会消耗大量能源,但并非所有能源都是绿色的。其次,许多国家将监管人工智能的使用或人工智能衍生产品和服务的实施,例如新药物或新教育技术的创造。 让我们依次考虑每个因素。 向 ChatGPT…

    2023年10月18日
    12400
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部