GenAI 驱动的合成数据如何重塑投资工作流程

在当今的数据驱动投资环境中,数据的质量、可用性和具体性可以决定一个策略的成功与否。然而,投资专业人士经常面临限制:历史数据集可能无法捕捉新兴风险,替代数据往往不完整或成本高昂,开源模型和数据集则偏向于主要市场和英语内容。

随着企业寻求更灵活和前瞻性的工具,合成数据——特别是从生成 AIGenAI)中衍生出来的——正在成为一种战略资产,提供了一种新的方式来模拟市场情景、训练机器学习模型和回测投资策略。本文探讨了生成 AI 驱动的合成数据如何重塑投资工作流程——从模拟资产相关性到增强情绪模型——以及从业者需要了解的内容,以评估其效用和局限性。

合成数据究竟是什么?生成式人工智能模型又是如何生成这些数据的?为什么它们在投资应用场景中越来越相关?

考虑两个常见的挑战。一位组合经理希望在不同市场环境下优化表现,但受限于历史数据,无法涵盖尚未发生的“假设”情景。同样,一位监测德语新闻中小盘股情绪的数据科学家可能会发现,大多数可用的数据集都是用英语编制的,且主要关注大盘公司,这既限制了覆盖面,也降低了相关性。在两种情况下,合成数据都提供了一个实用的解决方案。


生成式人工智能合成数据的独特之处——以及为何现在很重要

合成数据是指人工生成的数据集,其统计特性能够模拟真实世界数据。虽然这一概念并不新奇——蒙特卡洛模拟和自助法等技术长期以来一直支持金融分析——但变化在于生成方式

GenAI 指的是一类能够生成跨模态(如文本、表格、图像和时间序列)高保真合成数据的深度学习模型。与传统方法不同,GenAI 模型可以直接从数据中学习复杂的现实世界分布,从而消除对生成过程的严格假设。这种能力在投资管理领域开启了强大的应用场景,特别是在真实数据稀缺、复杂、不完整或受限于成本、语言或监管的领域。

不同类型的 GenAI 模型包括变分自编码器(VAEs)、生成对抗网络(GANs)、基于扩散的模型以及大型语言模型(LLMs)。这些模型都是基于神经网络架构构建的,尽管它们在规模和复杂性上有所不同。这些方法已经在行业内展示了增强某些数据驱动工作流程的潜力。例如,VAEs 已被用于创建合成波动率曲面以改善期权交易(Bergeron et al., 2021)。GANs 已被证明在投资组合优化和风险管理方面很有用(Zhu, Mariani and Li, 2020; Cont et al., 2023)。基于扩散的模型在模拟各种市场环境下资产回报相关矩阵方面也证明了其有用性(Kubiak et al., 2024)。而 LLMs 在市场模拟方面也证明了其有用性(Li et al., 2024)。

表1. 合成数据生成的方法。

方法 生成的数据类型 示例应用 生成型?
蒙特卡洛 时间序列 投资组合优化,风险管理
基于 copula 的函数 时间序列,表格 信用风险分析,资产相关性建模
自回归模型 时间序列 波动率预测,资产回报模拟
自助法 时间序列、表格、文本 创建置信区间、压力测试
变分自编码器 表格数据、时间序列、音频、图像 模拟波动率曲面
生成对抗网络 表格、时间序列、音频、图像, 组合优化、风险管理、模型训练
扩散模型 表格,时间序列,音频,图像, 相关建模,组合优化
大型语言模型 文本,表格,图像,音频 情绪分析,市场模拟

评估合成数据质量

合成数据应该具有现实性,并且与真实数据的统计特性相匹配。现有的评估方法可以分为两类:定量和定性。

定性方法涉及可视化真实数据集和合成数据集之间的比较。例如,可以可视化分布、比较变量对之间的散点图、时间序列路径和相关矩阵。例如,一个训练用于模拟资产回报以估计风险价值的 GAN 模型应该成功地再现分布的厚尾。一个在不同市场环境下训练生成合成相关矩阵的扩散模型应该充分捕捉资产间的联动性。

定量方法包括用于比较分布的统计测试,如柯尔莫哥洛夫-斯米尔诺夫检验、人口稳定性指数和詹森-香农散度。这些测试输出统计值,表明两个分布之间的相似性。例如,柯尔莫哥洛夫-斯米尔诺夫检验输出一个 p 值,如果小于 0.05,表明两个分布显著不同。这可以提供一个更具体的测量来衡量两个分布之间的相似性,而不是通过可视化。

另一种方法是“基于合成数据训练,基于真实数据测试”,即模型在合成数据上训练,在真实数据上测试。可以将该模型的性能与在真实数据上进行训练和测试的模型进行比较。如果合成数据成功地复制了真实数据的特性,那么两个模型的性能应该相似。

在行动:利用生成式 AI 合成数据增强金融情绪分析

为了将这一实践应用到实际中,我使用了一个公开的数据集 FiQA-SA[1],对一个小型开源 LLM Qwen3-0.6B 进行了微调,用于金融情绪分析。该数据集包含 822 个训练样本,大多数句子被分类为“正面”或“负面”情绪。

我随后使用 GPT-4o 生成了 800 个合成训练样本。GPT-4o 生成的合成数据集比原始训练数据更加多样化,涵盖了更多的公司和情绪(图 1)。增加训练数据的多样性为 LLM 提供了更多的例子,使其能够从文本内容中识别情绪,这可能在处理未见过的数据时提高模型的性能。

图1. 实际数据(左)、合成数据(右)以及包含实际和合成数据的增强训练数据集(中)的情绪类别分布。

GenAI 驱动的合成数据如何重塑投资工作流程

表2. 实际训练数据集和合成训练数据集的示例句子。

句子 类别 数据
weir 公司股价下跌,导致富时指数从历史最高点回落。 负面 真实
阿斯利康获得 FDA 批准其新的关键肺癌药物。 正面 真实
壳牌和 BG 的股东将于一月底对这笔交易进行投票。 中性 真实
特斯拉的季度报告显示车辆交付量增长了15%。 积极 合成
百事公司召开新闻发布会以应对最近的产品召回事件。 中立 合成
Home Depot 的 CEO 在内部争议中突然辞职。 负面 合成

经过在相同训练程序下对第二个模型进行微调,结合使用真实数据和合成数据后,验证数据集上的 F1 分数提高了近 10 个百分点(表 3),最终测试数据集上的 F1 分数为 82.37%。

表 3. 模型在 FiQA-SA 验证数据集上的性能。

Model 加权 F1 评分
Model 1(真实数据) 75.29%
Model 2(真实数据 + 合成数据) 85.17%

我发现增加合成数据的比例过多会产生负面影响。合成数据过多和过少之间存在一个最佳区间。

不是万能药,但是一项有价值的工具

合成数据不是真实数据的替代品,但值得一试。选择一种方法,评估合成数据的质量,并在沙盒环境中进行 A/B 测试,比较使用不同比例合成数据的工作流程与未使用合成数据的工作流程。你可能会对结果感到惊讶。

您可以在 RPC Labs 的 GitHub 仓库查看所有代码和数据集 ,并在研究与政策中心的“ 投资管理中的合成数据 ”研究报告中更深入地了解 LLM 案例研究。


[1] 数据集可在以下链接下载:https://huggingface.co/datasets/TheFinAI/fiqa-sentiment-classification

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/91326.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2025年9月12日 00:03
下一篇 2025年9月19日 00:32

相关推荐

  • 谷歌正在接受审判,这对公司和你来说都是利害攸关的事情

    现代科技巨头反垄断运动的第一次大审判就在这里:9月12日,司法部针对谷歌搜索引擎垄断的诉讼开始。有什么危险?哦,没什么——只是互联网的未来,或者也许是美国反垄断法的未来。也许两者都有。 这是自 20 世纪 90 年代末司法部起诉微软以来,首次针对大型科技公司商业行为的反垄断审判,也是联邦和州反垄断执法机构针对主导科技平台发起的一系列反垄断诉讼中的第一起。在接…

    2023年11月5日
    23000
  • 广告行业正在全力投入人工智能技术

    “如果你要为这个戛纳电影节打造品牌,那就是人工智能戛纳电影节,”Meta 广告主管尼古拉·门德尔松 (Nicola Mendelsohn) 上周告诉我。我们坐在法国里维埃拉的一间玻璃墙小屋里,距离波光粼粼的蓝色地中海仅几步之遥。 她所指的戛纳电影节可能不是您听说过的电影节,而是戛纳国际创意节,这是一个同样时髦的节日,庆祝广告而不是电影。 每年六月,成千上万的…

    2023年7月7日
    20200
  • 数字化固定收益演变的思考

    作者: Andrew Chin, Jeff Skoglund 数据科学浪潮已经到来,债券管理者必须调整传统的投资流程,以利用新技术并扩大人才。 随着固定收益投资世界继续从很大程度上模拟的过去转向数字化的未来,投资经理必须考虑如何在整个企业中部署数据科学和人工智能不断增长的力量。有效地整合新兴技术有可能推动更好、更快的洞察和决策,同时充分利用人才。我们分享了我…

    2023年11月17日
    17200
  • OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

    当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时,有一点明显缺失:与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。 人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施(如…

    2023年8月5日
    24200
  • 为什么马克·扎克伯格让 Meta 放弃其最先进的人工智能模型

    上周,Meta 在人工智能领域做出了改变游戏规则的举动。 当谷歌和 OpenAI 等其他领先的人工智能公司严密保守自己的秘密之时,Meta决定免费赠送为其创新的新型人工智能大语言模型Llama 2提供支持的代码。这意味着其他公司现在可以使用Meta 的 Llama 2 模型,一些技术专家称其功能与 ChatGPT 相当,可以构建自己的定制聊天机器人。 Lla…

    2023年7月31日
    25600
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部