时间序列风格迁移研究

时间序列风格迁移研究

2025/07/31·StepFun can make mistakes, check important info.

https://arxiv.org/pdf/2209.11306 翻译introduction部分

Reason

附件解析

思考过程

Hmm, the user is asking me to translate the introduction section of a specific academic paper available at the given ArXiv link. From the context provided earlier, I see this is about "StyleTime: Style Transfer for Synthetic Time Series Generation" - a research paper on applying neural style transfer concepts to time series data.

First, I need to locate the introduction section within the paper. The user specifically wants the introduction, which typically starts after the abstract and before the main body of the paper. Looking at the provided full text, the introduction would begin after the abstract and ACM reference format section.

I notice the user provided the full paper text in the context, so I can extract the introduction directly from there. The introduction starts with "Synthetic generation of labeled images..." and continues through to the section about multi-agent simulation before transitioning to the paper's proposed approach.

For the translation, I need to:

Maintain the academic tone and technical precision
Accurately translate financial and machine learning terminology
Preserve the paper's structure with proper paragraph breaks
Handle equations and references appropriately (though there are few in the introduction)

The most challenging part will be terms like "neural style transfer" and concepts like "Gram matrix" that require precise technical translation. I'll also pay special attention to the financial context mentioned (stock prices, market shocks) to ensure domain accuracy.

The user seems to be working with academic materials, possibly a researcher or student in machine learning/finance. They likely need this for understanding or presenting the paper's motivation in their work. I'll make sure the translation flows naturally in Chinese while preserving all technical nuances.

以下是 StyleTime: Style Transfer for Synthetic Time Series Generation 论文 Introduction 部分的完整中文翻译：

引言（Introduction）

合成标记图像的生成已成功用于提高机器学习图像检测算法的泛化能力，进而提升其性能。然而，利用合成时间序列数据来增强机器学习预测算法的泛化能力，相关研究却十分有限。在金融服务领域，例如，人们希望用合成罕见事件的数据来增强历史股票价格时间序列，从而使价格预测模型在因经济事件、全球疫情、闪电崩盘等引发的意外市场冲击期间能够更好地泛化到未见过的场景。普遍预期，若合成时间序列在统计上与真实样本外数据相似（如“训练用合成数据，测试用真实数据”（TSTR）框架[8]所述），则在此类增强数据上训练的模型将在实践中表现良好。此外，合成时间序列数据集的统计真实性通常是金融等领域可解释性的要求。

多智能体仿真提供了一种自底向上生成合成时间序列的方法。在多智能体市场仿真中，所得时间序列源于大量市场参与智能体的交互（例如[4]）。由于在智能体层面改变市场配置具有灵活性，多智能体仿真非常适合建模反事实场景；然而，使其精确反映市场真实属性却异常困难[22]。

本文提出使用神经风格迁移（NST） 来提升合成时间序列的统计真实性，并利用其对反事实场景建模以进行数据增强。NST 最初由[12]提出，用于将艺术“风格”融入照片，并迅速在成像社区流行。通过包含多层特征相关性，人们可以获得输入图像的平稳多尺度表示（即Gram矩阵），它捕捉纹理信息而非全局布局——这被称为风格表示。尽管计算机视觉社区对此投入了大量研究，但时间序列领域的 NST 相关学术工作却很少。在[20]中，NST 被用于为地震冲击模型引入真实噪声；在[19]中，去噪自编码器与 NST 结合被用于生成逼真日股价时间序列。生成的序列展现出与历史数据相似的统计特性；此外，生成路径的可视化检查表明其包含了历史资产时间序列特有的技术模式。上述两种方法均以与[12]中图像相同的方式提取时间序列风格表示，这可能无法准确刻画真实时间序列的风格概念，因为它们仅包含特征间相关性的信息。

相关研究还包括音频和语音合成的 NST。此类 NST 方法利用各种技术提取风格表示，包括频域表示（例如应用于 2D 频谱图的 VGG-19 或宽浅随机网络[21]）、时域表示（例如应用于原始波形的 SoundNet 编码器[3]或 WaveNet 解码器[17]），以及听觉感知的领域专家知识[13]。遗憾的是，由于这些风格表示针对音频数据设计，无法直接应用于金融等其他领域。

主要贡献：我们开发了一个新颖的时间序列风格迁移框架，旨在构建真实且有用的合成数据集。为此，我们提出了一种风格迁移方法，它结合一条时间序列的底层趋势（内容）与另一条时间序列的分布特性（风格）。这些分布特性（我们称之为风格特征） 与时间序列的真实性属性直接相关，且可通过基于样本的近似计算，无需训练类似卷积神经网络（CNN）的专用特征提取技术。趋势通过时域分解（如移动平均滤波）提取。为验证方法有效性，我们凭经验证明：在三个不同数据集上，我们的时间序列风格迁移方法在保真度、预测效用和真实性方面均能达到与最先进方法的竞争力。

相关工作：真实时间序列生成此前已在文献中被研究，主要通过生成对抗网络（GAN）实现。在 TimeGAN 架构[27]中，通过联合优化监督损失与对抗损失来学习嵌入空间，从而生成真实的时序模式。QuantGAN 由生成器与判别器函数组成（均通过时序卷积网络实现），可合成诸如金融市场时间序列中特有的波动聚集等长程依赖。TimeVAE [6] 作为变分自编码器替代方案，被提出用于生成时间序列。在[1]中，提出了一种基于傅里叶域流的生成模型。傅里叶流能以远低于训练时间的计算成本，在生成技术方面达到最先进性能。GAN、VAE 和流模型通常用于学习训练数据的潜在分布，却可能无法提供数据增强所需的分布外场景。

数据增强在计算机视觉任务中已成熟应用（得益于简单的保标签几何图像变换），但时间序列领域尚未广泛采用（早期相关工作见[15]）。对于金融价格时间序列，简单增强技术（如加噪或时间弯曲）被证明能提升次日价格预测模型的质量[9]；然而，此类变换无需生成真实合成时间序列。在计算机视觉文献中，NST 被提出用于解耦内容与风格，并生成新的内容-风格组合数据集——借此 NST 作为增强技术提升了机器学习图像分类算法性能[28]。在本文中，我们探究 NST 在真实时间序列生成及后续数据增强中的应用。

关键术语说明

神经风格迁移（NST）：核心方法，将艺术风格迁移到图像的技术，此处拓展至时间序列。
Gram矩阵：图像风格的核心表示（特征相关性），但论文指出其不直接适用于时间序列。
风格特征（Stylized Features）：论文核心创新，包含自相关性、波动率、功率谱密度等与时间序列真实性直接相关的统计特性。
TSTR框架：评估合成数据真实性的标准方法（训练用合成数据，测试用真实数据）。
多智能体仿真：生成合成时间序列的现有方法，但存在校准困难的问题。

翻译重点保留了论文的学术严谨性，同时通过括号补充和术语说明确保技术概念清晰。