深度Q学习交易ETF策略

原创于 2025-10-10 09:29:00 发布 · 1.2k 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#深度Q学习 #ETF交易 #强化学习 #买入并持有 #投资策略

使用深度Q学习算法交易ETF

摘要

本文报告了使用双深度Q学习（DDQN）进行交易所交易基金（ETFs）交易的方法。与买入并持有策略相比，提出的方法在下跌市场中具有更高的收益，在盘整市场中收益相当。买入并持有策略在上升市场中具有一定优势。

I. 引言

如今，许多人正在谈论甚至梦想着“财务独立，提早退休”（FIRE）。实现FIRE状态的一个重要方式是将资金投资于股票市场。随着低佣金在线股票经纪人的普及，操作经纪账户变得比以往更加容易。几十年前，个人投资者想要持有一篮子股票以实现分散投资并不容易。然而，交易所交易基金（ETFs）使得分散投资变得更加简单，因为ETFs代表了一篮子股票（按跟踪指数加权）。凭借管理成本低的优势，目前所有ETFs的总资产已超过一万亿美元。

股票（或交易所交易基金）的价格随时间变化。一些投资者（投机者）试图通过基本面分析和/或技术分析来预测其价格。在本文中，我们希望了解是否可以训练一个代理，使其交易交易所交易基金的收益高于买入并持有策略。

强化学习（RL）是机器学习的主要领域之一，并已成功应用于各种问题。强化学习的一个独特特点是，智能体可以根据环境提供的奖励，完全自主地学习如何出色地完成特定任务。在强化学习算法中，深度Q网络（DQN）已被证明能够将视频游戏的水平提升至人类（专家）级别 [1]。因此，本文将DQN算法的一种变体——双深度Q学习（DDQN）[2]，应用于交易所交易基金交易。

II. ETF与买入并持有

交易所交易基金（ETF）顾名思义是一种基金。因此，与基金一样，ETF本质上由一篮子股票作为支撑。通过持有交易所交易基金，投资者可以轻松实现投资组合的分散投资。然而，与典型的开放式基金不同，交易所交易基金可以在股票市场的正常交易时间内进行交易。因此，其交易比开放式基金更加便捷。

ETF始于指数投资的发展。“指数投资”是指根据给定的“指数”（例如标准普尔500指数）将股票在投资组合中按比例进行配置的一种被动方式。随着这种被动投资中，一只基金可以具有较低的投资组合换手率和较低的管理费。从长期来看，低成本基金为长期投资者带来更高的回报。因此，指数ETF的预期收益应接近其所跟踪的基准指数所能提供的收益。

股票的价格随时间而变化。一些研究者相信有效市场假说，认为通过技术分析或基本面分析无法获得风险调整后的超额收益。因此，一种合理且万无一失的投资策略是“买入并持有”，即投资者买入股票后长期持有，而不受市场波动的影响。从长期来看，这种策略往往优于市场择时策略。因此，本文将此策略作为基准。

III. 提出的深度Q网络

示意图0

如图1所示，所提出的深度Q网络包含四个卷积层和三个全连接层。该网络有两种类型的输入：第一种与交易信息相关，第二种为控制信号。第一类数据包括开盘价、最高价、最低价、收盘价、调整后收盘价和成交量，提供当前日前连续五个交易日的数据作为输入。每项类别数据在输入网络前均在0到1之间归一化。控制信号包括现金、持仓、可买入（布尔值）和可卖出（布尔值）。现金和持仓也分别进行了归一化处理。可买入和可卖出信号分别表示允许执行“买入”和“卖出”操作。

该网络在当天有三种交易决策：全买、全卖和持有。尽管我们向网络提供了可买入和可卖出信号，但网络仍可能发出不允许的动作，例如在没有现金的情况下买入股票。为了解决这一问题，我们采用了无效动作[3]的概念，并相应地改进了双深度Q网络算法。

在模拟中，我们每五天交易一次交易所交易基金。初始现金金额为10（经过归一化处理），初始ETF单位为0，总训练步数为4,000,000。每100步将评估网络的权重复制到目标网络。经验回放的大小为100,000，批量大小为32。输出层之外所有节点的激活函数为修正线性单元，而输出层节点使用线性函数。优化器为均方根传播，损失函数为均方误差。奖励根据投资回报率计算。具体而言，奖励计算如下：

$$
r = \log_{10}\left(\frac{asset_{current}}{asset_{last}}\right) \times Factor_{reward}
$$

其中 $ asset_{last} $ 是交易前的资产价值，$ asset_{current} $ 是交易后的资产价值，$ Factor_{reward} $ 是用于缩放奖励的常数。资产价值计算如下：

$$
asset = cash + position \times price
$$

IV. 实验与结果

A. 实验设置

实验数据集包含38只交易所交易基金（ETFs）和交易所交易票据（ETNs），每只基金包含1750个交易日（即7年）的价格和成交量数据。在实验中，我们随机选取17只ETF用于训练，其余17只为未训练的。由于我们关注RL代理在各类市场趋势（即上升趋势、下降趋势和横盘趋势）下的性能，因此将1750天进一步划分为7个时间段，每个时间段覆盖一年的数据。我们从这7个时间段中选取符合指定市场趋势的一个时间段用于测试，然后从剩余的时间段中随机选取四个时间段用于训练网络。所有实验均基于TensorFlow和Keras环境进行。