深度Q学习交易ETF策略

使用深度Q学习算法交易ETF

摘要

本文报告了使用双深度Q学习(DDQN)进行交易所交易基金(ETFs)交易的方法。与买入并持有策略相比,提出的方法在下跌市场中具有更高的收益,在盘整市场中收益相当。买入并持有策略在上升市场中具有一定优势。

I. 引言

如今,许多人正在谈论甚至梦想着“财务独立,提早退休”(FIRE)。实现FIRE状态的一个重要方式是将资金投资于股票市场。随着低佣金在线股票经纪人的普及,操作经纪账户变得比以往更加容易。几十年前,个人投资者想要持有一篮子股票以实现分散投资并不容易。然而,交易所交易基金(ETFs)使得分散投资变得更加简单,因为ETFs代表了一篮子股票(按跟踪指数加权)。凭借管理成本低的优势,目前所有ETFs的总资产已超过一万亿美元。

股票(或交易所交易基金)的价格随时间变化。一些投资者(投机者)试图通过基本面分析和/或技术分析来预测其价格。在本文中,我们希望了解是否可以训练一个代理,使其交易交易所交易基金的收益高于买入并持有策略。

强化学习(RL)是机器学习的主要领域之一,并已成功应用于各种问题。强化学习的一个独特特点是,智能体可以根据环境提供的奖励,完全自主地学习如何出色地完成特定任务。在强化学习算法中,深度Q网络(DQN)已被证明能够将视频游戏的水平提升至人类(专家)级别 [1]。因此,本文将DQN算法的一种变体——双深度Q学习(DDQN)[2],应用于交易所交易基金交易。

II. ETF与买入并持有

交易所交易基金(ETF)顾名思义是一种基金。因此,与基金一样,ETF本质上由一篮子股票作为支撑。通过持有交易所交易基金,投资者可以轻松实现投资组合的分散投资。然而,与典型的开放式基金不同,交易所交易基金可以在股票市场的正常交易时间内进行交易。因此,其交易比开放式基金更加便捷。

ETF始于指数投资的发展。“指数投资”是指根据给定的“指数”(例如标准普尔500指数)将股票在投资组合中按比例进行配置的一种被动方式。随着这种被动投资中,一只基金可以具有较低的投资组合换手率和较低的管理费。从长期来看,低成本基金为长期投资者带来更高的回报。因此,指数ETF的预期收益应接近其所跟踪的基准指数所能提供的收益。

股票的价格随时间而变化。一些研究者相信有效市场假说,认为通过技术分析或基本面分析无法获得风险调整后的超额收益。因此,一种合理且万无一失的投资策略是“买入并持有”,即投资者买入股票后长期持有,而不受市场波动的影响。从长期来看,这种策略往往优于市场择时策略。因此,本文将此策略作为基准。

III. 提出的深度Q网络

示意图0

如图1所示,所提出的深度Q网络包含四个卷积层和三个全连接层。该网络有两种类型的输入:第一种与交易信息相关,第二种为控制信号。第一类数据包括开盘价、最高价、最低价、收盘价、调整后收盘价和成交量,提供当前日前连续五个交易日的数据作为输入。每项类别数据在输入网络前均在0到1之间归一化。控制信号包括现金、持仓、可买入(布尔值)和可卖出(布尔值)。现金和持仓也分别进行了归一化处理。可买入和可卖出信号分别表示允许执行“买入”和“卖出”操作。

该网络在当天有三种交易决策:全买、全卖和持有。尽管我们向网络提供了可买入和可卖出信号,但网络仍可能发出不允许的动作,例如在没有现金的情况下买入股票。为了解决这一问题,我们采用了无效动作[3]的概念,并相应地改进了双深度Q网络算法。

在模拟中,我们每五天交易一次交易所交易基金。初始现金金额为10(经过归一化处理),初始ETF单位为0,总训练步数为4,000,000。每100步将评估网络的权重复制到目标网络。经验回放的大小为100,000,批量大小为32。输出层之外所有节点的激活函数为修正线性单元,而输出层节点使用线性函数。优化器为均方根传播,损失函数为均方误差。奖励根据投资回报率计算。具体而言,奖励计算如下:

$$
r = \log_{10}\left(\frac{asset_{current}}{asset_{last}}\right) \times Factor_{reward}
$$

其中 $ asset_{last} $ 是交易前的资产价值,$ asset_{current} $ 是交易后的资产价值,$ Factor_{reward} $ 是用于缩放奖励的常数。资产价值计算如下:

$$
asset = cash + position \times price
$$

IV. 实验与结果

A. 实验设置

实验数据集包含38只交易所交易基金(ETFs)和交易所交易票据(ETNs),每只基金包含1750个交易日(即7年)的价格和成交量数据。在实验中,我们随机选取17只ETF用于训练,其余17只为未训练的。由于我们关注RL代理在各类市场趋势(即上升趋势、下降趋势和横盘趋势)下的性能,因此将1750天进一步划分为7个时间段,每个时间段覆盖一年的数据。我们从这7个时间段中选取符合指定市场趋势的一个时间段用于测试,然后从剩余的时间段中随机选取四个时间段用于训练网络。所有实验均基于TensorFlow和Keras环境进行。

B. 实验结果

在最终实验之前,我们进行了多次试错以找到网络中的次优超参数。我们得到了一些结果:

  • $ Factor_{reward} $ 的值对性能影响很小。然而,100 比 10 或 1,000 更好。
  • 添加dropout层并不能提高性能。
  • 经验回放在当前问题中至关重要,尤其是为了实验的可重复性。100 k的大小优于10 k或1 M。
  • 在减少性能波动方面,使用DDQN相比深度Q网络具有轻微优势。
  • 将控制信号作为输入的一部分是有效的。

在初步试验之后,我们进行了实验,所有三种市场类型的结果如表I到III所示。在表格中,测试(T)列表示所有训练交易所交易基金在测试年份的平均投资回报率,而测试(U)列表示所有未训练交易所交易基金在测试年份的投资回报率。“随机”方法是指随机选择操作(买入、卖出或持有),而不使用任何策略。

表I 上升市场中的平均投资回报率

方法 训练 测试 (T) 测试 (U)
买入并持有 2.66% 12.05% 13.32%
随机 1.52% 4.98% 5.86%
DDQN 32.77% 3.61% 7.79%

表二 下跌市场中的平均投资回报率

方法 训练 测试 (T) 测试 (U)
买入并持有 4.64% -11.84% -12.16%
随机 1.83% -6.92% -6.56%
DDQN 44.40% -4.19% -4.12%

表III 横盘市场中的平均投资回报率

方法 训练 测试 (T) 测试 (U)
买入并持有 2.45% 4.68% 5.84%
随机 1.08% 2.64% 2.76%
DDQN 37.71% 5.33% 5.72%

V. 结论

本文研究了强化学习在交易ETF中的应用。实验结果表明,训练良好的RL代理可以优于“买入并持有”策略。在横盘趋势市场中,两者性能相当。在上升市场中,“买入并持有”策略相对于提出的方法具有一定优势。总体而言,提出的方法可作为进一步研究的起点。

内容概要:本文围绕可变桨叶四旋翼无人机的规范控制与点对点运动模拟展开,重点研究优化推力分配策略在翻转动作中的应用与性能比较。通过Matlab代码实现,构建了四旋翼动力学模型,设计了多种控制算法以实现精确的姿态调整与轨迹跟踪。研究对比了不同推力分配方案在执行高机动性翻转动作时的稳定性、能耗效率与响应速度,旨在提升无人机在复杂飞行任务中的动态性能与控制精度。该仿真研究为无人机飞控系统的设计与优化提供了理论依据和技术支持。; 适合人群:具备一定自动控制理论基础和Matlab编程能力,从事无人机控制、飞行器动力学或机器人系统研究的科研人员及研究生。; 使用场景及目标:① 实现四旋翼无人机在三维空间中的精确点对点运动控制;② 对比分析不同推力分配策略在执行翻转等高难度动作时的控制效果与能耗表现,优化飞行性能;③ 为无人机自主飞行、特技飞行及复杂环境下的机动控制提供算法验证平台。; 阅读建议:此资源以Matlab仿真为核心,建议读者结合相关控制理论知识,深入理解代码实现细节,重点关注动力学建模、控制律设计与推力分配模块。在学习过程中,应动手调试参数,复现文中翻转动作的仿真结果,尝试拓展至其他复杂飞行任务,以加深对无人机控制机理的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值