基於神經網路的量化交易策略

作者：由 tobby 發表于文化時間：2020-07-27

1. 概述

這篇文件提出了一個利用深度學習的股票量化交易模型。該模型是一個連續的交易模型，它會在所有交易時刻持續計算下一時刻的目標倉位，我們假定市場是沒有摩擦的，因此總是可以立即實現該目標。目標倉位應該是單位持倉收益和風險的一個函式，而單位持倉的收益和風險被一個深度神經網路用來估算。

注：文中的方法皆為原創，未經同意禁止轉載，引用請註明出處。

2。目標倉位的函式

在無摩擦的金融市場中，一個理性交易者應該僅依據預測的收益和風險去調整倉位。概括地說，如果預期收益為正那麼就持多頭倉位，反之就持空頭倉位。另外，預期收益越高或者風險越低，則目標倉位就越高。

我們用

代表

時刻單位持倉的實際收益，假定對

的預期

$\hat{r}_{t} \sim \mathcal{N}(\hat{\mu}_t, \hat{\sigma}_t^2)$

服從一個高斯分佈，估得的收益風險比記為

$\hat{\beta}_t=\frac{\hat{\mu}_t}{\hat{\sigma}_t}$

。用

$-1\leq \mathbb{P}_t \leq 1$

代表目標倉位，下面的公式給出了一個簡單的倉位控制函式：

$\mathbb{P}_t= \max(-1,\min(1, \frac{\hat{\beta}_t}{\hat\sigma_t}\theta))$

（1）

交易者應該依據自身風險偏好選擇函式中

$\theta$

的值，當然也可以選擇其他完全不同的函式形式。

3。估值神經網路

對收益和風險的估計

$\hat{\mu}_t$

和

$\hat{\sigma}_t$

都是雙頭的估值網路

$\mathbb{Q}$

的輸出，即

$(\hat{\mu}_t, \hat{\sigma}_t) = \mathbb{Q}(\text{seq}\{p_{t$

，其中

$\text{seq}\{p_t\}$

是股票的歷史對數價格序列。

$\mathbb{Q}$

的輸入可以只含有歷史價格資訊，也可以加入其他經過處理的量價特徵。

透過使用極大似然法，得到神經網路

$\mathbb{Q}$

的目標訓練函式為：

$\min \mathcal{L}_Q=\sum_{t}\left[\frac{(r_t-\hat{\mu}_t)^2}{2\hat{\sigma}_t^2} + \ln\hat\sigma_t\right]$

（2）

要想訓練神經網路

$\mathbb{Q}$

，必須提供足夠多

的值作為訓練標籤。合理計算

的方法應該只會在股票減倉、平倉時結算收益，而不應受到浮動盈虧的影響。給定股票價格的序列

$\{p_t\}$

和倉位量序列

$\{\mathbb{P}_t\}$

，記

$\delta_{n}=p_{t+n}-p_t$

，

$\gamma_{n}=\max(0,\min(1, \frac{\mathbb{P}_{t+n}}{\mathbb{P}_{t+n-1}}))$

，那麼一種

$r_t=\Bigg\{(1-\gamma_{1})\cdot\delta_{1} + \gamma_{1}\cdot\Big\{(1-\gamma_{2})\cdot\delta_{2} + \gamma_{2}\cdot\big\{(1-\gamma_{3})\cdot\delta_{3} + \gamma_{3}\cdot\{\dots\dots\}\big\} \Big\}\Bigg\}$

（3）

公式（3）表明，只有減倉（

$\gamma<1$

）或平倉（

$\gamma=0$

）時才按照當前價格結算收益，並且平倉以後的價格變動將不再影響之前的收益。可以證明公式（3）也等價於下面的公式：

$r_t=\gamma_1\cdot r_{t+1} + (p_{t+1}-p_t)$

這是一個遞迴形式的公式，可以用來方便地計算

4。討論

4.1 迴圈回測

從上文可知，倉位

$\mathbb{P}_t$

的計算依靠估值網路

$\mathbb{Q}$

的計算結果，而反過來

$\mathbb{P}_t$

又被用來計算

$\mathbb{Q}$

的訓練標籤

$\{r_t\}$

。傳統的回測方法只能簡單地篩選策略，而本文的方法會把回測資料迴圈用作訓練資料，是一種強化學習方法。

4.2 價格趨勢

文中給出的交易策略沒有涉及對價格趨勢的直接預測。此外，這還是一個連續的交易策略，一般不會給出傳統意義上的進場點和出場點。

4.3 強化學習

文中給出的交易策略與現有強化學習有一些相似點，比如，深度Q學習中也使用了估值網路，策略梯度演算法中也有對不確定度的估測。但是，本文的策略還是有別於其他現有強化學習演算法。

4.4 交易者偏好

本文的兩個公式（1）、（3）都可以根據交易者自己的偏好進行定製，以適應不同的風險偏好、交易頻次、交易費用、交易限制，等等。

標簽：倉位收益公式交易神經網路

上一篇:如果一個投資者看了很多的價值投資的理論，那他對其他不怎麼看價投理論的散戶是否形成了“資訊差”？

下一篇：三十歲的你，如何度過迷茫？點亮未來！？

基於神經網路的量化交易策略

猜你喜歡

華爾街大佬罕見發聲：如果不想窮一輩子，看“十六個字”就夠了

為什麼晶粒尺寸減小會導致XRD衍射峰變寬？

老股民直言看到“殘花敗柳”形態，莊家已偷偷出貨，散戶別愣著

財務總監：你到底會多少Excel函式公式，才整理出這麼全面的彙總

sklearn之神經網路