機(jī)器學(xué)習(xí)在股票猜測范疇的探究與實(shí)踐

發(fā)布時(shí)間：2025-11-07 文章來源：本站瀏覽次數(shù)：570

機(jī)器學(xué)習(xí)在股票預(yù)測領(lǐng)域的應(yīng)用發(fā)展非常迅速，最新的研究在模型架構(gòu)、關(guān)系學(xué)習(xí)以及技術(shù)集成等方面都取得了顯著突破。機(jī)器學(xué)習(xí)在股票猜測范疇，仍存在一些尚未徹底霸占的難題。雖然如此，因?yàn)樵摲懂牆撛诘木薮笫找妫嚓P(guān)研討一直在繼續(xù)推動(dòng)。出資者巴望能安心地將資金投入體現(xiàn)出色的公司，如此一來，跟著出資增多，公司有望快速發(fā)展，出資收益也會(huì)相應(yīng)增加。

回憶過往研討，雖已涌現(xiàn)出諸多方法，但成效并不顯著。因而，本文測驗(yàn)將研討范疇拓寬至GANs范疇，探究其在股票猜測方面的可行性。

kaggle中的JPX市場猜測數(shù)據(jù)集固然優(yōu)質(zhì)，然而其猜測與提交需在kaggle平臺(tái)進(jìn)行。所以，本文選用其一個(gè)子集，并針對(duì)特定測驗(yàn)指標(biāo)打開測驗(yàn)，以此呈現(xiàn)此次研討的真實(shí)成效。

在正式開啟研討前，咱們將為一切模型一致實(shí)施相同的預(yù)處理方法與評(píng)分指標(biāo)。先從預(yù)期功能欠佳的線性回歸基線模型著手，將其設(shè)為小基線。隨后，對(duì)XGBoost模型和CAT boost模型進(jìn)行優(yōu)化，并將這兩個(gè)模型疊加（復(fù)現(xiàn)競賽中排名靠前的模型），力求完結(jié)超越佳模型的體現(xiàn)。在此之后，深化探究GANs解決方案，觀察其能到達(dá)的作用。

數(shù)據(jù)集將被區(qū)分為曩昔的練習(xí)數(shù)據(jù)與近期的測驗(yàn)數(shù)據(jù)。在數(shù)據(jù)提取和特征工程進(jìn)程中，一直保持這一區(qū)分，以根絕數(shù)據(jù)泄露問題。咱們將選用夏普比率，這是一種在人力資源管理與人力出資策略評(píng)分中廣泛使用的指標(biāo)。夏普比率由諾貝爾獎(jiǎng)得主威廉·F·夏普提出，旨在助力出資者明晰出資報(bào)答與危險(xiǎn)的比例。該比率指的是每單位波動(dòng)率或總危險(xiǎn)超出無危險(xiǎn)率的均勻收益。波動(dòng)率用于衡量資產(chǎn)或出資組合的價(jià)格波動(dòng)狀況。夏普比率會(huì)根據(jù)出資者承當(dāng)?shù)某课ｋU(xiǎn)，對(duì)出資組合的過往體現(xiàn)或未來預(yù)期體現(xiàn)進(jìn)行調(diào)整。相較于報(bào)答率較低的相似出資組合或基金，較高的夏普比率無疑更為理想。不過，夏普比率也存在一些局限性，比如假定出資報(bào)答呈正態(tài)散布，在此暫不打開臚陳。

數(shù)據(jù)預(yù)處理與特征工程

在金融技術(shù)分析范疇，技術(shù)指標(biāo)是基于前史價(jià)格、交易量或證券及合同未平倉量的數(shù)學(xué)核算或模式信號(hào)，借助調(diào)和指標(biāo)可以猜測金融市場走勢。關(guān)于數(shù)據(jù)科學(xué)家而言，這便是所謂的特征工程。本項(xiàng)目選取某范疇專家提出的頂級(jí)技術(shù)指標(biāo)作為特征，如7天和21天的移動(dòng)均勻線、指數(shù)移動(dòng)均勻線、對(duì)數(shù)動(dòng)量、布林帶和MACD等。傅里葉變換是處理時(shí)刻序列數(shù)據(jù)的常用手法，它能按捺數(shù)據(jù)中的計(jì)算反常，而且已證明可助力gru（使用于咱們的GANs模型）學(xué)習(xí)更為穩(wěn)健的模式。

咱們的方針猜測值為股票收盤價(jià)。從上述圖表來看，很難直觀判斷曩昔的數(shù)據(jù)能否有用猜測未來數(shù)據(jù)。但當(dāng)運(yùn)用自相關(guān)進(jìn)行計(jì)算分析（自相關(guān)指的是同一變量在兩個(gè)接連時(shí)刻距離之間的相關(guān)程度，用于衡量一個(gè)變量值的滯后版別與其在時(shí)刻序列中的原始版別之間的關(guān)系），選用滯后參數(shù)100時(shí)，得到了較強(qiáng)的正相關(guān)，這意味著咱們的猜測模型有望收獲良好作用:

完結(jié)一切預(yù)處理后，便可以著手練習(xí)不同模型并得出相應(yīng)成果。

線性回歸

咱們的線性回歸模型驗(yàn)證夏普比率為0.44，接近Numerai文章所到達(dá)的方針0.49。關(guān)于一切這些模型，咱們將數(shù)據(jù)區(qū)分為練習(xí)集與測驗(yàn)集，并根據(jù)特定日期股票市場的技術(shù)指標(biāo)，來斷定次日股票市場的收盤價(jià)。

超參數(shù)調(diào)整算法

咱們選用一種定制的二進(jìn)制搜索算法，它可以快速搜索超參數(shù)值的或許空間。結(jié)合手藝模型調(diào)優(yōu)的經(jīng)歷，咱們以為這種算法比選用暴力搜索一切超參數(shù)組合（如典型的網(wǎng)格搜索）能獲得更優(yōu)成果。這使咱們可以對(duì)規(guī)劃加以改善，并在測驗(yàn)中敏捷調(diào)整方向。

XGBoost

關(guān)于XGBoost模型，咱們發(fā)現(xiàn)增加超參數(shù)可使其到達(dá)佳功能。初始XGBoost的夏普得分僅為0.71，而優(yōu)化超參數(shù)后，該模型的夏普得分提升至0.78。

CAT Boost

就CAT Boost模型而言，咱們觀察到其功能優(yōu)于參數(shù)化CAT Boost模型，夏普得分高可達(dá)0.90，而Numerai文章中的數(shù)值為0.87。

堆疊模型

將超參數(shù)化的XGBoost模型與普通的CAT boost模型疊加，可以收獲佳作用。咱們得到的分?jǐn)?shù)為0.946，接近文章中的0.934。該模型的運(yùn)作原理是取兩個(gè)模型猜測值的均勻值。

GANs

1、什么是GAN

生成對(duì)立網(wǎng)絡(luò)，簡稱GANs，是一種運(yùn)用深度學(xué)習(xí)進(jìn)行生成建模的方法。它將生成新數(shù)據(jù)的非監(jiān)督問題轉(zhuǎn)化為監(jiān)督問題，在此監(jiān)督問題中，模型根據(jù)成果的可信度進(jìn)行評(píng)分。GAN系統(tǒng)由鑒別器與生成器兩個(gè)子模塊構(gòu)成。鑒別器在學(xué)習(xí)進(jìn)程中會(huì)接收兩類圖畫，即真實(shí)圖畫與虛偽圖畫，其職責(zé)是學(xué)會(huì)區(qū)分二者，并為生成器提供相關(guān)信息，以生成更為傳神的輸出。

咱們期望鑒別器可以出色履行職責(zé)，但又不能過于完美，因?yàn)槿翳b別器過于強(qiáng)大，生成器無論怎樣學(xué)習(xí)都無法騙過它。為到達(dá)這一方針，咱們必須規(guī)劃一個(gè)架構(gòu)優(yōu)秀的強(qiáng)健網(wǎng)絡(luò)。

2、WGAN - GP的改善

Wasserstein Gan +梯度賞罰，即WGAN - GP，是一種生成對(duì)立網(wǎng)絡(luò)，它借助Wasserstein丟失以及梯度賞罰來完結(jié)Lipschitz接連性。這兩者的結(jié)合旨在克服以往模型的缺陷。

Wasserstein距離（也稱作Earth Mover距離）是給定衡量空間上兩個(gè)概率散布之間的距離衡量，可以理解為將一個(gè)散布轉(zhuǎn)變?yōu)榱硪粋€(gè)散布所需的小工作量。它處處可微，可以使練習(xí)模型到達(dá)佳功能，而且滿足安穩(wěn)，可防止練習(xí)崩潰（若鑒別器飽滿且過于強(qiáng)大，梯度將降至零，導(dǎo)致無法收斂。WGAN在安穩(wěn)GAN練習(xí)方面獲得了一定發(fā)展，但有時(shí)仍或許僅生成低質(zhì)量樣本或無法收斂）。因而，增加梯度賞罰，這種丟失函數(shù)可將梯度限制在一定范圍內(nèi)，防止或許呈現(xiàn)的梯度消失或梯度爆炸問題。

引進(jìn)GP是對(duì)這種剪切方法的代替，它對(duì)輸入的梯度進(jìn)行賞罰，而且可與一切架構(gòu)交融，只需進(jìn)行少量超參數(shù)調(diào)優(yōu)，就能讓練習(xí)成果更加安穩(wěn)。

增加GRU

為進(jìn)一步優(yōu)化模型，咱們期望學(xué)習(xí)相似LSTM的方法，以某種途徑捕捉學(xué)習(xí)進(jìn)程中的時(shí)刻特征。GRU可作為常規(guī)卷積的代替方案，以更為簡練的規(guī)劃完結(jié)LSTM的大部分優(yōu)勢。GRU由一個(gè)重置門和更新門構(gòu)成，可視為LSTM的簡化版別。

WGAN - GP怎么使用在股票猜測

咱們運(yùn)用WGAN - GP對(duì)上述預(yù)處理后的數(shù)據(jù)進(jìn)行練習(xí)，得到以下成果：

1000.00usd =（End Portfolio：5327.83USD，Sharpe：0.819）

通過1000次迭代后，成果看似不錯(cuò)。然而，當(dāng)咱們測驗(yàn)對(duì)一組徹底不知道的未來數(shù)據(jù)進(jìn)行驗(yàn)證時(shí)，卻得到了以下成果：

這是否意味著該模型不可行呢？并非徹底如此，原因或許如下。在回憶其他通常運(yùn)用回歸或lstm的相似研討時(shí)，有幾篇論文將COVID時(shí)期視為數(shù)據(jù)中的反常狀況，因其史無前例的特殊性，他們選用了一種簡略的處理方法，即掃除該反常周期，但這種做法被以為只是在掩蓋問題。因而，我并不計(jì)劃選用這種方法。

實(shí)際上，這里呈現(xiàn)的狀況是，未來數(shù)據(jù)超出了當(dāng)時(shí)模型的猜測范圍，因?yàn)樗隽艘酝姷娜魏螖?shù)據(jù)邊界。若觀察練習(xí)數(shù)據(jù)，會(huì)發(fā)現(xiàn)價(jià)格從未超過40USD。也就是說，咱們并未對(duì)猜測價(jià)格進(jìn)行歸一化處理，所以咱們將數(shù)據(jù)從USD轉(zhuǎn)換為[-1，1]之間的縮放值。

看看這一假定與校對(duì)是否能發(fā)生更好的成果：

顯然，這是一個(gè)糟糕的成果，在此將其作為測驗(yàn)失利的記載。

運(yùn)用window

我從頭審視了核心假定，意識(shí)到練習(xí)方法與測驗(yàn)?zāi)Ｐ偷姆椒ù嬖诓町�。練�?xí)時(shí)的輸入具有特定窗口，而測驗(yàn)時(shí)并未運(yùn)用這一前史窗口。所以，我修改了測驗(yàn)代碼，增加了該窗口，終究得到以下成果：

可以看出，現(xiàn)在的猜測趨勢徹底正確，但猜測粒度顯著較低。這是因?yàn)樵诖_認(rèn)有用策略時(shí)練習(xí)缺乏所致。從500次到5000次迭代，在測驗(yàn)會(huì)集發(fā)生了以下成果:

可以發(fā)現(xiàn)，在恰當(dāng)長的一段時(shí)刻內(nèi)，咱們的模型在徹底不知道的數(shù)據(jù)上體現(xiàn)近乎完美。模型可以在2017 - 07 - 12至2018 - 02 - 08（146天）期間，將1000.00美元轉(zhuǎn)化為1181.15美元，市盈率為1.52。雖然跟著時(shí)刻推移，模型在某些地方會(huì)呈現(xiàn)偏差，但因?yàn)槟Ｐ兔吭律踔撩客矶伎筛鶕?jù)新數(shù)據(jù)和新趨勢進(jìn)行繼續(xù)再練習(xí)，在第二天開業(yè)前就能完結(jié)猜測。

總結(jié)

GANs網(wǎng)絡(luò)不僅在圖畫處理范疇展現(xiàn)出潛力，在金融和股票猜測范疇同樣遠(yuǎn)景可觀。通過更多的調(diào)優(yōu)以及對(duì)猜測進(jìn)行恰當(dāng)格式化處理，這些GANs的成果可與功能優(yōu)秀的回歸器疊加，以完結(jié)更優(yōu)、更具彈性的猜測。此外，還能提取整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)潛在空間，并將其作為回歸模型的特征輸入�？傮w而言，這些實(shí)驗(yàn)成果充滿希望，為該使用的進(jìn)一步復(fù)雜改善奠定了根底。

上一條：阿里巴巴吳泳銘：技能普惠...

下一條：AI大反撲！中際旭創(chuàng)、新...

黄色污污污网站在线观看,青娱乐免费视频成人自拍,韩国在线a免费观看网站,免 费 成人黄 色 大片