
咨詢服務(wù)熱線:400-099-8848
機器學習在股票猜測范疇的探究與實踐 |
| 發(fā)布時間:2025-11-07 文章來源:本站 瀏覽次數(shù):20 |
機器學習在股票預(yù)測領(lǐng)域的應(yīng)用發(fā)展非常迅速,最新的研究在模型架構(gòu)、關(guān)系學習以及技術(shù)集成等方面都取得了顯著突破。機器學習在股票猜測范疇,仍存在一些尚未徹底霸占的難題。雖然如此,因為該范疇潛在的巨大收益,相關(guān)研討一直在繼續(xù)推動。出資者巴望能安心地將資金投入體現(xiàn)出色的公司,如此一來,跟著出資增多,公司有望快速發(fā)展,出資收益也會相應(yīng)增加。 ![]() 回憶過往研討,雖已涌現(xiàn)出諸多方法,但成效并不顯著。因而,本文測驗將研討范疇拓寬至GANs范疇,探究其在股票猜測方面的可行性。 kaggle中的JPX市場猜測數(shù)據(jù)集固然優(yōu)質(zhì),然而其猜測與提交需在kaggle平臺進行。所以,本文選用其一個子集,并針對特定測驗指標打開測驗,以此呈現(xiàn)此次研討的真實成效。 在正式開啟研討前,咱們將為一切模型一致實施相同的預(yù)處理方法與評分指標。先從預(yù)期功能欠佳的線性回歸基線模型著手,將其設(shè)為小基線。隨后,對XGBoost模型和CAT boost模型進行優(yōu)化,并將這兩個模型疊加(復(fù)現(xiàn)競賽中排名靠前的模型),力求完結(jié)超越佳模型的體現(xiàn)。在此之后,深化探究GANs解決方案,觀察其能到達的作用。 數(shù)據(jù)集將被區(qū)分為曩昔的練習數(shù)據(jù)與近期的測驗數(shù)據(jù)。在數(shù)據(jù)提取和特征工程進程中,一直保持這一區(qū)分,以根絕數(shù)據(jù)泄露問題。咱們將選用夏普比率,這是一種在人力資源管理與人力出資策略評分中廣泛使用的指標。夏普比率由諾貝爾獎得主威廉·F·夏普提出,旨在助力出資者明晰出資報答與危險的比例。該比率指的是每單位波動率或總危險超出無危險率的均勻收益。波動率用于衡量資產(chǎn)或出資組合的價格波動狀況。夏普比率會根據(jù)出資者承當?shù)某课kU,對出資組合的過往體現(xiàn)或未來預(yù)期體現(xiàn)進行調(diào)整。相較于報答率較低的相似出資組合或基金,較高的夏普比率無疑更為理想。不過,夏普比率也存在一些局限性,比如假定出資報答呈正態(tài)散布,在此暫不打開臚陳。 數(shù)據(jù)預(yù)處理與特征工程在金融技術(shù)分析范疇,技術(shù)指標是基于前史價格、交易量或證券及合同未平倉量的數(shù)學核算或模式信號,借助調(diào)和指標可以猜測金融市場走勢。關(guān)于數(shù)據(jù)科學家而言,這便是所謂的特征工程。本項目選取某范疇專家提出的頂級技術(shù)指標作為特征,如7天和21天的移動均勻線、指數(shù)移動均勻線、對數(shù)動量、布林帶和MACD等。傅里葉變換是處理時刻序列數(shù)據(jù)的常用手法,它能按捺數(shù)據(jù)中的計算反常,而且已證明可助力gru(使用于咱們的GANs模型)學習更為穩(wěn)健的模式。 ![]() ![]() 咱們的方針猜測值為股票收盤價。從上述圖表來看,很難直觀判斷曩昔的數(shù)據(jù)能否有用猜測未來數(shù)據(jù)。但當運用自相關(guān)進行計算分析(自相關(guān)指的是同一變量在兩個接連時刻距離之間的相關(guān)程度,用于衡量一個變量值的滯后版別與其在時刻序列中的原始版別之間的關(guān)系),選用滯后參數(shù)100時,得到了較強的正相關(guān),這意味著咱們的猜測模型有望收獲良好作用: ![]() 完結(jié)一切預(yù)處理后,便可以著手練習不同模型并得出相應(yīng)成果。 線性回歸咱們的線性回歸模型驗證夏普比率為0.44,接近Numerai文章所到達的方針0.49。關(guān)于一切這些模型,咱們將數(shù)據(jù)區(qū)分為練習集與測驗集,并根據(jù)特定日期股票市場的技術(shù)指標,來斷定次日股票市場的收盤價。 超參數(shù)調(diào)整算法咱們選用一種定制的二進制搜索算法,它可以快速搜索超參數(shù)值的或許空間。結(jié)合手藝模型調(diào)優(yōu)的經(jīng)歷,咱們以為這種算法比選用暴力搜索一切超參數(shù)組合(如典型的網(wǎng)格搜索)能獲得更優(yōu)成果。這使咱們可以對規(guī)劃加以改善,并在測驗中敏捷調(diào)整方向。 XGBoost關(guān)于XGBoost模型,咱們發(fā)現(xiàn)增加超參數(shù)可使其到達佳功能。初始XGBoost的夏普得分僅為0.71,而優(yōu)化超參數(shù)后,該模型的夏普得分提升至0.78。 CAT Boost就CAT Boost模型而言,咱們觀察到其功能優(yōu)于參數(shù)化CAT Boost模型,夏普得分高可達0.90,而Numerai文章中的數(shù)值為0.87。 堆疊模型將超參數(shù)化的XGBoost模型與普通的CAT boost模型疊加,可以收獲佳作用。咱們得到的分數(shù)為0.946,接近文章中的0.934。該模型的運作原理是取兩個模型猜測值的均勻值。 GANs1、什么是GAN 生成對立網(wǎng)絡(luò),簡稱GANs,是一種運用深度學習進行生成建模的方法。它將生成新數(shù)據(jù)的非監(jiān)督問題轉(zhuǎn)化為監(jiān)督問題,在此監(jiān)督問題中,模型根據(jù)成果的可信度進行評分。GAN系統(tǒng)由鑒別器與生成器兩個子模塊構(gòu)成。鑒別器在學習進程中會接收兩類圖畫,即真實圖畫與虛偽圖畫,其職責是學會區(qū)分二者,并為生成器提供相關(guān)信息,以生成更為傳神的輸出。 ![]() 咱們期望鑒別器可以出色履行職責,但又不能過于完美,因為若鑒別器過于強大,生成器無論怎樣學習都無法騙過它。為到達這一方針,咱們必須規(guī)劃一個架構(gòu)優(yōu)秀的強健網(wǎng)絡(luò)。 2、WGAN - GP的改善 Wasserstein Gan +梯度賞罰,即WGAN - GP,是一種生成對立網(wǎng)絡(luò),它借助Wasserstein丟失以及梯度賞罰來完結(jié)Lipschitz接連性。這兩者的結(jié)合旨在克服以往模型的缺陷。 Wasserstein距離(也稱作Earth Mover距離)是給定衡量空間上兩個概率散布之間的距離衡量,可以理解為將一個散布轉(zhuǎn)變?yōu)榱硪粋散布所需的小工作量。它處處可微,可以使練習模型到達佳功能,而且滿足安穩(wěn),可防止練習崩潰(若鑒別器飽滿且過于強大,梯度將降至零,導致無法收斂。WGAN在安穩(wěn)GAN練習方面獲得了一定發(fā)展,但有時仍或許僅生成低質(zhì)量樣本或無法收斂)。因而,增加梯度賞罰,這種丟失函數(shù)可將梯度限制在一定范圍內(nèi),防止或許呈現(xiàn)的梯度消失或梯度爆炸問題。 ![]() 引進GP是對這種剪切方法的代替,它對輸入的梯度進行賞罰,而且可與一切架構(gòu)交融,只需進行少量超參數(shù)調(diào)優(yōu),就能讓練習成果更加安穩(wěn)。 增加GRU為進一步優(yōu)化模型,咱們期望學習相似LSTM的方法,以某種途徑捕捉學習進程中的時刻特征。GRU可作為常規(guī)卷積的代替方案,以更為簡練的規(guī)劃完結(jié)LSTM的大部分優(yōu)勢。GRU由一個重置門和更新門構(gòu)成,可視為LSTM的簡化版別。 WGAN - GP怎么使用在股票猜測咱們運用WGAN - GP對上述預(yù)處理后的數(shù)據(jù)進行練習,得到以下成果: 1000.00usd =(End Portfolio:5327.83USD,Sharpe:0.819) ![]() 通過1000次迭代后,成果看似不錯。然而,當咱們測驗對一組徹底不知道的未來數(shù)據(jù)進行驗證時,卻得到了以下成果: ![]() 這是否意味著該模型不可行呢?并非徹底如此,原因或許如下。在回憶其他通常運用回歸或lstm的相似研討時,有幾篇論文將COVID時期視為數(shù)據(jù)中的反常狀況,因其史無前例的特殊性,他們選用了一種簡略的處理方法,即掃除該反常周期,但這種做法被以為只是在掩蓋問題。因而,我并不計劃選用這種方法。 實際上,這里呈現(xiàn)的狀況是,未來數(shù)據(jù)超出了當時模型的猜測范圍,因為它超出了以往所見的任何數(shù)據(jù)邊界。若觀察練習數(shù)據(jù),會發(fā)現(xiàn)價格從未超過40USD。也就是說,咱們并未對猜測價格進行歸一化處理,所以咱們將數(shù)據(jù)從USD轉(zhuǎn)換為[-1,1]之間的縮放值。 看看這一假定與校對是否能發(fā)生更好的成果: ![]() 顯然,這是一個糟糕的成果,在此將其作為測驗失利的記載。 運用window我從頭審視了核心假定,意識到練習方法與測驗?zāi)P偷姆椒ù嬖诓町。練習時的輸入具有特定窗口,而測驗時并未運用這一前史窗口。所以,我修改了測驗代碼,增加了該窗口,終究得到以下成果: ![]() 可以看出,現(xiàn)在的猜測趨勢徹底正確,但猜測粒度顯著較低。這是因為在確認有用策略時練習缺乏所致。從500次到5000次迭代,在測驗會集發(fā)生了以下成果: ![]() 可以發(fā)現(xiàn),在恰當長的一段時刻內(nèi),咱們的模型在徹底不知道的數(shù)據(jù)上體現(xiàn)近乎完美。模型可以在2017 - 07 - 12至2018 - 02 - 08(146天)期間,將1000.00美元轉(zhuǎn)化為1181.15美元,市盈率為1.52。雖然跟著時刻推移,模型在某些地方會呈現(xiàn)偏差,但因為模型每月甚至每晚都可根據(jù)新數(shù)據(jù)和新趨勢進行繼續(xù)再練習,在第二天開業(yè)前就能完結(jié)猜測。 總結(jié)
GANs網(wǎng)絡(luò)不僅在圖畫處理范疇展現(xiàn)出潛力,在金融和股票猜測范疇同樣遠景可觀。通過更多的調(diào)優(yōu)以及對猜測進行恰當格式化處理,這些GANs的成果可與功能優(yōu)秀的回歸器疊加,以完結(jié)更優(yōu)、更具彈性的猜測。此外,還能提取整個網(wǎng)絡(luò)的學習潛在空間,并將其作為回歸模型的特征輸入?傮w而言,這些實驗成果充滿希望,為該使用的進一步復(fù)雜改善奠定了根底。 |
|