日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘——我们能从股市数据得出什么,以及一些算法

發布時間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘——我们能从股市数据得出什么,以及一些算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據挖掘——我們能從股市數據得出什么,以及一些算法

//一個備忘錄了,寫給我們金融信息系統項目小組的同學。沒有列出參考文獻,因為都是大白話。有些刪節。

數據挖掘/機器學習大概處理以下幾個問題:

  • 分類 ,這是有很多非常成熟的算法,非常直觀,按照一個分類屬性,把樣本分為不同的類別。
  • 聚類 ,聚類與分類的差別在于,分類分析有一個分類屬性作為輸出,比如“好”、“壞”之類,但聚類沒有。聚類分析探索各個樣本間的內在關系,并按一定標準把它們“聚”在一塊。按照有沒有相應的輸出分類屬性,一個術語是,分類是有指導的學習,而聚類是無指導的學習;
  • 關聯分析,就是著名的購物籃分析,例子就是沃爾瑪的啤酒和尿布,探索數據中各個屬性之間的關系;
  • 預測,也很直觀了,有很多回歸技術。
  • 分別論述了。分類的算法有:

  • 決策樹,按照一定的標準(比如說信息論中的“熵”),把各個屬性劃到不同的樹形節點中去。在股市數據中,比如,有好的企業和不好的企業(ST),這個算法提供類似“如果市盈率怎么樣,則該企業怎么樣怎么樣”的結論,當然,實際分析中,結論的層次會很多。決策樹的成功算法有C4.5、CHAID(這個就是馮老師說的威力無比的卡方自動搜索技術,昨天梁老師提到的最好的決策樹算法就是它)、CART等等。C4.5有現成的代碼;
  • 人工神經網絡,仿照人類神經元刺激-反應的學習模式,人工神經網絡被一個環境(輸入輸出的組合)所激勵,它的各種參數(那些權值和偏置量)進行調整作為響應。一般認為神經網絡經常能發掘出數據中的非線性關系,而且抗干擾性較強。人工神經網絡包括三種基本的模型,一是前饋網絡,如多層感知機(我們學過相應的反向傳播法BP),這里網絡的輸出直接根據網絡的輸入計算而來,不涉及到反饋;二是競爭網絡,以Hamming網絡為代表,它包括一個反饋層,并試圖判定哪個標準向量最接近輸入向量;三是以Hopfield網絡為代表的遞歸網絡,它利用輸入向量對網絡中的神經元進行初始化,然后不斷迭代直至收斂;這里前饋網絡的代碼很好找到;
  • 支持向量機(SVM,Support Vector Machine)源自統計學習理論,有著堅實的理論基礎,它用訓練實例的一個子集(支持向量)作為決策邊界,然后建立一個線性判別函數來將各個類別分開。它相對與神經網絡的一個優點是能發現目標函數的全局最優點,而采用貪心算法搜索假設空間的神經網絡模型一般只能獲得局部最有解;
  • 最大熵法(MEM,Maximun Entropy Method),是基于信息論的一種方法,它用“熵”來表示信息的增益,在自然語言處理領域成就斐然。最大熵方法認為,當我們需要對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,預測的風險最小。因為這時概率分布的信息熵最大,所以稱之為“最大熵法”。最大熵法在數學形式上很漂亮,但是實現起來比較復雜,但把它運用于金融領域的誘惑也比較大,比如說決定股票漲落的因素可能有幾十甚至上百種,而最大熵方法恰恰能找到一個同時滿足成千上萬種不同條件的模型。
  • 聚類的算法以K-均值為代表,它先是選擇K個初始的質心,接著按就近原則將其他觀測值向它凝聚,這樣指派到每一個質心的點集稱為一個簇。然后根據指派到簇的點,更新每個簇的質心,這樣重復指派和更新,直到質心不再發生變化(即收斂)。這里“最近”的概念用的是歐幾里德距離。在我們的股市數據中,如果我們不再事先指定哪些股票是好是壞(即沒有輸出變量),通過聚類分析也能把它們分類。

    關聯分析用來發現隱藏在大型數據集中令人感興趣的聯系,比如尿布和啤酒之間的關聯,一種叫Apriori的算法可以實現,它根據變量及其賦值對整個數據集的覆蓋程度來建立起兩個或幾個變量之間的聯系。這個算法用在我們的股市數據中,可以幫我們找到幾只單股之間的關聯,這種關聯可能沒有道理。

    轉自: http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!147.entry

    總結

    以上是生活随笔為你收集整理的数据挖掘——我们能从股市数据得出什么,以及一些算法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。