數學建模之統計問題(回歸分析、時間序列、機器學習等)

統計算法總覽

統計一詞源於(yu) 國情調查,一般來說包括三個(ge) 含義(yi) :統計工作、統計資料和統計科學。其中統計工作是指的搜集、整理和分析客觀事物總體(ti) 數量方麵的資料,統計資料則是由統計工作所獲得的各項數字或文字資料,一般反映在圖表、分析報告、統計年鑒裏麵,而統計科學則是指導統計工作的原理、原則和方法。

因此,在數學建模比賽中統計問題一定要有文獻資源和數據資源的搜集,並且這一部分內(nei) 容也要反映在論文中,而整理通常來說是將搜集到的資料以圖表的形式呈現在論文中,最後分析自然就是數據預處理和統計算法建模求解。

1預測

預測,顧名思義(yi) ,即根據先用數據規律推算接下來的數據。而預測按照算法可以分為(wei) 四大類,一為(wei) 回歸分析,二為(wei) 概率估計,三為(wei) 時間序列,四為(wei) 機器學習(xi) 。

01回歸分析

對於(yu) 回歸分析,該類算法適用於(yu) 求解單一輸出的問題,在某種程度上可以叫做函數擬合,即利用一種函數去逼近原有數據 。我們(men) 在高中階段學習(xi) 的線性回歸就屬於(yu) 一種預測方法,下麵給出幾種函數類型:

多項式擬合:數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

非線性擬合:數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

多元擬合:數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

如下圖所示,該圖像是利用了非線性函數對原有數據進行了逼近,有了函數自然也就可以根據輸入計算出接下來的數據,所以回歸分析也隻適用於(yu) 單輸出問題。而回歸分析的關(guan) 鍵問題就是對某一函數模型的參數進行求解,matlab中有專(zhuan) 門的擬合工具箱polyfit和lsqcurvefit:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

這裏小編用MATLAB編了兩(liang) 種基礎的回歸分析程序。

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

02、概率估計

而對於(yu) 概率估計,其中的代表是馬爾科夫鏈算法,即先給數據劃分狀態,然後將數據的分布規律用狀態轉移來解釋。最後對於(yu) 當時數據的狀態,利用根據狀態間的轉移概率可以求得未來的狀態概率分布,自然也能求得下一狀態的預測值。

比方說,我隻去A,B,C,D四個(ge) 食堂吃飯,現在告訴你我吃飯的記錄,現在就需要計算我在這四個(ge) 食堂中的轉移概率,如我去食堂A吃過後再去四個(ge) 食堂吃飯的概率是多少?通過這些轉移概率不斷推算我下一個(ge) 要去的食堂,再根據四個(ge) 轉移概率得到最大可能去的食堂。但是這隻是離散問題的預測,對於(yu) 連續問題,自然也就需要將連續數據劃分為(wei) 若幹個(ge) 離散的狀態,在使用此方法。

此方法對於(yu) 初學者來說掌握會(hui) 比較困難,不過如果能成功使用會(hui) 為(wei) 論文添色不少,有興(xing) 趣的同學可以自行查找資料了解。(《數學建模算法與(yu) 應用》一書(shu) 上有講解)

03、時間序列

第三類稱其為(wei) 時間序列,因為(wei) 輸入是按順序的離散值,大多數情況下就是時間,針對此類問題,由於(yu) 輸入以穩定步長增長的,所以不用考慮輸入,直接研究輸出的變化規律,這一點類似於(yu) 高中學的數列,比方說有名的斐波那契數組:1,1,2,3,5...,它的數據特征是f(n+2)=f(n)+f(n+1),現在我們(men) 要求後麵的數就直接利用該數據特征就行了,當然也可以求出其通項公式,有興(xing) 趣的同學可以求著試試。

而時間序列方麵的算法其實就是猜測數據前後存在著什麽(me) 關(guan) 係,比如說:一次移動平均算法就是猜測每一個(ge) 數據 與(yu) 最近的部分數據的均值存在著某種關(guan) 係,指數平滑法就是猜測每個(ge) 數據都跟之前的曆史數據的加權平均存在著某種關(guan) 係。這些算法都可以算作是時間序列算法,不過以上算法都是對數據特征簡單的猜測,而對於(yu) 更複雜的數據特征則可能會(hui) 用到微分方程,利用微分方程,即可以直接預測,還能用於(yu) 灰色係統,從(cong) 而將無規則數據轉化為(wei) 有規律的生成序列。

04、機器學習(xi)

最後一個(ge) 就是機器學習(xi) ,即我們(men) 隻需要搭好框架,數據特征則會(hui) 由其自己挖掘,比較有名的有:支持向量機(SVM)、決(jue) 策樹、神經網絡(深度學習(xi) )。這種算法的最終目的是模擬人腦的結構,它的好處就是在搭建好網絡結構之後,通過對已有數據的學習(xi) ,網絡會(hui) 自行提取數據特征,然後隻要我們(men) 輸入一個(ge) 數據,網絡將自行計算,然後輸出它的預測值。這種方法的優(you) 點是方便,無需考慮數據規律和數據維度,而缺點則是要求數據量要大,少量樣本的訓練效果一般不具有適用性。

05、模型檢驗

預測問題中尤其還要注意的是對結果的檢驗,通常使用殘差和後驗誤差等作為(wei) 概率統計的檢驗,也可以用均方誤差MSE檢驗。

殘差值反映了預測值和原始數據的相對差距:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

後驗誤差反映模型的精度:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

然後依據下表判斷模型精度:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

均方誤差則是一個(ge) 簡單的誤差效果:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

2、分類/聚類

首先要弄明白分類和聚類的區別:

分類(判別):數據包含數據特征部分和樣本標簽部分,分類的目的就是判別新的數據特征到其應有的樣本標簽(類別)中。

比方說,現在告訴大家一個(ge) 教室裏麵其中一半人每個(ge) 人的性別(男女),現在需要大家將另一半人中每個(ge) 人的性別判斷出來,因此大家首先要做的的找到區分性別的特征,然後應用到另一半人身上,將其歸類。

聚類:數據中隻有數據特征,需要根據某一標準將其劃分到不同的類中。

同樣的,現在一個(ge) 教室裏麵所有人都沒什麽(me) 標簽,現在需要你將整個(ge) 教室的人分為(wei) 兩(liang) 類,那麽(me) 你可以從(cong) 性別、體(ti) 型、興(xing) 趣愛好、位置等等角度去分析。

可以看到,分類其實跟預測差不多,隻不過輸出是一維的,並且還是整數,所以可以用預測中的機器學習(xi) 方法來解決(jue) 分類問題。而聚類則不同,一般來說,聚類需要定義(yi) 一種相似度或者距離,從(cong) 而將相似或者距離近的樣本歸為(wei) 一類,常見的有:kmeans算法、分層聚類、譜聚類等。

對於(yu) 聚類來說,除了相似性的度量之外,還有一個(ge) 比較重要的是終止條件,即需要聚成多少類,一般來說,基本都是在聚類之前就設定好需要聚成多少類,其中kmeans就是先設定幾個(ge) 類中心,然後將與(yu) 類中心相近的數據歸到那一類,然後不斷更新類中心,直至所有數據聚類完畢,而分層聚類則是相反,先將所有數據各自為(wei) 一類,然後將相似的類合並,直至達到k類為(wei) 止...
當然,也可以將終止條件改為(wei) 當最小的距離大於(yu) 某一閾值時,不再合並類(適用於(yu) 分層聚類),除了這些算法,還有機器學習(xi) 方法,如:自組織競爭(zheng) 網絡(SOM),可以自行了解。

接下來我們(men) 以分層聚類為(wei) 例進行講解,這一部分例子來自於(yu) 《數學建模算法與(yu) 應用》,用以輔助說明。通常來說,分層聚類有兩(liang) 類,一類是從(cong) 上到下的分裂(即現將所有個(ge) 體(ti) 看做一個(ge) 類,然後利用規則一步步的分裂成多個(ge) 類),另一類是從(cong) 下到上的合並(即先將每個(ge) 個(ge) 體(ti) 看作一個(ge) 類,然後依據規則一步步合並為(wei) 一個(ge) 類)。因此分層聚類最終可以得到一個(ge) 金字塔結構,每一層都有不同的類別數量,我們(men) 可以選取需要的類別數量。

例子:設有5個(ge) 銷售員w1,w2,w3,w4,w5,他們(men) 的銷售業(ye) 績由二維變量(v1,v2)描述:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

將5個(ge) 人的兩(liang) 種數據看作他們(men) 的指標,首先,我們(men) 簡單定義(yi) 任意兩(liang) 組數據的距離為(wei) :

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

與(yu) 此相對應的,當有樣本歸為(wei) 一類後,我們(men) 要計算類間距離就又得需要一個(ge) 計算方式,我們(men) 定義(yi) 任意兩(liang) 類間的距離為(wei) 兩(liang) 類中每組數據距離的最小值:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

因此,可以得到任意兩(liang) 個(ge) 銷售員的數據距離矩陣:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

Step1 首先,最相近的兩(liang) 組樣本是w1和w2,他們(men) 的距離為(wei) 1,所以先將其聚為(wei) 一類;

Step2 然後,剩下的樣本為(wei) {w1,w2},w3,w4,w5,我們(men) 發現除了距離1之外,最相似的是 w3,w4,他們(men) 的距離為(wei) 2,所以將其聚為(wei) 一類;

Step3 然後,剩下的樣本為(wei) {w1,w2},{w3,w4},w5,我們(men) 發現除了距離1,2之外,最相似的 是{w1,w2}和{w3,w4},他們(men) 的距離以 w2和w3的距離為(wei) 準,距離為(wei) 3,所以將這兩(liang) 類聚為(wei) 一類;

Step4 最後,剩下的樣本為(wei) {w1,w2,w3,w4},w5,隻剩最後兩(liang) 類了,所以最後一類為(wei) {w1,w2,w3,w4,w5},類間距以w3/w4與(yu) w5的距離4為(wei) 準。

用matlab編程結果如下:

數學建模之統計問題(回歸分析、時間序列、機器學習(xi) 等)

轉載自:CSDN

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

AP人文地理和AP環境科學課程考試難點分析

下一篇

2022 英國生物奧林匹克競賽(BBO)考試報名

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部