現(xiàn)在的走勢就是我們進入了一個大數(shù)據(jù)時代,有了數(shù)據(jù)我們該分析嗎?數(shù)據(jù)分析的方法是什么?
一、說明統(tǒng)計
描述性統(tǒng)計是統(tǒng)計方法的總結(jié),揭示了數(shù)據(jù)分布的特性.主要包括數(shù)據(jù)頻率分析、數(shù)據(jù)集中趨勢分析、數(shù)據(jù)分散程度分析、數(shù)據(jù)分布和一些基本統(tǒng)計圖形.
1、缺失值填充:常用方法有去除法、平均法、決策樹法.
2、正態(tài)檢查:許多統(tǒng)計方法要求數(shù)值服從或接近正態(tài)分布,因此在進行數(shù)據(jù)分析前需要正態(tài)檢查.常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法.
二、回歸分析
回歸分析是應用極為廣泛的數(shù)據(jù)分析方法之一.根據(jù)觀測數(shù)據(jù)建立變量之間的適當依賴關(guān)系,分析數(shù)據(jù)的內(nèi)在規(guī)律.
1.一元線性分析
只有一個自變量x與變量y有關(guān),x和y必須是連續(xù)變量,變量y或其差異必須遵循正態(tài)分布.
2.多元線性回歸分析
使用條件:分析多個自變量x變量y的關(guān)系,x和y必須是連續(xù)變量,變量y或其差異必須遵循正態(tài)分布.
3.Logistic回歸分析
線性回歸模型要求變量為連續(xù)正態(tài)分布變量,自變量與變量為線性關(guān)系,但Logistic回歸模型對變量分布沒有要求,一般用于變量離散時的情況.
4.其他回歸方法:非線性回歸、秩序回歸、Probit回歸、加權(quán)回歸等.
三、方差分析
使用條件:各種樣品必須是相互獨立的隨機樣品,各種樣品來自正態(tài)分布的整體各個方差相等.
1.單因素方差分析:一個試驗只有一個影響因素,或者有多個影響因素時,只分析一個因素與響應變量的關(guān)系.
2.多因素有互動差異分析:一個實驗有多個影響因素,分析多個影響因素與響應變量的關(guān)系,同時考慮多個影響因素之間的關(guān)系
3.多因素沒有互動差異分析:分析多個影響因素和反應變量的關(guān)系,但影響因素之間沒有影響關(guān)系或忽視影響關(guān)系
4.協(xié)助者的差距祈禱:傳統(tǒng)的差距分析有明顯的缺點,無法控制分析中存在的隨機因素,降低了分析結(jié)果的準確性.協(xié)調(diào)差分析主要是排除協(xié)調(diào)變量的影響后,對修正后的主要效果進行方差分析,結(jié)合線性回歸和方差分析的分析方法.