Statistics in Machine Learning


變異數(Variance)


變異數即在量測所有資料到平均數的平均距離
一個很自然會被想到用來量測資料分散程度之指標值為平均絕對離差。
但絕對值在代數運算上較麻煩,因此將絕對值以平方來替代。
變異數會因資料中少數幾筆特別大或特別小的值,使變異數變得特別大。

變異數開平方即所謂標準差

由於變異數的單位是資料單位的平方,它必需開方後才能恢復原來的單位,因此常以變異數開平方來表示資料的分散程度,即所謂的標準差。

相關係數(Correlation)


平均數,變異數及標準差都是對單一變數的分析.
但是大部分統計所研究的數據都不是由單一變數決定的.
統計上最常用描述變數間直線相關的方向及強度極為相關係數.






Covariance可用來判斷兩變數的相關程度。
Correlation coefficient描述兩變數線性關係的強度。

迴歸分析(英語:Regression Analysis)


迴歸分析(Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。
更具體的來說,迴歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說,通過迴歸分析我們可以由給出的自變量估計因變量的條件期望。

迴歸分析是建立因變數 Y(或稱依變數,反應變數)與自變數 X(或稱獨變數,解釋變數)之間關係的模型。簡單線性回歸使用一個自變量 X,複迴歸使用超過一個自變量.

留言

熱門文章