穩健回歸

維基百科,自由的百科全書

穩健統計中,穩健回歸試圖克服傳統回歸分析的一些局限性。回歸分析對自變量與因變量之間的關係進行建模。普通最小二乘法等標準類型的回歸,在基本假設為真的情形下具有有利的特性,但在其他情形下可能產生誤導性結果(即對違背假設的情形不穩健)。穩健回歸法旨在限制effect that violations of assumptions by the underlying data-generating process have on regression estimates.

例如,最小二乘估計的回歸模型異常值非常敏感:誤差幅度為典型觀測值2倍的異常值,對平方誤差損失函數的貢獻是典型觀測值的4倍(2倍的平方),因此對回歸估計值的影響更大。休伯損失函數是普通平方誤差損失的一種穩健替代,可減少異常值對平方誤差損失的貢獻,從而限制其對回歸估計值的影響。

應用[編輯]

異方差誤差[編輯]

當強烈懷疑存在異方差時,就要考慮採用穩健估計。同方差模型假定誤差項的方差對所有x都是常數。例如,高收入人群的支出方差往往大於低收入人群。軟件包通常默認使用同方差,儘管可能不如異方差模型準確。一種簡單方法(Tofallis, 2008)是對百分誤差應用最小二乘法,與普通最小二乘法相比,這樣可減少因變量的較大值造成的影響。

異常值[編輯]

使用穩健估計的另一種常見情況是數據包含異常值。若異常值與其他數據的產生過程不同,最小二乘法估算的效率就會很低,且會產生偏差。由於最小二乘預測結果會被拖向異常值,且估計值的方差也會被擴大,結果就是異常值會被掩蓋(在許多時候,包括地理統計和醫學統計的部分領域,待研究的往往是異常值)。

有時有人稱最小二乘法(或一般的經典統計方法)是穩健的,但這只是指在違反模型的情況下第一類錯誤率不會增加。實際上,出現異常值時,第一類錯誤率往往會低於定類水平(nominal level),而第二類錯誤率則會急劇上升。第一類錯誤率的下降被稱為經典方法的保守性。

穩健回歸的歷史與不受歡迎[編輯]

雖然穩健回歸法在很多時候都比最小二乘法的性能更優越,但仍未得到廣泛應用。不受歡迎的原因有幾個(Hampel et al. 1986, 2005),其一是有多種方法相互競爭,使得領域有多個錯誤的開端;另外,文件回歸的計算量比最小二乘法大得多;近年來,隨着算力的大幅提高,這種反對意見已變得不重要了。另一個原因可能是一些流行統計軟件包還沒有實現這些方法(Stromberg, 2004)。許多統計學家認為經典方法是穩健的,這可能又是一個原因[來源請求]

儘管穩健方法的應用進展緩慢,但現代的主流統計學教科書通常都有對這些方法的討論(例如,Seber & Lee 及 Faraway 的著作;關於各種穩健回歸方法如何相互發展的概述,請參閱 Andersen 的著作)。

穩健回歸方法[編輯]

最小二乘的代替[編輯]

最簡單的方法是使用最小一乘法估計回歸模型中的參數,這種方法對異常值的敏感度低於最小二乘法。即便如此,嚴重的異常值仍會對模型產生相當大的影響,促使人們研究更加穩健的方法。

1964年,休伯引入了M估計,其中的M代表「最大似然」,對響應變量中的異常值很穩健,但對解釋變量(槓桿點)的異常值則無能為力。事實上,這時這種方法與最小二乘相比沒有任何優勢。 1980年代,提出了集中M估計的替代方案,試圖克服缺乏抵抗的問題。可參Rousseeuw、Leroy的著作。最小截平方(LTS)是一種可行的替代,目前(2007)是Rousseeuw & Ryan (1997, 2008)的首選。泰爾-森估算的分解點低於LTS,但在統計上很有效,也很受歡迎。另一種建議的解決方案是S估計,能找到一條線(面或超平面),使殘差規模的穩健估計值(名稱出處)最小化。這種方法對槓桿點有很強抵抗力,對響應中的異常值也很穩健,但往往很低效。 MM估計試圖保留S估計的穩健性,同時獲得M估計的效率。首先要找到一個十分穩健、抗干擾的S估計值,可使殘差尺度的M估計值(第一個M)最小化。然後,在確定參數的M估計值(第二個M)的同時,保持估計值不變。

參數替代方法[編輯]

另一種穩健估計回歸方法是用重尾分布代替正態分布。據報道,在各種實際情況下,自由度為4~6的T分布都是不錯的選擇。作為完全參數化的貝葉斯穩健回歸,在很大程度上依賴於這種分布。

在殘差為t分布的假設下,分布是一個位置尺度族,即t分布的自由度,有時也稱為峰度係數。Lange、Little & Taylor (1989)從非貝葉斯的角度深入討論了這一模型;Gelman et al. (2003)對貝葉斯模型進行了闡述。

另一種參數方法是假設殘差遵循混合正態分布(Daemi et al. 2019);特別是污染正態分布,其中大部分觀測值來自指定的正態分布,小部分來自方差大得多的正態分布。即,殘差來自方差為的正態分布的概率為,其中很小,而對某個,來自方差為的正態分布的概率為

通常有。這有時被稱為污染模型。

參數法的優點是,由似然理論提供了一種「現成」的推斷方法(雖然對污染模型之類不適用通常的正則行條件),且可根據擬合結果建立模擬模型。但這種參數模型仍假定基本模型是真實的,因此不能考慮偏移的殘差分布或有限的觀測精度。

單位權[編輯]

另一種穩健方法是單位權(Wainer & Thissen, 1976),適用於單一結果有多個預測因素的情況。Ernest Burgess (1928)用單位權法預測假釋成功率,對21個積極因素進行評分,分為存在(如「無逮捕前科」= 1)或不存在(「有逮捕前科」= 0),然後求和得出預測得分,結果表明得分是預測假釋成功的有效指標。Samuel S. Wilks (1938)的研究表明,幾乎所有回歸權集的和都是彼此高度相關的,也包括單位權,這一結果被稱為威爾克斯定理(Ree, Carretta, & Earles, 1998)。Robyn Dawes (1979)研究了應用環境下的決策制定,發現使用單位權的簡單模型的結果甚至往往優於人類專家。Bobko、Roth、Buster (2007)回顧了有關單位權的文獻,並得出結論:數十年的經驗研究表明,單位權在交叉驗證中的表現與普通回歸權相似。

另見[編輯]

參考文獻[編輯]

  • Liu, J.; Cosman, P. C.; Rao, B. D. Robust Linear Regression via L0 Regularization. IEEE Transactions on Signal Processing. 2018, 66 (3): 698–713. doi:10.1109/TSP.2017.2771720可免費查閱. 
  • Andersen, R. Modern Methods for Robust Regression. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152. 2008. 
  • Ben-Gal I., Outlier detection頁面存檔備份,存於網際網路檔案館), In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
  • Bobko, P., Roth, P. L., & Buster, M. A. (2007). "The usefulness of unit weights in creating composite scores: A literature review, application to content validity, and meta-analysis". Organizational Research Methods, volume 10, pages 689-709. doi:10.1177/1094428106294734
  • Daemi, Atefeh, Hariprasad Kodamana, and Biao Huang. "Gaussian process modelling with Gaussian mixture likelihood." Journal of Process Control 81 (2019): 209-220. doi:10.1016/j.jprocont.2019.06.007
  • Breiman, L. Statistical Modeling: the Two Cultures. Statistical Science. 2001, 16 (3): 199–231. JSTOR 2676681. doi:10.1214/ss/1009213725可免費查閱. 
  • Burgess, E. W. (1928). "Factors determining success or failure on parole". In A. A. Bruce (Ed.), The Workings of the Indeterminate Sentence Law and Parole in Illinois (pp. 205–249). Springfield, Illinois: Illinois State Parole Board. Google books
  • Dawes, Robyn M. (1979). "The robust beauty of improper linear models in decision making". American Psychologist, volume 34, pages 571-582. doi:10.1037/0003-066X.34.7.571 . archived pdf頁面存檔備份,存於網際網路檔案館
  • Draper, David. Rank-Based Robust Analysis of Linear Models. I. Exposition and Review. Statistical Science. 1988, 3 (2): 239–257. JSTOR 2245578. doi:10.1214/ss/1177012915可免費查閱. 
  • Faraway, J. J. Linear Models with R. Chapman & Hall/CRC. 2004. 
  • Fornalski, K. W. Applications of the robust Bayesian regression analysis. International Journal of Society Systems Science. 2015, 7 (4): 314–333. doi:10.1504/IJSSS.2015.073223. 
  • Gelman, A.; J. B. Carlin; H. S. Stern; D. B. Rubin. Bayesian Data Analysis Second. Chapman & Hall/CRC. 2003. 
  • Hampel, F. R.; E. M. Ronchetti; P. J. Rousseeuw; W. A. Stahel. Robust Statistics: The Approach Based on Influence Functions. Wiley. 2005 [1986]. 
  • Lange, K. L.; R. J. A. Little; J. M. G. Taylor. Robust statistical modeling using the t-distribution. Journal of the American Statistical Association. 1989, 84 (408): 881–896 [2023-10-14]. JSTOR 2290063. doi:10.2307/2290063. (原始內容存檔於2022-12-22). 
  • Lerman, G.; McCoy, M.; Tropp, J. A.; Zhang T. (2012). "Robust computation of linear models, or how to find a needle in a haystack"頁面存檔備份,存於網際網路檔案館), .
  • Maronna, R.; D. Martin; V. Yohai. Robust Statistics: Theory and Methods. Wiley. 2006. 
  • McKean, Joseph W. Robust Analysis of Linear Models. Statistical Science. 2004, 19 (4): 562–570. JSTOR 4144426. doi:10.1214/088342304000000549可免費查閱. 
  • Radchenko S.G. Robust methods for statistical models estimation: Monograph. (on Russian language). Kiev: РР «Sanspariel». 2005: 504. ISBN 978-966-96574-0-4. 
  • Ree, M. J., Carretta, T. R., & Earles, J. A. (1998). "In top-down decisions, weighting variables does not matter: A consequence of Wilk's theorem. Organizational Research Methods, volume 1(4), pages 407-420. doi:10.1177/109442819814003
  • Rousseeuw, P. J.; A. M. Leroy. Robust Regression and Outlier Detection. Wiley. 2003 [1986]. 
  • Ryan, T. P. Modern Regression Methods. Wiley. 2008 [1997]. 
  • Seber, G. A. F.; A. J. Lee. Linear Regression Analysis Second. Wiley. 2003. 
  • Stromberg, A. J. Why write statistical software? The case of robust statistical methods. Journal of Statistical Software. 2004, 10 (5). doi:10.18637/jss.v010.i05可免費查閱. 
  • Strutz, T. Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Springer Vieweg. 2016. ISBN 978-3-658-11455-8. 
  • Tofallis, Chris. Least Squares Percentage Regression. Journal of Modern Applied Statistical Methods. 2008, 7: 526–534 [2023-10-14]. SSRN 1406472可免費查閱. doi:10.2139/ssrn.1406472. (原始內容存檔於2023-08-14). 
  • Venables, W. N.; B. D. Ripley. Modern Applied Statistics with S. Springer. 2002. 
  • Wainer, H., & Thissen, D. (1976). "Three steps toward robust regression." Psychometrika, volume 41(1), pages 9–34. doi:10.1007/BF02291695
  • Wilks, S. S. (1938). "Weighting systems for linear functions of correlated variables when there is no dependent variable". Psychometrika, volume 3, pages 23–40. doi:10.1007/BF02287917

外部連結[編輯]