博碩士論文 91225008 詳細資訊


姓名 楊棋全(Chi-Chuan Yang)  查詢紙本館藏   畢業系所 統計研究所
論文名稱 指數與韋伯分佈遺失值之處理
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [檢視]  [下載]
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 依照Rubin的分類,處理遺失值可分為(1)完整的觀察體分析(complete-case analysis)(2)加權法(weight)(3)插補法(imputation)及(4)模式建構法四種方法。
在工業裡,指數與韋伯分佈是較常使用的統計模型,主要是用於表示產品的壽命。但是在收集資料同時,難免會遇到數據收集不到的情況,產生了遺失值。一般企業的作法為採用可觀測的資料來作決策,也就是將遺失資料刪除,一旦可觀測資料過少時,這些可觀測的資料是否值得相信?所作成的決策是否可信賴?這是令人質疑的地方。所以必須要有與其它遺失資料處理的一個比較方法,才能引導決策者正確下決策。
本文將重點放到指數與韋伯分佈遺失值插補法的比較,其中,數種插補法為本文首度提出,例如類似信賴區間插補法、類似預測區間插補法、分位數插補法、修正的分位數插補法、機率圖、附帶額外變異的機率圖。有些插補方法來自於Little與Rubin(2002)的著作,例如平均數插補法、熱卡法。還有一些來自於Wang與Rubins(1998)發表的結果。至於中位數插補法,本文針對韋伯分佈另外提出一種新的插補構想。此外,本文也將插補的結果與(1)完整的觀察體分析(complete-case analysis)及(4)模式建構法作一番比較。其中,完整的觀察體分析採用不同的參數估計量,例如MLE、動差法估計量、最小平方法估計量、廣義最小平方法估計量、絕對誤差估計量。模式建構法,則主要採用EM插補法。
比較的過程中,本文假設資料原本應該有n個,現在可觀測值有s個,遺失值有n-s個。採用多重插補法中,假設插補次數共有m次。本文分別考慮遺失比率(1-s/n)為20%、50%、80%,輔助樣本數(n)分別為10、20、40、60、80、100,搭配插補次數(m)為1~20、40、60、100,比較不同插補法的優缺點。比較的準則,主要是採用參數估計量的mse(mean square error),估計量的mse越小,表示該項方法越好。此外,針對插補方法,本文還採用一些評價指標作比較,另外也提出新的評價指標。這個動作主要是比較遺失資料插補前的數值與插補後的數值的差異。若比較結果差異為最小,表示此插補方法為還原遺失資料的最佳方法。
從參數估計量mse的比較上,可以得到本文所提的中位數插補法與分位數插補法在樣本數60以下為指數分佈下最佳的參數估計量;對於韋伯分佈,本文所提出的類似預測區間插補法、中位數插補法、修正的中位數插補法、修正的分位數插補法、附帶額外變異的機率圖在不同的樣本情況下,皆獲得不錯的成效。對於多重插補法次數m的決定,本文的結果建議要增加Rubin所建議的5~12次到8~20次,這樣才會獲得比較穩定的參數mse值。
除此之外,在常態分佈下,李興南(2002)證明出Rubin所提出的多重插補參數估計量的變異數估計量是不偏的估計量,代表此變異數估計量是適合的,但是本文在指數分佈下,證明出此變異數的估計量並非不偏,所以Rubin所提的變異數估計量並不是對任何分佈皆適用。
關鍵字(中) ★ 遺失值
★ 多重插補法
★ 指數分佈
★ 韋伯分佈
★ 熱卡法
關鍵字(英) ★ multiple imputation
★ missing value
★ hot deck
★ mse
★ Weibull distribution
★ Exponential distribution
論文目次 摘要 III
致謝辭 V
目錄 VI
圖目錄 VIII
表目錄 IX
第一章 緒論 1
第1.1節 前言 1
第1.2節 研究動機與目的 2
第1.3節 文獻回顧 2
第1.4節 研究方法與綱要 5
第二章 遺失值的介紹 7
第2.1節 遺失資料的機制 7
第2.2節 插補法的介紹 8
第2.3節 其它遺失值方法的處理 13
第三章 指數分佈遺失值的處理 16
第3.1節 可觀測的最大概似估計量 16
第3.2節 可觀測的動差法估計量 16
第3.3節 可觀測的絕對誤差估計量 16
第3.4節 可觀測的最小平方法估計量 17
第3.5節 可觀測的廣義最小平方法估計量 18
第3.6節 EM ALGORITHM 18
第3.7節 平均數插補法 19
第3.8節 中位數插補法 20
第3.9節 熱卡法 21
第3.10節 機率圖 24
第3.11節 附帶額外變異的機率圖 25
第3.12節 類似信賴區間插補方法 26
第3.13節 類似預測區間插補法 27
第3.14節 分位數插補法 28
第3.15節 WANG與RUBINS多重插補法 31
第3.16節 小結 37
第四章 多重插補法變異數的估計 48
第4.1節 RUBIN多重插補法變異數的估計 48
第4.2節 WANG與RUBINS A型插補法變異數的估計 49
第4.3節 WANG與RUBINS B型插補法變異數的估計 53
第4.4節 小結 56
第五章 韋伯分佈遺失值的處理 60
第5.1節 可觀測的最大概似估計量 60
第5.2節 可觀測的動差法估計量 60
第5.3節 可觀測的最小平方法估計量 61
第5.4節 可觀測的廣義最小平方法估計量 61
第5.5節 EM ALGORITHM 62
第5.6節 平均數插補法 65
第5.7節 中位數插補法 66
第5.8節 熱卡法 68
第5.9節 機率圖 69
第5.10節 附帶額外變異的機率圖 72
第5.11節 類似信賴區間插補方法 74
第5.12節 類似預測區間插補法 76
第5.13節 分位數插補法 78
第5.14節 修正的分位數插補法 81
第5.15節 WANG與RUBINS多重插補法 83
第5.16節 小結 85
第六章 結論與未來發展 114
第6.1節 結論 114
第6.2節 未來發展 116
參考文獻 118
附錄 121
參考文獻 一、中文部分:
1. 王國河 (2002), 整合叢集與迴歸技術以處理大型資料庫, 國立成功大學 資訊工程研究所
2. 李興南 (2002), 在樣本完全隨機闕失之多重插補方法的比較分析, 國立台灣大學 流行病學研究所
3. 林昆賢 (1993), 遺失資料分配函數估計方法的比較, 國立中央大學 統計研究所
4. 曹志弘 (1999), 遺漏值插補方法的比較, 國立中央大學 統計研究所
5. 陳信達 (1998), 韋伯過程貝氏估計問題之探討, 國立中央大學 統計研究所
6. 陳順宇 (1998), 統計學, 華泰
7. 陸海林 (2003), 在韋伯與其相關分配上的統計推論, 國立成功大學 應用數學研究所
8. 楊宏基 (1995), 不完整重複觀測離散資料之分析方法, 國立中央大學 統計研究所
9. 趙士儀 (2000), 以主成份分析法處理定量資料缺失值問題, 私立元智大學 資訊管理研究所
10. 趙民德 謝邦昌 (1999), 探索真相:抽樣理論和實務, 暁園
二、外文部分:
1. Buck, S. F. (1960). A method of estimation of missing values in multivariate data suitable for use with an electronic computer. J. Roy. Statist. Soc. B22, 302-306.
2. Carlin, B. P., and Louis, T. A. (2000). Bayes and Empirical Bayes methods for data analysis. Boca Raton : Chapman & Hall/CRC.
3. Casella, G., and Berger, R. L. (2002). Statistical inference. 2nd edition. Australia ; Pacific Grove, CA : Thomson Learning.
4. Celeux, G., and Diebolt, J. (1985). The SEM algorithm:a probabilistic teacher algorithm. CSQ. 2, 73-82.
5. David, M. H., Little, R. J. A., Samuhel, M. E., and Triest, R. K. (1986). Alternative methods for CPS income imputation. J. Am. Statist. Assoc. 81, 29-41.
6. Dempster, A. P., Laird, N. M., and Rubin D. B. (1976). Maximum likelihood from incomplete data via the EM algorithm. J. Roy. Statist. Soc. B39, 1-38.
7. Effron, B. (1994). Missing data, imputation, and the bootstrap. J. Am. Statist. Assoc. 89, 463-478.
8. Ernst, L. R. (1980). Variance of the estimated mean for several imputation procedures, Proc. Survey Res. Meth. Sec., Am. Statist. Assoc. 1980, 716-721.
9. Fay, R. E. (1996). Alternative paradigms for the analysis of imputed survey data. J. Am. Statist.l Assoc. 91, 490-498.
10. Fuch, C. (1982). Maximaum likelihood estimation and model selection in contingency tables with missing data. J. Am Statist. Assoc. 77, 270-278.
11. Hartley, H. O. (1958). Maximum likelihood estimation from incomplete data. Biometrics. 14, 174-194.
12. Kalton, G., and Kish. L. (1981). Two efficient random imputation procedures, Proc. Survey Res. Meth. Sec., Am. Statist. Assoc. 1981, 146-151.
13. Kim, J. O., and Curry, J. (1977). The treatment of missing data in multivariate analysis. Social. Meth. Res. 6, 215-240.
14. Lawless, J. F. (1982). Statistical models and methods for lifetime data. New York : Wiley Taipei : Hwa Tai.
15. Little, R. J. A. and Rubin, D. B. (1987). Statistical analysis with missing data. New York:Wiley.
16. Little, R. J. A. and Rubin, D. B. (2002). Statistical analysis with missing data. 2nd edition. New York:Wiley.
17. Maker, D. A., Judkins, D. R., and Wingless, M. (2002). Large-scale imputation for complex survey, Chapter 22, in Survey Nonresponse. New York:Wiley.
18. Meilijson, I. (1989). A fast improvement to the EM algorithm on its own terms. J. Roy. Statist. Soc. B51, 127-138.
19. Meng, Xiao-Li. (1994). Multiple imputation inferences with uncongenial sources of input. Statist. Sci. 9, 538-573.
20. Reilly, M. (1993). Data analysis using hot-deck multiple imputation. Statistician. 42, 307-313.
21. Rosenbaum, P. R., and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika. 70, 41-55.
22. Ross, S. M. (2002). Simulation. 3rd edition. San Diego : Academic Press.
23. Rubins, J. M., and Wang, N. (2000). Inference for imputation estimators. Biometrika. 87, 113-124.
24. Rubin, D. B. (1976). Inference and missing data. Biometrika. 63, 581-592.
25. Rubin, D. B. (1978). Multiple imputations in sample surveys, Proc. Survey Res. Meth. Sec., Am. Statist. Assoc. 1978, 20-34.
26. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York:Wiley.
27. Rubin, D. B. (1996). Multiple imputation after 18+ years. J. Am. Statist.Assoc. 91, 473-489.
28. Ruud, P. A. (1991). Extensions of estimation methods using the EM algorithm. Journal of Econometrics. 49, 305-341.
29. Schenker, N., and Welsh, A. H. (1988). Asymptotic resulits for multiple imputation. The Annals of Statistics. 16, 1550-1566.
30. Sitter, R. R., and Rao, J. N. K. (1997). Imputation for missing values and corresponding variance estimation. The Canadian Journal of Statistics. 25, 61-73.
31. Tanner, M. A. (1996). Tools for statistical inference : methods for the exploration of posterior distributions and likelihood functions. 3rd edition. New York : Springer-Verlag.
32. Wang, N., and Rubins, J. M. (1998). Large-sample theory for parametric multiple imputation. Biometrika. 85, 935-948.
33. Zacks, S. (1992). Introduction to reliability analysis : probability models and statistical models. New York : Springer-Verlag.
指導教授 呂理裕(Lii-Yuh Leu) 審核日期 2004-6-21
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡