博碩士論文 102453019 詳細資訊




以作者查詢圖書館館藏 以作者查詢臺灣博碩士 以作者查詢全國書目 勘誤回報 、線上人數:5 、訪客IP:3.94.129.211
姓名 江明哲(Ming-Che Chiang)  查詢紙本館藏   畢業系所 資訊管理學系在職專班
論文名稱 資料探勘技術應用於航空業航班延誤分析-以C公司為例
相關論文
★ 利用資料探勘技術建立商用複合機銷售預測模型★ 應用資料探勘技術於資源配置預測之研究-以某電腦代工支援單位為例
★ 全球供應鏈下新產品的安全控管-以C公司為例★ 資料探勘應用於半導體雷射產業-以A公司為例
★ 應用資料探勘技術於空運出口貨物存倉時間預測-以A公司為例★ 使用資料探勘分類技術優化YouBike運補作業
★ 特徵屬性篩選對於不同資料類型之影響★ 資料探勘應用於B2B網路型態之企業官網研究-以T公司為例
★ 衍生性金融商品之客戶投資分析與建議-整合分群與關聯法則技術★ 應用卷積式神經網路建立肝臟超音波影像輔助判別模型
★ 基於卷積神經網路之身分識別系統★ 能源管理系統電能補值方法誤差率比較分析
★ 企業員工情感分析與管理系統之研發★ 資料淨化於類別不平衡問題: 機器學習觀點
★ 生物式基因演算法-以避難據點之人員分配與賑災物資配送規劃為例 與賑災物資配★ 基於關鍵點篩選於袋字模型之影像分類
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [相關文章]   [文章引用]   [完整記錄]   [館藏目錄]   至系統瀏覽論文 ( 永不開放)
摘要(中) 導致航班延誤的原因眾多,概分可控制因素如航空公司自身因素、機場地面作業、機務維護不周、航班調度不當等;以及不可控制因素如天氣因素、空中管制、機械故障等。對於航班延誤相關的研究有以法律面討論延誤賠償、以統計方式進行分析研究等,目前較少文獻利用資料探勘方式進行探討。本研究以個案公司以2004年至2014年由台北起飛航班資料進行延誤原因分析,對於航班延誤與上述延誤因素進行分類技術探討其相關性進而發掘出有用資訊期能對個案公司與學術界提供參考。
實驗步驟本研究以WEKA3.6.10資料探勘工具進行資料分析,資料集部份以2004至2013年台北起飛航班資料依年份作為區分。Class Label設計為延誤等級及是否延誤兩種,再依Class Label將資料內容調整分為所有航班資料及只分析延誤航班最後產生三組資料集,搭配資訊增益 (Information Gain) 、基因演算法 (Genetic Algorithm) 、不做特徵選取(No Feature Selection) 資料處理方式,再以決策樹 (C4.5、CART) 、支援向量機 (Support Vector Machine) 分類方式,多重分類器部分以Adaboost與Bagging進行航班延誤分析,決定出最佳預測模型與平均最佳預測模型後再以2014年航班資料進行驗證模型是否有較佳的預測能力。
經實驗結果歸納特徵選取部分不進行任何特徵選取、使用Ada Boost - Simple CART多重分類器、採用2004年航班資料進行Training Data組合之預測模型整體來看可以得到最佳的預測準確率。以資料筆數與預測準確率趨勢來看呈現反比情形,也就是資料筆數愈多準確率會隨之下降;對於錯誤歸類成本航空公司對於預測準時實際延誤預測誤差預測錯誤成本較預測延誤實際準時預測錯誤成本相對較高,本研究所建立的預測模型產生出的預測錯誤成本情形在此部份呈現較低比率顯示此模型有較佳預測錯誤成本。在預測模型判斷延誤情形綜整分析得出預測延誤最大宗為機務維護,對於未來延誤的預防可以由改善機務地停檢查及修護流程改善以縮短作業時間降低航班延誤著手供個案公司及日後相關研究參考。
摘要(英) Flight delays can be caused by many reasons. Some factors are controllable such as factors relating to airlines’ factors, airport ground handling, aircraft maintenance, improper flight scheduling. On the other hand, there are some uncontrollable factors, such as weather, air traffic control, mechanical failure. For the related studies of flight delays, very few explore the use of data mining methods. This research focuses on an airline corporation and the main factors to the cause of the delay of Taipei flight are collected from 2004 to 2014 as the dataset. Data mining techniques are used to discover useful information about flight delays and can provide some guidelines for the company and academia about the delay factors.
The experiments were conducted by WEKA3.6.10. The information focuses on annual departure of airlines from 2004 to 2013, and the Class Label design is based on the flight delay. In addition, two feature selection methods are used to select representative features from the dataset, which are information gain and the genetic algorithm. The decision trees (C4.5 and CART), support vector machine (SVM), and multiple classifiers by bagging and boosting are developed as the prediction models for comparison. Furthermore, the data of 2014 are used to validate some better prediction models.
Our research has evidently showed that using the training data of 2004 flight information and highly predictable model is the most accurate research method. The increased quantity of the data and the performances of the prediction methods have presented contrasting results, which means that higher quantity data will result in the loss of the predictability of the airlines. According to the incorrect prediction of airline delays, our logical explanation has concluded that when the delayed of flights has been incorrectly predicted, it results in the massive loss of production cost. This research has identified the better prediction models of flight delays for the airline companies. We have found that the greatest cause of the delayed of airlines based on our prediction models is due to the lack of regular maintenance on the machineries. We should perform regular machinery check-ups and reorganize airline schedules in order to prevent future accidents and effectively reduce the operation time and flight delayed time.
關鍵字(中) ★ 航班延誤
★ 資料探勘
★ 資料前處理
★ 單一分類器
★ 多重分類器
關鍵字(英) ★ flight delays
★ data mining
★ data pre-processing
★ single classifier
★ multiple classifier
論文目次 摘要 i
ABSTRACT ii
誌謝 iii
目錄 iv
表目錄 vii
圖目錄 viii
一、緒論 1
1.1研究背景與動機 1
1.2 研究目的 3
1.3研究範圍 4
二、文獻探討 5
2.1 航班延誤 5
2.1.1 延誤的認定 5
2.1.2 航空班機延誤的認定 5
2.1.3 班機延誤事件原因 6
2.2 資料探勘 7
2.2.1 資料探勘的定義 7
2.2.2 資料探勘的目的 7
2.3 特徵選取 (Feature Selection): 8
2.3.1 基因演算法(Genetic Algorithm) 8
2.3.2 資訊增益 (Information gain) 9
三、研究方法 11
3.1資料集介紹 11
3.2資料前處理 13
3.2.1 資料清理(data cleaning): 13
3.2.2 資料轉換(data transformation) 14
3.2.3 特徵抽取(feature extraction) 15
3.2.4 特徵選取 (Feature Selection) 19
3.3 分類器選擇設計 23
3.3.1 決策樹 23
3.3.2 支援向量機(Support Vector Machine) 26
3.3.3 多重分類器 26
3.4 模式之敏感度與精確度的檢驗 28
3.5 錯誤歸類成本 28
四、實驗分析 30
4.1單一分類器 31
4.1.1以資料集分析 31
4.1.2以特徵選取方式分析 35
4.1.3以分類器分析 39
4.1.4以年份分析 43
4.2多重分類器 54
4.2.1 Bagging 54
4.2.2 AdaBoost 57
4.2.3 綜合分析 60
4.3 分析與驗證 61
五、結論 67
5.1結論貢獻 67
5.2 未來研究 69
參考文獻 70
中文 70
英文 71
附錄 73
1. 航班預測準確率彙整表 - By 資料集 73
Delay YN: 73
Delay LVL: 74
All Delay: 74
2. 航班預測準確率彙整表 - By 特徵選取 75
Info Gain: 75
Genetic Search: 75
No Feature Selection: 76
3. 航班預測準確率彙整表 - By 分類器 77
單一分類器: 77
多重分類器: 79
航班預測準確率彙整表 - By 年份 82
2004年: 82
2005年: 82
2006年: 82
2007年: 83
2008年: 83
2009年: 84
2010年: 84
2011年: 84
2012年: 85
2013年: 85
4. 航班預測準確率彙整表 – 2014驗證 86
單一分類器 86
多重分類器 86
參考文獻 中文
1.周加恩 (2012) ,「網路安全偵測之分類效能提昇」,國防大學理工學院 資訊工程學系資訊工程碩士班碩士學位論文。
2.林明勳 (2013) ,「自動化觸控面板製造品質預測模式之研究」國立中山大學資訊管理學系碩士論文。
3.侯育周 (2007) ,「隨機性班機到離延誤下動態機門指派之研究」,國立中央大學土木工程學系碩士論文。
4.洪振富 (2010) ,「距離式特徵於資料自動分類之研究」國立中央大學資訊管理學系碩士論文。
5.范有寧、黃聖祐、陳靜枝 (2010) ,「運用資料探勘輔助商品分類之需求預測方法」,資訊管理學報第十七卷專刊。
6.高棋楠 (2012) ,「資料探勘技術建構財務危機公司預警模式之研究」國立中正大學會計與資訊科技研究所碩士論文。
7.張耀明 (1999) ,「台灣城際旅行時間可靠度之分析與量測研究」,國立交通大學交通運輸研究所碩士論文。
8.陳彥琴 (2005) ,「應用灰色理論預測新上市之生技保健食品銷售量」,國立成功大學工業與資訊管理學系碩士在職專班論文。
9.黃意真 (2000) ,「班機延誤賠償之研究」,國立交通大學交通運輸研究所碩士論文。
10.楊正三、莊麗月、陳禹融、楊正宏 (2008) ,「利用資訊增益與瀰集演算法於基因微陣列之特徵選取與分類問題」,資訊科技國際研討會論文集。
11.葉建良 (2006) ,「利用CART分類與迴歸樹建立消費者信用貸款違約風險評估模型之研究-以國內A銀行為例」天主教輔仁大學應用統計研究所碩士論文。
12.廖學華 (2005) ,「以加權隨機子空間法為基礎之多重分類器系統」國立臺中教育大學教育測驗統計研究所碩士論文。
13.蔡世昌 (2012) ,「航空網路中航班延誤之因果模式」,國立交通大學交通運輸研究所博士論文。
14.蕭舜益 (2005) ,「運用關聯法則探勘於初等教育資料分析 – 以體適能為例」朝陽科技大學資訊管理系碩士論文。

英文
1.Abdelghany, K.F., Shah, S.S., Raina, S., Abdelghany, A.F.,(2004). A model for projecting flight delays during irregular operation conditions. Journal of Air Transport Management 10, 385-394.
2.AhmadBeygi, S., Cohn, A., Guan, Y., Belobaba, P., (2008). Analysis of the potential for delay propagation in passenger airline networks. Journal of Air Transport Management 14, 221-236.
3.Brighton, H. and Mellish, C. (2002) Advances in instance selection for instance-based learning algorithms. Data Mining and Knowledge Discovery, vol. 6, pp. 153-172.
4.Burges, C.J.C. (1998).A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 121-167.
5.C. J. C. Burges, (1998) .A tutorial on support vector machines for pattern recognition, Data Mining and Knowledge Discovery, Vol. 2, No. 2.
6.C.-F. Tsai, (2009) . Feature selection in bankruptcy prediction, Knowledge-Based Systems, Vol. 22, No. 2, pp. 120-127.
7.C.-F. Tsai, McGarry, K., and Tait, J. (2006) CLAIRE: a modular support vector image indexing and classification system. ACM Transactions on Information Systems, vol. 24, no. 3, pp. 353-379.
8.Cavcar, A., Cavcar, M., (2004) .Impact of aircraft performance characteristics on air traffic delays. Turkish Journal of Engineering and Environmental Sciences 28, 13-23.
9.Cook, A.J., Tanner, G., 2011. European airline delay cost reference values:Final Report. Eurocontrol, Brussels, Belgium.
10.Dasgupta, A., Drineas, P., Harb, B., Josifovski, V., and Mahoney, M.W. (2007) . Feature selection methods for text classification. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 230-239.
11.Donald K, Andreas K, Charles R, (2012), Flight Delay Prediction, Master’s Thesis Nr. 49 Systems Group, Department of Computer Science, ETH Zurich in collaboration with Amadeus IT Group SA.
12.Fayyad, U. (1996), Data Mining and Knowledge Discovery in Databases, Communications of the ACM, 39, 11, 22-25.
13.Green, T., (2002) .Evaluating airline schedules for improved operational dependability, American Airlines.
14.Kotsiantis, S.B.“Supervised Machine Learning: A Review of Classification Techniques,"Informatica (31:1), 2007, pp. 249-268.
15.Quinlan. J. R., “Induction of decision trees,” Machine Learning, No. 1, pp. 81-106, (1986)
16.Reinartz, T. (2002) A unifying view on instance selection. Data Mining and Knowledge Discovery, vol. 6, pp. 191-210.
17.Sikora Riyaz, Piramuthu Selwyn, (2007) . Framework for efficient feature selection in genetic algorithm based data mining, European Journal of Operational Research, Vol. 180, Issue 2, pp. 723-737.
指導教授 蔡志豐 審核日期 2015-6-22
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   
網路書籤 Google bookmarks   del.icio.us   hemidemi   myshare   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡  - 隱私權政策聲明