摘要(英) |
In the aftermath of the 2018 US-China trade dispute and the subsequent impact of COVID-19, our country has experienced a significant increase in the manufacturing output of servers. The CPU, a crucial component within servers, plays a pivotal role in core operations, closely tied to the overall performance of server applications. With the introduction of a multitude of specifications for next-generation CPU products by manufacturers to meet the demands of various new applications, the verification burden on server development and experimental validation has increased. This necessitates rapid validation of various CPU product specifications while ensuring efficient resource utilization, particularly in the thermal testing process.
To address this challenge, this study employs various data mining methods to construct predictive models based on the analysis of the correlation between CPU thermal validation results and key data points. The objective is to identify the optimal predictive model applicable to server CPU thermal validation results. Early estimation of CPU thermal validation results allows the simplification of testing and validation procedures and related costs when making system design changes or configuring components with different specifications.
The research focuses on the thermal validation department of a leading US server manufacturing company, using actual thermal validation data and results from January 2020 to July 2023. The SAS Enterprise Miner (EM) software is employed to establish predictive models using five data mining methods: Logistic regression, Artificial neural network, Decision tree, Gradient Boosting Decision Tree, and Random forest. The overall predictive performance of these models is evaluated, and the Random Forest model is identified as relatively optimal, achieving a correct classification rate of 92.7% on the test set.
After establishing the predictive model, the SAS Enterprise Miner (EM) scoring prediction function is utilized to analyze and predict the classification results of the original data to be predicted. The results demonstrate the successful output of calculated probability values and predictions using the Random forest model. Through actual verification and comparison of "model predicted data" with "actual thermal validation data" classification results, the predictive capability of the Random forest model is confirmed to be relatively reliable. This indicates the practical applicability of the predictive model to forecast CPU thermal validation results for the case company.
Assuming the case company adopts the predictive model as part of the result determination method for some thermal validation experiments, the main effects include saving approximately 1400 hours of time consumption cost for verification over a one-year execution period for 20 systems. The secondary effects, such as enhancing the utilization of environmental testing chamber equipment and reducing labor costs associated with verification, result in additional benefits. In summary, the established predictive model, the Random forest, proves effective in assisting in improving the efficiency of server CPU thermal validation. However, it is acknowledged that there may be some limiting factors not fully addressed in the research and modeling process. Therefore, it is recommended that future researchers consider more potential influencing factors and include them as analysis items and content in their research. This includes continuously adjusting the model to reduce the misclassification rate by integrating predictive modeling with actual verification results, establishing predictive models for different cooling technologies, exploring and establishing GPU predictive models, analyzing the predictive capabilities of models established from databases of different server brands, and evaluating the use of other data mining techniques for analysis and modeling. |
參考文獻 |
中文文獻
1. ALPHAcamp (2021)。資料清理與型態調整:資料前處理必須要做的事。檢自: https://tw.alphacamp.co/blog/data-processing-and-data-cleaning。(上網日期:2023年11月02日)。
2. AWS (2023a)。什麼是資料挖掘。檢自: https://aws.amazon.com/tw/what-is/data-mining/。(上網日期:2023年10月26日)。
3. AWS (2023b)。什麼是特徵工程。檢自: https://aws.amazon.com/tw/what-is/feature-engineering/。(上網日期:2023年11月05日)。
4. Chung, Y. (2019)。ML入門(十七)隨機森林(Random Forest)。檢自: https://medium.com/chung-yi/ml%E5%85%A5%E9%96%80-%E5%8D%81%E4%B8%83-%E9%9A%A8%E6%A9%9F%E6%A3%AE%E6%9E%97-random-forest-6afc24871857。(上網日期:2023年11月05日)。
5. GIGABYTE (2022)。三個簡單步驟,輕鬆挑選伺服器冷卻方案。檢自: https://www.gigabyte.com/tw/Article/how-to-pick-a-system-cooling-solution-in-3-easy-steps。(上網日期:2023年10月27日)。
6. HENNGE (2020)。遠距工作四大要素。檢自: https://hennge.com/tw/blog/how-to-work-remotely.html。(上網日期:2023年10月16日)。
7. IDC與經濟日報(2023)。伺服器2021~2026成長動能預估。檢自: https://money.udn.com/money/story/11162/6929900。(上網日期:2023年10月16日)。
8. Intel (2023a)。電腦散熱:保持電腦不過熱的重要性。檢自: https://www.intel.com.tw/content/www/tw/zh/gaming/resources/pc-cooling-the-importance-of-keeping-your-pc-cool.html。(上網日期:2023年10月2日)。
9. Intel (2023b)。CPU 散熱器:水冷式Vs.氣冷式。檢自: https://www.intel.com.tw/content/www/tw/zh/gaming/resources/cpu-cooler-liquid-cooling-vs-air-cooling.html。(上網日期:2023年10月27日)。
10. Microsoft (2022a)。資料採礦概念。檢自: https://learn.microsoft.com/zh-tw/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions。(上網日期:2023年10月26日)。
11. Microsoft (2022b)。Microsoft 羅吉斯迴歸演算法技術參考。檢自: https://learn.microsoft.com/zh-tw/analysis-services/data-mining/microsoft-logistic-regression-algorithm-technical-reference?view=asallproducts-allversions。(上網日期:2023年11月09日)。
12. Microsoft (2023)。準備增強型機器學習的資料。檢自: https://learn.microsoft.com/zh-tw/azure/architecture/data-science-process/prepare-data。(上網日期:2023年11月02日)。
13. Nextlink (2023)。資料清洗是甚麼? 數據分析前一定要這樣做。檢自: https://www.nextlink.cloud/news/data-cleansing-introduction/。(上網日期:2023年11月02日)。
14. SAS (2019)。5分鐘輕鬆建模型。檢自: https://www.acc.ntpu.edu.tw/lyadmin/pages/uploads/file/cus2_js802znbrb.pdf。(上網日期:2023年11月05日)。
15. SAS (2023a)。你所不知道的SAS。檢自: http://learning.cc.nthu.edu.tw/var/file/319/1319/img/262/389505344.pdf。(上網日期:2023年11月09日)。
16. SAS (2023b)。SAS Enterprise Miner。檢自:
https://blogs.sas.com/content/sastaiwan/sas-enterprise-miner/。(上網日期:2023年11月09日)。
17. 上海交通大學(2020)。HPL簡介。檢自: https://docs.hpc.sjtu.edu.cn/app/benchtools/hpl.html。(上網日期:2023年10月20日)。
18. 工商時報(2018)。電子代工廠產線搬遷狀況。檢自: https://www.chinatimes.com/newspapers/20180910000173-260202?chdtv。(上網日期:2023年10月15日)。
19. 天下雜誌與中菲行集團(2019)。統計2019年Q1亞洲各國對美國伺服器出口成長率(%)。檢自: https://www.cw.com.tw/article/5095853?template=transformers。(上網日期:2023年10月16日)。
20. 王良遇(2022)。以CPU計算為主時的服務器功耗差異研究。電腦編程技巧與維護,第10期,第170-173頁。
21. 王來旺、呂宜倫(2016)。應用決策樹分析於資料探勘之研究-以預測混凝土抗壓強度為例。商業現代化學刊,第8卷2期,第115-130頁。
22. 王智立、洪詩婷(2019)。運用資料採礦技術於家庭收支調查之研究。數據分析,第14卷6期,第1-20頁。
23. 王智立、陳弘曄(2022)。應用資料採礦技術於大學畢業生轉職傾向之預測研究。智慧科技與應用統計學報,第20卷1期,第1-26頁。
24. 王智立、黃婷(2014)。不同的資料採礦方法於教師教學評量之比較研究。數據分析,第9卷1期,第75-91頁。
25. 甘景福、賀鵬康、李永剛(2020)。基於數據挖掘演算法的變壓器熱點溫度時序預測方法。河北工業科技,第6期,第394-400頁。
26. 自由時報(2023)。台灣新皇冠 此產業奪全球第一。檢自: https://ec.ltn.com.tw/article/breakingnews/4373899。(上網日期:2023年9月22日)。
27. 艾比酷統計顧問公司(2021)。ROC CURVES知多少。檢自: https://epicdatastudio.xyz/roc-curves-%E7%9F%A5%E5%A4%9A%E5%B0%91-%E4%B8%80/。(上網日期:2023年11月09日)。
28. 吳建廷、程秀蘭、胡雅涵、童建學、彭子安(2016)。比較三種資料探勘演算法預測類風溼性關節炎預後之研究。北市醫學雜誌,第13卷3期,第98-110頁。
29. 李永翔、郭南榮(2013)。運用資料探勘技術分析熱帶海水表面溫度。航測及遙測學刊,第17卷2期,第135-148頁。
30. 李航(2022)。機器學習聖經:最完整的統計學習方法。臺北市:深智數位股份有限公司。
31. 杜鳳棋(2010)。CPU散熱效能的研究。先進工程學刊,第5卷1期,第69-75頁。
32. 林祥生、劉益豪(2008)。應用資料採礦探討國際線航空旅客之線上購票行為。運輸計劃季刊,第37卷2期,第197-236頁。
33. 金育妍、餘天豪、王松波、林偉偉、潘宇聰(2022)。ARM架構雲服務器的CPU功耗模型研究。計算機科學,第10期,第59-65頁。
34. 冠輝技控公司(2022)。熱電偶之材質。檢自: https://www.oneway.com.tw/r-thermocoulple.html。(上網日期:2023年10月29日)。
35. 孫莓婷、丁台怡(2012)。資料採礦中的模型選取。數據分析,第7卷3期,第87-104頁。
36. 張雅芳(2022)。資料科學輕鬆學(原著: Maheshwari, A. )。臺北市:碁峰資訊股份有限公司。
37. 梁世雄、行政院農業委員會林務局(2015)。行政院農業委員會林務局-利用生活史資料評估外來動物入侵衝擊之分析與應用。高雄師範大學-行政院農業委員會林務局補助研究計畫。
38. 陳立榜、周尹婷(2016)。運用資料採礦於銷售績效分析-以Clementine為例。數據分析,第11卷4期,第157-174頁。
39. 陳錦輝、馬小康(2016)。伺服器內散熱器及風扇之節能分析。技術學刊,第31卷3期,第185-191頁。
40. 陳麒文、李天行、梁玉秋(2014)。建構美國職棒大聯盟的勝隊預測模式:以人工類神經網路方式。大專體育學刊,第16卷2期,第167-181頁。
41. 富果公司(2022)。雲端服務商機!白話文解構「伺服器產業」。檢自:https://blog.fugle.tw/server-report-2022/。(上網日期:2023年9月26日)。
42. 富果公司(2023)。氣冷、液冷是什麼?讓伺服器效能穩定的「散熱技術」有哪些發展趨勢。檢自: https://blog.fugle.tw/cooling-and-radiating/。(上網日期:2023年10月27日)。
43. 曾新穆、李建億(2004)。資料探勘。臺北市:東華書局。
44. 新通訊元件雜誌(2019)。中央處理器幕後打理一切彈性平臺開創人工智慧榮景。檢自: https://www.2cm.com.tw/2cm/zh-tw/tech/43D4EF0386FE4DF487BDB1D3761A04A9。(上網日期:2023年9月22日)。
45. 經濟日報(2022)。兆元大商機!最強12伺服器業者出爐。檢自: https://money.udn.com/SSI/2022/server_12/index.html?topic。(上網日期:2023年9月22日)。
46. 經濟部產業技術司(2021)。全球餐飲供應鏈快速演化:新形態+新通路。檢自: https://www.moea.gov.tw/MNS/doit/industrytech/IndustryTech.aspx?menu_id=13545&it_id=365。(上網日期:2023年10月16日)。
47. 經濟部統計處(2023a)。受惠台商回流效應及雲端服務需求,111年電腦製造業產值創佳績。檢自: https://www.moea.gov.tw/Mns/dos/bulletin/Bulletin.aspx?kind=9&html=1&menu_id=18808&bull_id=12376。(上網日期:2023年10月10日)。
48. 經濟部統計處(2023b)。經濟部產業經濟統計簡訊。檢自: https://www.moea.gov.tw/Mns/DOS/bulletin/wHandBulletin_File.ashx?file_id=40375。(上網日期:2023年10月17日)。
49. 葉怡成(2017)。資料探勘:程序與模式。臺北市:五南圖書出版股份有限公司。
50. 遊皓麟(2020)。預測之美:機器學習及深度學習真實生活應用。臺北市:深智數位股份有限公司。
51. 寧鵬毅、王婷、解博琳(2022)。基於I2C的CPU溫度監控功能設計與實現。資訊技術與資訊化,第3期,第92-95頁。
52. 廖述賢、溫志皓(2009)。資料採礦與商業智慧Data Mining and Business Intelligence。臺北市:雙葉書廊有限公司。
53. 蔡婷鈺、葉怡成、鄒明誠、李振民(2007)。以六種資料探勘方法分析影響集集大地震引起山崩之重要因子。中華林學季刊,第40卷1期,第69-79頁。
54. 盧輝(2013)。資料採擷與數據化運營實戰:思路、方法、技巧與應用。北京市:機械工業出版社。
55. 謝邦昌(2005)。資料採礦與商業智慧。臺北市:鼎茂圖書出版股份有限公司。
56. 趨勢科技(2023)。何謂資料探勘。檢自: https://www.trendmicro.com/zh_tw/what-is/machine-learning/data-mining.html。(上網日期:2023年10月26日)。
57. 簡禎富、許嘉裕(2014)。資料挖礦與大數據分析。新北市:前程文化事業有限公司。
英文文獻
58. 2CRSi group (2021). Air cooling. https://2crsi.com/air-cooling (accessed: 2023/09/28).
59. Abbas, A. M., Huzayyin, A. S., Mouneer, T. A., Nada, S. A. (2021). Effect of data center servers’ power density on the decision of using in-row cooling or perimeter cooling. Alexandria Engineering Journal, 60, 3855-3867.
60. AMD (2022a). AMD validation toolkit-power/system/thermal tool. https://www.amd.com/zh-tw.html (accessed: 2023/10/20).
61. AMD (2022b). AMD System Stress Test for Windows. https://fsdz.amd.com/adfs/ls/?wctx=tcJ154ovmBC2qZ3h4AgBUEQLiMwwcM8d&wtrealm=urn%3Aauth0%3Aamdese&wa=wsignin1.0 (accessed: 2023/10/20).
62. Anton, C. A., Matei, O., Avram, A. (2019). Collaborative Data Mining in Agriculture for Prediction of Soil Moisture and Temperature. Advances in Intelligent Systems and Computing, 984, 141-151.
63. ARCTIC (2023). Recommended fan curve. https://support.arctic.de/pwm-settings (accessed: 2023/10/29).
64. Devos, A., van Huffel, S., Simonetti, A.W., van der Graaf, M., Heerschap, A., Buydens, L.M.C. (2007). Classification of Brain Tumours by Pattern Recognition of Magnetic Resonance Imaging and Spectroscopic Data. Outcome Prediction in Cancer, 285-318.
65. ENERGY STAR (2023). Install In-rack or In-row Cooling. https://www.energystar.gov/products/install_in_rack_or_in_row_cooling (accessed: 2023/09/30).
66. Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27-34.
67. Guo, W., Wang, G., Wang, C., Wang, Y. (2023). Distribution network topology identification based on gradient boosting decision tree and attribute weighted naive Bayes. Energy Reports, 9, 727-736.
68. IBM (2023a). What is exploratory data analysis. https://www.ibm.com/topics/exploratory-data-analysis (accessed: 2023/11/02).
69. IBM (2023b). SPSS Statistics - Identifying Duplicate Cases. https://www.ibm.com/docs/en/spss-statistics/29.0.0?topic=preparation-identifying-duplicate-cases (accessed: 2023/11/05).
70. Intel (2023c). Platform Power Thermal Utility (PTU aka Maximum Power Program). https://designintools.intel.com/platform-power-thermal-utility-ptu-aka-maximum-power-program.html (accessed: 2023/10/20).
71. Intel (2023d). What Is Throttling and How Can It Be Resolved. https://www.intel.com/content/www/us/en/support/articles/000088048/processors.html (accessed: 2023/10/22).
72. Jain, P., Khare, S., Gourisaria, M. K. (2021). A Data Mining Solution to Predict Campus Placement. 2021 IEEE 4th International Conference on Computing, Power and Communication Technologies (GUCON), University of Malaya, Kuala Lumpur, Malaysia. Sep 24-26, 1-7.
73. Le, D.V., Liu, Y., Wang, R., Tan, R., Heng Ngoh, L. (2021). Air Free-Cooled Tropical Data Center: Design, Evaluation, and Learned Lessons. IEEE Transactions on Sustainable Computing, 7(3), 579-594.
74. PassMark Software (2023). BURNInTEST. https://www.passmark.com/products/burnintest/index.php (accessed: 2023/10/20).
75. Rafiei, N. (2023). Design an Algorithm based on Data Mining to Predict Diabetes. Iranian Journal of Diabetes and Metabolism, 23(1), 53-67.
76. SPEC CPU (2017). SPEC CPU2017 Documentation. https://www.spec.org/cpu2017/Docs/ (accessed: 2023/10/20).
77. SPEC CPU (2021). SPEC CPU2017 Result. https://www.spec.org/cpu2017/results/res2021q4/cpu2017-20211109-30053.html (accessed: 2023/10/20).
78. Super Micro Computer (2023a). Official website of SUPERMICRO. https://www.supermicro.com/zh_tw (accessed: 2023/09/26).
79. Super Micro Computer (2023b). GPU SuperServer. https://www.supermicro.com/zh_tw/products/system/gpu/5u/sys-521ge-tnrt (accessed: 2023/09/28).
80. Taghi Sattari, M., Dodangeh, E., Abraham, J. (2017). Estimation of Daily Soil Temperature Via Data Mining Techniques in Semi-Arid Climate Conditions. Earth Sciences Research Journal, 21(2), 85-93. |