博碩士論文 107522069 詳細資訊




以作者查詢圖書館館藏 以作者查詢臺灣博碩士 以作者查詢全國書目 勘誤回報 、線上人數:24 、訪客IP:3.144.118.82
姓名 黃詩芸(Shi-Yun Huang)  查詢紙本館藏   畢業系所 資訊工程學系
論文名稱
(Data Exploration on Climate Text Records through Natural Language Processing and Statistical Analysis–An attempt to experiment on temperature and locusts relative events during Ming and Qing Dynasty)
相關論文
★ A Real-time Embedding Increasing for Session-based Recommendation with Graph Neural Networks★ 基於主診斷的訓練目標修改用於出院病摘之十代國際疾病分類任務
★ 混合式心臟疾病危險因子與其病程辨識 於電子病歷之研究★ 基於 PowerDesigner 規範需求分析產出之快速導入方法
★ 社群論壇之問題檢索★ 非監督式歷史文本事件類型識別──以《明實錄》中之衛所事件為例
★ 應用自然語言處理技術分析文學小說角色 之關係:以互動視覺化呈現★ 基於生醫文本擷取功能性層級之生物學表徵語言敘述:由主成分分析發想之K近鄰算法
★ 基於分類系統建立文章表示向量應用於跨語言線上百科連結★ Code-Mixing Language Model for Sentiment Analysis in Code-Mixing Data
★ 藉由加入多重語音辨識結果來改善對話狀態追蹤★ 對話系統應用於中文線上客服助理:以電信領域為例
★ 應用遞歸神經網路於適當的時機回答問題★ 使用多任務學習改善使用者意圖分類
★ 使用轉移學習來改進針對命名實體音譯的樞軸語言方法★ 基於歷史資訊向量與主題專精程度向量應用於尋找社群問答網站中專家
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [相關文章]   [文章引用]   [完整記錄]   [館藏目錄]   [檢視]  [下載]
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 氣候變遷一直是國際關注的議題,其中歷史氣候研究也是探討氣 候問題過程中重要的一環。因為歷史氣候研究的定義可能依據不同的 資料來源和研究方法有所不同,本研究主要針對歷史文獻的分析方法 進行探討。本研究報告的主體是一個資料探索 (Data Exploration) 的過 程,分析對象為《中國三千年氣象記錄總集》中明、清時期氣候事件 相關的文字記錄,並嘗試在分析過程中導入文字探勘 (Text Mining) 技 術以及氣候模式模擬出的數據資料。 研究內容主要可拆分為兩大部分:第一部分為文字探勘,目標 從非結構化的文本資料中抽取出對後續分析有用的資訊。氣候類型 的分類標準和訓練資料均參考自 REACHES 的研究;分類模型則參考 BERT 所提出的深度學習架構,調整訓練下游分類任務 (Fine-tuning) 的 方法後,運用架構中的自注意力機制 (self-attention mechanism) 設計出 一套多標籤分類方法,同時能夠利用多標籤分類的結果萃取每個類別 各自所對應到的關鍵字。運用自動化蒐集而來的關鍵字列表,可再經 人工過適度的檢查和調整,再依據關鍵字之間的特性附加關鍵字屬性 生成關聯式資料表 (庫),後續即可根據不同研究目標彈性地運用「類 別標籤」、「關鍵字」以及「關鍵字屬性」抽取相關資料。第二部分則 是透過上述方法抽取資料後,運用敘述統計和視覺化方法呈現資料的 時空分佈及整體趨勢,初步選定氣溫異常及蝗蟲 (災) 相關的紀錄整理 出觀察結果,同時探討紀錄資料的特性與限制,以及進一步搭配氣候 模式模擬資料研究的可能性。
摘要(英) This study reports a data exploration process of experiments with historical records that record climate-relevant events. Data exploration techniques can help data analysts efficiently figure out the contour of data through visual exploration. Before exploration, our goal was to extract useful information from the unstructured text data, using the Compendium of Meteorological Records of China in the Last 3000 Years, during the Ming and Qing dynasties, as our text resource.
The research consists of two main parts. The first part is text mining. We proposed a method to extract label-specific keywords by a multi-label classification model, which refers to BERT’s deep learning architecture. We can utilize each class’s keywords and attach some predefined attributes to keywords as our metadata information. In the second part, we conducted a spatial-temporal statistical analysis, combined with visualization methods, to observe the records’ overall pattern and characteristics about temperature anomalies and locusts events.
關鍵字(中) ★ 歷史氣候文獻
★ 資料探索
★ 文字探勘
★ 多標籤分類
★ 關鍵字擷取
★ BERT
關鍵字(英) ★ Historical Climate Research
★ Data Exploration
★ Text Mining
★ Multi-label Classification
★ Keyword Extraction
★ BERT
論文目次 中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
謝誌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Table of Contents . . . . . . . . . . . . . . . . . . . . . . . . . . vii Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
1、 Introduction . . . . . . . . . . . . . . . . . . . . . 1
2、 Related Work . . . . . . . . . . . . . . . . . . . . 3
2-1 REACHES . . . . . . . . . . . . . . . . . . . . . 3
2-2 HAN . . . . . . . . . . . . . . . . . . . . . . . . . 3
2-3 BERT . . . . . . . . . . . . . . . . . . . . . . . . 4
2-4 Transformer . . . . . . . . . . . . . . . . . . . . . 4
2-5 LaMP . . . . . . . . . . . . . . . . . . . . . . . . 4
3、 Proposed Methods . . . . . . . . . . . . . . . . . . 5
3-1 Workflow . . . . . . . . . . . . . . . . . . . . . . 5
3-2 Text Mining . . . . . . . . . . . . . . . . . . . . . 5
3-2-1 Classical Chinese Language Model Pre-Training . . 5
3-2-2 Text Classification . . . . . . . . . . . . . . . . . . 5
3-2-3 Visualization of Self-attention and Keyword Extraction 9
3-2-4 Structure of original Data with new attributes . . . . 10
3-3 Statistics and Visualization . . . . . . . . . . . . . 10
4、 Experiments . . . . . . . . . . . . . . . . . . . . . 13
4-1 Classical Chinese Language Model . . . . . . . . . 13
4-2 Multi-label Classification . . . . . . . . . . . . . . 15
4-2-1 Dataset . . . . . . . . . . . . . . . . . . . . . . . 15
4-2-2 Multi-label Classification Model . . . . . . . . . . 16
4-2-3 Result . . . . . . . . . . . . . . . . . . . . . . . . 17
5、 Data Exploration through the Case Studies . . . . . 19
5-1 Background . . . . . . . . . . . . . . . . . . . . . 19
5-2 How we picked out these items . . . . . . . . . . . 21
5-3 China Temperature Anomalies Records from 1368 A.D. to 1912 A.D. . . . . . . . . . . . . . . . . . . 22
5-3-1 Temperature Keyword Table . . . . . . . . . . . . 22
5-3-2 Observation . . . . . . . . . . . . . . . . . . . . . 23
5-4 China Locusts Records from 1368 C.E. to 1912 C.E. 29
5-4-1 Pests Keyword Table . . . . . . . . . . . . . . . . 29
5-4-2 Observation . . . . . . . . . . . . . . . . . . . . . 30
6、 Conclusion . . . . . . . . . . . . . . . . . . . . . 37
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
參考文獻 [1] Oded Maimon and Lior Rokach. Introduction to knowledge discovery and data mining. In Data mining and knowledge discovery handbook, pages 1–15. Springer, 2009.
[2] Marti A Hearst. Untangling text data mining. In Proceedings of the 37th Annual meeting of the Association for Computational Linguistics, pages 3–10, 1999.
[3] Stratos Idreos, Olga Papaemmanouil, and Surajit Chaudhuri. Overview of data exploration techniques. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, pages 277– 281, 2015.
[4] 張德二. 中國三千年氣象記錄總集(全 4 冊). 江蘇教育出版社, 大 陸.
[5] 王绍武 and 王日升. 1470 年以来我国华东四季与年平均气温变化 的研究. PhD thesis, 1990.
[6] 竺可桢. 中国近五千年来气候变迁的初步研究. Scientia Sinica (in Chinese), 3(2):168–189, 1973.
[7] 满志敏. 中国历史时期气候变化研究. 山东教育出版社, 2009.
[8] 张丕远. 中国历史气候变化. 山东科学技术出版社, 1996.
[9] Pao K Wang, Kuan-Hui Elaine Lin, Yi-Chun Liao, Hsiung-Ming Liao, Yu-Shiuan Lin, Ching-Tzu Hsu, Shih-Ming Hsu, Chih-Wei Wan, ShihYu Lee, I-Chun Fan, et al. Construction of the reaches climate database based on historical documents of china. Scientific data, 5(1):1–14, 2018. 39
[10] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. Hierarchical attention networks for document classification. In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 1480–1489, 2016.
[11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017.
[13] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. arXiv preprint arXiv:1409.3215, 2014.
[14] Jack Lanchantin, Arshdeep Sekhon, and Yanjun Qi. Neural message passing for multi-label classification. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 138– 163. Springer, 2019.
[15] Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018.
[16] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.
[17] Jesse Vig. A multiscale visualization of attention in the transformer model. arXiv preprint arXiv:1906.05714, 2019.
[18] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D Manning. What does bert look at? an analysis of bert’s attention. arXiv preprint arXiv:1906.04341, 2019.
[19] Yu Zhang and Qiang Yang. A survey on multi-task learning. arXiv preprint arXiv:1707.08114, 2017. 40
[20] 王绍武, 叶瑾琳, 龚道溢, 朱锦红, and 姚檀栋. 近百年中国年气温序 列的建立 ξ. 应用气象学报, 9(4):392–401, 1998.
[21] 王绍武, 蔡静宁, 朱锦红, and 龚道溢. 中国气候变化的研究. PhD thesis, 2002.
[22] 郑景云, 葛全胜, 方修琦, and 张学珍. 基于历史文献重建的近 2000 年中国温度变化比较研究. 气象学报, 65(3):428–439, 2007.
指導教授 蔡宗翰(Tzong-Han Tsai) 審核日期 2021-4-6
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   
網路書籤 Google bookmarks   del.icio.us   hemidemi   myshare   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡  - 隱私權政策聲明