姓名 陳重諺(Chong-Yan Chen)
畢業系所 資訊管理學系
論文名稱 電子病歷縮寫消歧與一對多分類任務
(Disambiguate clinical abbreviation by one-to-all classification)
★ 使用文字探勘與深度學習技術建置中風後肺炎之預測模型
摘要(中) 醫學領域隨著人工智慧發展,越來越多學者相繼提出醫學領域相關的機器學習研 究,其中自然語言處理亦是其中最熱門的研究問題。通過各種文字探勘模型的建立可 協助醫療輔助診斷、預後追蹤與醫療客服等不同的應用。
然而,這些研究所需的醫療文本資料,往往存在大量的縮寫字,若未能先進行縮 寫字詞的詞義消歧將限制後續醫療文本應用之可能性。因此,本研究將聚焦在臨床文 本縮寫字還原的問題。
過往研究的解決方式是透過以單詞為基礎之分類器,來將縮寫字還原成縮寫前的 狀態,但這樣的方法間接導致後續需要更改、維護、甚至使用上的複雜性增加。本研 究會使用多詞彙共用一個分類器作法,納入預訓練的 BERT 進行較為泛化的架構實作 與演算法開發,以期提高模型於臨床上的可用性。
本研究所提出之簡化架構可以降低部署的複雜流程,相較傳統方法取得 3%左右 正確率提升,使用上的彈性與可維護性更高,解決傳統架構需要重新訓練的問題。
摘要(英) With the growth of artificial intelligence, more researchers cultivate machine learning topics in the medical field. Natural language preprocessing is the hottest issue, many applications like assistant diagnosis, prognosis tracking, service chatbot......etc are relied on it.
To fulfill the above practices, a cleaning dataset for building a model is necessary; however, there are tons of ambiguous abbreviations in the electronic health record. If researchers don’t disambiguate them to their original senses, it would bring negative effects to performance.
Therefore, this content would discuss how to expand abbreviations in clinical data. In the previous approaches, most scholars built a classifier for every single term. This led to difficulty in deploying models and maintaining them. Thus, in this topic, we utilize pre-train BERT architecture to only build a model for all the terms. Trying to achieve higher usability in the real case.
In conclusion, the accuracy of our method got higher performance for 1 to 3 percentage than previous multi-model ways, but it has the advantage of flexibility and maintainability. Avoid the risk of re-train problems.
關鍵字(中) ★ 縮寫還原
★ 文字探勘
★ 詞義消歧
關鍵字(英) ★ abbreviation expansion
★ text mining
★ word sense disambiguation
論文目次 摘要 i
Abstract ii
目錄 iv
圖目錄 vi
表目錄 vii
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 3
1.3 研究目的 5
第二章 文獻探討 6
2.1 詞義消歧 6
2.2 縮寫還原 8
2.3 語境詞嵌入(Contextualized Word Embeddings) 9
第三章 研究方法 11
3.1 資料集 12
3.1.1 MSH WSD資料集 12
3.1.2 UMN資料集 13
3.2 資料前處理 13
3.2.1 Context-candidate pair格式產生 13
3.2.2 將文本轉換成BERT可接受的輸入 14
3.3 調適BERT 19
3.4 實驗設計 21
3.4.1 詞義消歧正確性測試 21
3.4.2 臨床縮寫還原表現測試 22
3.4.3 OOV(Out Of Vocabulary)測試 23
3.5 評估指標 23
第四章 實驗結果與分析 25
4.1 醫學期刊詞義消歧準確度評估 25
4.2 臨床縮寫字還原準確度評估 26
4.3 OOV實驗 27
第五章 研究結論與建議 31
5.1 研究結論 31
5.2 研究限制 32
5.2.1 模型限制 32
5.2.2 修剪算法的限制 32
5.2.3 不同科別的慣用法 33
5.3 未來研究方向與建議 33
參考文獻 35
指導教授 胡雅涵 曾筱珽(Ya-Han Hu Hsiao-Ting Tseng) 審核日期 2022-7-13
