姓名 曾昱翔(Yu-Xiang Zeng)  查詢紙本館藏   畢業系所 電機工程學系
論文名稱 運用句嵌入向量重排序器 增進中文醫療問答系統效能
(Enhancing Chinese Medical Question-Answering Performance with Sentence Embedding Reranker)
摘要(中) 真實生活中人們遇到醫療問題,經常藉由不同的管道,尋求醫生的建議與解答,而自動問答系統提供一個即時回覆答案的解決方案。本研究的主要目標為建立中文醫療問答系統,將問題輸入問答系統,從醫療問答資料集中,匹配找出最佳的答案返回給使用者。近年來,不同於傳統的詞彙匹配,深度學習的興起帶動了語義匹配的方式,深度語言模型能有效學習文本的語義訊息,並藉此找出相近的文本。許多研究均顯示出語義匹配的方法較傳統的方法得到更好的效果,因此,我們提出句嵌入向量重排序器 (Sentence Embedding Reranker, SER) 模型。
中文問答資料來自於醫聯網 (https://med-net.com/),資料集共有 26,816 筆醫療問答,我們使用 Pooling method 建立系統測試集,從 26,816 筆問題中取 120 筆問題作為測試問題,每個問題分別經過兩個不同的檢索系統 (BM25 以及 Sentence-BERT),返回100 筆答案,並人工標註其答案的正確性,最後取兩系統的聯集作為系統測試集。藉由實驗結果得知,我們提出的 SER 重排序器模型,在 MAP、NDCG 效能指標達到最好的分數,有效增進中文問答系統的檢索效能。
摘要(英) In the digital era, users usually search and browse web content to obtain healthcare related information before making a doctor’s appointment for diagnosis and treatment. The automatic question-answering system can provide a solution to address this need in real-time. Our main
research objective is to design and implement a Chinese medical question answering system.
In such a medical QA system, users issue a question as a query and then obtain relevant doctors’ answers in the ranked list. Different from traditional lexical matching methods, the deep learning-based semantic matching model can effectively learn the semantic features to retrieve
similar texts. Therefore, we propose a Sentence Embedding Reranker (SER) model to enhance the question-answering performance.
The Pooling method was used to combine the top 100 results returned by BM25 and Sentence-BERT retrieve systems for answer relevance annotation. Based on experimental results from these manual-annotated question-answer pairs, our proposed SER re-ranking model achieved the best results in MAP and NDCG, which can enhance the performance of the Chinese medical question-answering system.
關鍵字(中) ★ 醫療問答系統
★ 資訊檢索
★ 預訓練語言模型
★ 語義匹配
關鍵字(英) ★ Medical question-answering
★ information retrieval
★ pre-trained language models
★ semantic search
論文目次 目錄
摘要 i
Abstract ii
致謝 iii
目錄 iv
圖目錄 vi
表目錄 vii
第一章 緒論 1
1-1 研究背景 1
1-2 研究動機與目的 3
1-3 章節概要 4
第二章 相關研究 5
2-1 自動問答系統 5
2-1-1 資料集 5
2-1-2 評估指標 6
2-1-3 相關模型 10
2-2 詞彙匹配演算法BM25 18
2-3 預訓練語言模型 20
2-3-1 BERT 20
2-3-2 Sentence-BERT 21
2-3-3 ALBERT 23
2-3-4 RoBERTa 23
2-3-5 MacBERT 24
2-4 微調語言模型 25
第三章 研究方法 28
3-1 系統架構 28
3-2 檢索器 (Retriever) 30
3-3 重排序器 (Reranker) 32
第四章 實驗結果 34
4-1 資料集與建置 34
4-2 實驗設定 37
4-3 檢索系統性能比較 40
4-4 SER重排序模型比較 41
4-5 SER重排序數量實驗 42
4-6 SER資料擴增微調訓練實驗 44
4-7 案例分析 45
第五章 結論與未來工作 47
參考文獻 48
指導教授 李龍豪(Lung-Hao Lee) 審核日期 2022-8-25
