姓名 黃紹航(Shao-Hang Huang)  畢業系所 資訊管理學系
論文名稱 情感分析方法於COVID-19疫情預測之適用性評估
摘要(中) COVID-19仍持續威脅著世界各國的公共衛生,而有效地預測COVID-19確診以及死亡人數上升或下降的趨勢,將有助於研究人員和政策制定者通過將 COVID-19 推向正確的方向來降低死亡率和確診率,目前對於COVID-19疫預測皆為使用結構化資料進行預測,並沒有學者使用非結構化的資料進行預測。然而,在非結構化預測上,因為社群媒體的蓬勃發展,透過社群媒體的文本進行預測,在各領域上皆有許多學者以此進行實驗,因此本研究想要透過社群媒體上有關於COVID-19的文本進行疫情趨勢預測。
摘要(英) COVID-19 is continuing to threaten the public hygiene of countries around the world. An
efficiently way to predict the trend of COVID-19 epidemic will help researchers and policy maker make the right decision to reduce the mortality rate and confrimed case rate.At present,All research on COVID-19 epidemic prediction is based on technical data, However, With the development of social media,Using social media texts to predict is common in various fields.Therfore, This research is mainly discussed about using different sentiment analysis methods to generate daily sentiment scores from social media texts,and combine technical data
for epidemic prediction.
This research selects different sentiment analysis methods(dictionary method, API, and dynamic word embedding sentiment analysis method),and uses three different classifiers ,SVM、LSTM、Bi-GRU for epidemic prediction. At the end of the research, we found that the dynamic word embedding sentiment analysis method RoBERTa with the epidemic prediction classifier Bi-GRU can predict the trend of COVID-19 epidemic with best combination. In predicting the
number of confirmed cases, evaluation indicator precision is rasie to 75.89%.
論文目次 摘要 i
Abstract ii
誌謝 iii
目錄 iv
圖目錄 vi
表目錄 viii
一、緒論 1
1-1 研究背景 1
1-2 研究動機 2
1-3 研究目的 3
二、文獻探討 5
2-1 COVID-19情感分析任務在社群媒體上的研究 5
2-2 探討不同種類詞嵌入的方法 6
2-2-1 Word2Vec 9
2-2-2 Glove 9
2-2-3 BERT 10
2-2-4 GRUBERT 12
2-2-5 RoBERTa 12
2-3 預測COVID-19確診人數以及死亡人數的分類器模型 13
2-3-1 SVM 14
2-3-2 RNN 14
2-3-3 LSTM 15
2-3-4 Bi-GRU 16
三、研究方法 17
3-1 資料蒐集 18
3-2 資料前處理 18
3-2-1 非結構化資料前處理 18
3-2-2 結構化資料前處理 19
3-3 詞嵌入方法在情感分析任務上的預測效能 20
3-4 標註公式以及發酵日期 21
3-5 評估指標 22
3-6 探討不同情感分析方法以及不同分類器對於疫情預測之適用性 23
3-6-1 Day Forward-Chaining 24
3-6-2 辭典法 25
3-6-3 情感分析套件Vader 26
3-6-4 詞嵌入方法 26
3-6-5 分類器 26
3-7 探討文本與結構化資料合併後在疫情趨勢預測的效用 26
四、實驗結果與分析 27
4-1 探討詞嵌入方法在Sentiment140資料集下的效能 27
4-2 探討不同情感分析方法以及不同分類器對於疫情預測之影響 29
4-2-1 探討最佳人數變化倍率以及發酵日 29
4-2-2 不同分類器下比較不同情感分析方法對於疫情預測之影響 35
4-2-2 小結 40
4-3 探討不同國家資料對於疫情預測之影響 41
4-4 探討不同關鍵字的資料對於疫情預測之影響 42
4-4-1 探討所下關鍵字不同蒐集的資料集對於準確率之影響 43
4-4-2 探討不同資料集合併後對於疫情趨勢的準確率之影響 45
4-5 探討兩種資料型態合併後對於疫情預測之影響 47
五、結論 49
5-1 結論與貢獻 49
5-2 研究限制 51
5-3 未來研究與建議 51
參考文獻 53
