論文名稱 基於半監督式學習的網路流量分類
(Network traffic classification via semi-supervised learning)
摘要(中) 過去十幾年來,隨著物聯網與人工智慧的興起,人類對於網路的依賴程度也越來

本研究使用 Wireshark 蒐集了個案公司 P 的網路流量作為資料集,經過特徵選取
後,使用了半監督式學習演算法 Label Propagation Algorithm(LPA)、Label Spreading
Algorithm(LSA)對標有少量標籤的訓練資料集進行 pseudo label 的標籤預測,然後將
帶有 pseudo label 的訓練資料集結合四種機器學習分類器:決策樹、隨機森林、SVM、
實驗結果表明,若選擇使用 LPA 演算法結合 SVM 分類器建模,則可以達到最好的分
摘要(英) Over the past few decades. With the rapid of the Internet of Things(IoT) and artificial
intelligence(AI). Human dependence on the network is more and more common and bring
the cybersecurity threats. Therefore, network traffic classification has become a crucial issue
in network security. For enterprise, it’s important to understand the flow generated by various
applications on the network. Through further analysis and research, enterprise can gain a more
understanding of the network flow, sources, and destinations within the entire company.

In this paper, we collected data from private enterprises to create a proprietary dataset. the
dataset was processed using the algorithm of Label Propagation(LPA)and Label Spreading
(LSA)to build model after feature selection. And then we use model to predict the small
amount labeled dataset and add pseudo label to this dataset. And then we use classifier such as
Decision Tree、Random Forest、Support Vector Machine(SVM)、Naïve Bayes to train
the dataset which include pseudo label and build model. Finally, we use this model to predict
test dataset. The experimental results demonstrate that when combining the LPA with SVM
classifier, it is possible to achieve an optimal effectiveness.
關鍵字(中) ★ 網路流量分析
★ 機器學習
★ 半監督式學習
★ 資料探勘
關鍵字(英) ★ Wireshark
★ Label Propagation
★ Label Spreading
論文目次 摘要 i
目錄 iv
表目錄 vi
圖目錄 vii
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 論文架構 4
第二章 文獻探討 5
2.1 機器學習技術應用於網路流量分類之相關研究 5
2.1.1 網路流量異常偵測分析-以 TWAREN 為例 5
2.1.2 適用於網路入侵偵測不平衡資料之階層式多重分類器 6
2.1.3 針對未知攻擊辨識之混合式入侵偵測系統 8
2.2 網路流量工具 8
2.3 機器學習分類技術 10
2.3.1 半監督式學習 10
2.3.2 監督式學習 11
第三章 研究方法 15
3.1 研究架構 15
3.2 資料蒐集 16
3.3 資料前處理 17
3.3.1 Pcap 封包檔轉成 csv 格式 17
3.3.2 欄位名稱與說明 18
3.4 實驗設計 21
3.4.1 定義標籤 21
3.4.2 標記標籤 23
3.4.3 模型開發環境 24
3.4.4 標準化與特徵資料類型 24
3.4.5 模型訓練 25
3.5 評估指標 27
第四章 研究結果與討論 30
4.1 比較 LPA 與 LSA 之實驗結果分析與討論 30
4.2 LPA 與 LSA 結合監督式分類器之實驗結果分析與討論 33
4.2.1 LPA 結合監督式學習分類器 33
4.2.2 LSA 結合監督式學習分類器 35
4.2.3 結果討論 37
第五章 結論 38
5.1 結論 38
5.2 研究貢獻 38
5.2.1 私有資料集的建立結合半監督式學習研究 39
5.2.2 半監督式學習結合監督式學習模型進行分類 39
5.3 研究限制 40
5.4 未來研究方向與建議 40
參考文獻 42
指導教授 柯士文(Shih-Wen Ke) 審核日期 2023-7-15
