姓名 徐媺晴(Mei-Ching HSU)  查詢紙本館藏   畢業系所 通訊工程學系
論文名稱 感知無線電網路之多通道交會問題:強化學習應用
(Multi-channel Rendezvous in Cognitive Radio Network: a Reinforcement Learning Approach)
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 本論文為探討如何使用強化學習解決在感知無線電網路中多通道交會問題。感知無線電網路中多通道交會問題是指兩個二級用戶如何在有限的時間內選擇跳到同個通道並成功交換彼此的訊息。本篇論文是在一個對稱性、同步、同質性以及全局共同標號的假設下進行研究,同時為了更貼近實際情況,我們假設每個通道有著不同的通道狀態,並且無法讓用戶得知該通道的狀態情況,某些狀態可能會導致雖然兩個用戶在同個通道卻無法成功通訊。此種無法得知通道狀態的情況下的交會問題稱作盲交會。我們在上述假設下提出了一個快速強化學習演算法,讓兩個用戶學習在不同的狀態下成功交會的交會策略。我們提出的快速強化學習演算法能大幅增加通道選擇策略學習的效率,並且在收斂後學到一組能與已有最佳解的特定通道狀態相比擬的平均交會時間(ETTR),與在沒有最佳解的狀態下有著最佳的效能(最低的ETTR)。
摘要(英) In this thesis, we consider the multichannel rendezvous problem in cognitive radio networks (CRNs) where the probability that two users hopping on the same channel have a successful rendezvous is a function of channel states. The channel states are modelled by stochastic processes with joint distributions known to users. However, the exact state of a channel at any time is not observable. We derived that the lower bound of the ETTR of the general channel model is the ETTR of the fast time-varying channel model and the upper bound is the ETTR of the slow time-varying channel model. By formulating such a multichannel rendezvous problem as an adversarial bandit problem, we propose using a reinforcement learning approach to learn the channel selection probabilities pi(t), i = 1; 2; : : : ;N. Our experimental results show that the reinforcement learning approach is very effective and yields comparable ETTRs when comparing to various approximation policies in the literature.
關鍵字(中) ★ 強化學習
★ 多通道交會
★ 無線感知系統
論文目次 目    錄
中文提要 ……………………………………………………………… i
英文摘要 ……………………………………………………………… ii
誌謝 ……………………………………………………………… iii
目錄 ……………………………………………………………… iv
圖目錄 ……………………………………………………………… v
表目錄 ……………………………………………………………… vi
符號說明 ……………………………………………………………… vii
一、 緒論………………………………………………………… 1
二、 系統模型…………………………………………………… 11
三、 相關論文回顧……………………………………………… 13
3-1 廣義時變通道模型………………………………………… 13
3-2 兩種狀態的馬可夫通道模型……………………………… 15
3-3 正相關馬可夫鍊中的通道交會時間期望值下界………… 16
3-4 將多通道交會問題視為強化學習問題…………………… 18
四、 用於解決感知無線電網路多通道交會問題之快速收斂強化學習演算法……………………………………………… 20
五、 實驗與綜合比較…………………………………………… 25
六、 結論………………………………………………………… 36
參考文獻 ……………………………………………………………… 38

圖目錄 List of Figures
圖一 在ω=0.5時,快速強化學習演算法根據不同ρ所學到的通道選擇策略……………………………………………… 27
圖二 在ω=0.5時,〔36〕演算法根據不同ρ所學到的通道選擇策略(直接採用〔36〕的圖一)……………………… 29
圖三 快速強化學習演算法的學習曲線………………………… 34

表目錄 List of Tables
表一 在ρ=0.1時,不同ω情況下的ETTR…………………… 31
表二 在ρ=0.5時,不同ω情況下的ETTR…………………… 32
表三 在ρ=0.9時,不同ω情況下的ETTR…………………… 32
指導教授 林嘉慶(Jia-Chin Lin) 審核日期 2020-7-14
