姓名 |
王玉峯(Yu-fang Wang)
查詢紙本館藏 |
畢業系所 |
企業管理學系在職專班 |
論文名稱 |
推薦期刊文章至適合學科類別之研究 (Recommending Subject Categories for Journal articles)
|
相關論文 | |
檔案 |
[Endnote RIS 格式]
[Bibtex 格式]
[相關文章] [文章引用] [完整記錄] [館藏目錄] 至系統瀏覽論文 ( 永不開放)
|
摘要(中) |
年輕學者在投稿時期刊文章,時常會有誤判學科類別(Subject Categories)的問題出現。本研究嘗試以英文期刊文章標題(Journal Title)來進行分析,探討期刊文章適合投稿的學科類別之間的吻合關係。在過去研究中不曾僅使用文章標題之斷詞後文字(Text)做為類別分類的基礎,此外當面臨相當龐大的資料量和類別廣度時,為瞭解探究其分類結果,所用方法包含:每篇文章標題之斷詞後各個文字出現的文字、次數和學科類別集合,以及天真貝氏分類法(Naïve Bayes)。所獲得預測命中與否的結果準確度分別有兩種:一種為概括文章命中率(Rough Hitting Ratio, RHR)67.24%,另一種為精實學科類別命中率(Precise Hitting Ratio, PHR)38.34%。 |
摘要(英) |
With the proliferation of academic journals, a common issue faced by young scholars or researchers who wish to tread into the field of cross disciplines is to locate suitable categories and journals to submit their works. To lessen the severity of the issue, this research proposed a Naïve Bayes Classification method to recommend subject categories for a manuscript by analyzing the title words.
The challenging of this study came from the huge amount of data. By limiting the subject categories to the areas where NCU faculty members have published in the past three years, we got 64 categories and 199 journals. The number of articles in these journals are 224,870 The data that are used to build the classification model consists of 171,625 records and the testing data have 53,245 records. With intensive coding, the study is able to come out with a system to handle the job with reasonable performance. The Hit ratios are 67.24% and 38.34% for Rough Hitting Ratio (RHR) and Precise Hitting Ratio (PHR), respectively.
|
關鍵字(中) |
★ 天真貝氏法 ★ 巨量資料 ★ 文字探勘 |
關鍵字(英) |
★ Naïve Bayes ★ Big Data ★ text mining |
論文目次 |
中文摘要 I
ABSTRACT II
誌謝 III
目錄 IV
圖目錄 VI
表目錄 VII
一、 緒 論 1
1-1 研究動機 1
1-2 研究目的 1
1-3 論文架構 2
二、 文獻探討 3
2-1 文字探勘(TEXT MINING) 3
2-1-1 英文-資料前置處理 3
1. 英文斷詞(Parsing) 4
2. 移除停用字(Elimination of StopWords) 4
3. 還原字根(Stemming) 5
4. 計算權重(Term Frequency–Inverse Document Frequency, TF-IDF) 5
2-2 多元類別問題(MULTICLASS PROBLEM) 6
三、 研究方法 8
3-1 資料結構 12
3-2 準確度判斷式 16
四、 實驗分析 19
4-1 資料蒐集 19
4-2 實驗結果 20
五、 結論與未來研究議題 21
5-1 結論 21
5-2 未來研究議題 21
參 考 文 獻 23
附 錄 24
附錄一、建立核心計算程序 24
附錄二、計算被預測命中之程序 29 |
參考文獻 |
一、 中文部份
[1]尹相志,SQL Server 2008 Data Mining資料採礦,初版,悅知文化,2009
[2]Tan, P.N., Steinbach, M., Kumar, V.著,Introduction to Data Mining,施雅月,賴錦慧譯,台灣培生教育出版社股皆有限公司,2008.01
[3]林傑斌、張一岑、張太平,資料倉儲與資料採擷,博碩文化股份有限公司,2004.05
[4]耿素雲、張立昂,機率統計,二版,儒林圖書有限公司,1996.01
二、 英文部份
[5] Tan, P.N., Steinbach, M., Kumar, V. Introduction to Data Mining,Addison Wesley,2005
三、 期刊報章論文
[6]何承威,王惠嘉,”考量樣板品質與自動擴張技術之醫學資訊擷取”, 中華民國資訊管理學會研討會論文集,2011
[7]魏忠志,”SCI/SSCI文章比對方法之研究”,2005
四、 網路資料
[8]維基百科:2014.06.12取自 http://zh.wikipedia.org/wiki/数据挖掘
[9]維基百科:2014.06.12取自http://zh.wikipedia.org/wiki/文字探勘
[10]2014.05.29取自:sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt
[11]維基百科:2014.06.05取自http://morris.lis.ntu.edu.tw/wikimedia/index.php/Stop_words
[12]維基百科:2014.06.12 取自http://zh.wikipedia.org/wiki/TF-IDF
[13]Ryan Rifn, Multicalss Classification:2014.05.28取自http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
[14]2014.06.12取自http://coolshell.cn/articles/8422.html
|
指導教授 |
許秉瑜(Ping-yu Hsu)
|
審核日期 |
2014-7-21 |
推文 |
facebook plurk twitter funp google live udn HD myshare reddit netvibes friend youpush delicious baidu
|
網路書籤 |
Google bookmarks del.icio.us hemidemi myshare
|