博碩士論文 101451003 詳細資訊




以作者查詢圖書館館藏 以作者查詢臺灣博碩士 以作者查詢全國書目 勘誤回報 、線上人數:24 、訪客IP:18.207.238.169
姓名 王玉峯(Yu-fang Wang)  查詢紙本館藏   畢業系所 企業管理學系在職專班
論文名稱 推薦期刊文章至適合學科類別之研究
(Recommending Subject Categories for Journal articles)
相關論文
★ 在社群網站上作互動推薦及研究使用者行為對其效果之影響★ 以AHP法探討伺服器品牌大廠的供應商遴選指標的權重決定分析
★ 以AHP法探討智慧型手機產業營運中心區位選擇考量關鍵因素之研究★ 太陽能光電產業經營績效評估-應用資料包絡分析法
★ 建構國家太陽能電池產業競爭力比較模式之研究★ 以序列採礦方法探討景氣指標與進出口值的關聯
★ ERP專案成員組合對績效影響之研究★ 品牌故事分析與比較-以古早味美食產業為例
★ 以方法目的鏈比較Starbucks與Cama吸引消費者購買因素★ 探討創意店家創業價值之研究- 以赤峰街、民生社區為例
★ 以領先指標預測企業長短期借款變化之研究★ 應用層級分析法遴選電競筆記型電腦鍵盤供應商之關鍵因子探討
★ 以互惠及利他行為探討信任關係對知識分享之影響★ 利用資料探勘技術探討北台灣地區機動車輛稅費繳納模式
★ 以資料挖礦方法發掘臍帶血品質診斷規則★ 自企業資料庫挖掘和彙整商情規則之研究
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [相關文章]   [文章引用]   [完整記錄]   [館藏目錄]   至系統瀏覽論文 ( 永不開放)
摘要(中) 年輕學者在投稿時期刊文章,時常會有誤判學科類別(Subject Categories)的問題出現。本研究嘗試以英文期刊文章標題(Journal Title)來進行分析,探討期刊文章適合投稿的學科類別之間的吻合關係。在過去研究中不曾僅使用文章標題之斷詞後文字(Text)做為類別分類的基礎,此外當面臨相當龐大的資料量和類別廣度時,為瞭解探究其分類結果,所用方法包含:每篇文章標題之斷詞後各個文字出現的文字、次數和學科類別集合,以及天真貝氏分類法(Naïve Bayes)。所獲得預測命中與否的結果準確度分別有兩種:一種為概括文章命中率(Rough Hitting Ratio, RHR)67.24%,另一種為精實學科類別命中率(Precise Hitting Ratio, PHR)38.34%。
摘要(英) With the proliferation of academic journals, a common issue faced by young scholars or researchers who wish to tread into the field of cross disciplines is to locate suitable categories and journals to submit their works. To lessen the severity of the issue, this research proposed a Naïve Bayes Classification method to recommend subject categories for a manuscript by analyzing the title words.
The challenging of this study came from the huge amount of data. By limiting the subject categories to the areas where NCU faculty members have published in the past three years, we got 64 categories and 199 journals. The number of articles in these journals are 224,870 The data that are used to build the classification model consists of 171,625 records and the testing data have 53,245 records. With intensive coding, the study is able to come out with a system to handle the job with reasonable performance. The Hit ratios are 67.24% and 38.34% for Rough Hitting Ratio (RHR) and Precise Hitting Ratio (PHR), respectively.
關鍵字(中) ★ 天真貝氏法
★ 巨量資料
★ 文字探勘
關鍵字(英) ★ Naïve Bayes
★ Big Data
★ text mining
論文目次 中文摘要 I
ABSTRACT II
誌謝 III
目錄 IV
圖目錄 VI
表目錄 VII
一、 緒 論 1
1-1 研究動機 1
1-2 研究目的 1
1-3 論文架構 2
二、 文獻探討 3
2-1 文字探勘(TEXT MINING) 3
2-1-1 英文-資料前置處理 3
1. 英文斷詞(Parsing) 4
2. 移除停用字(Elimination of StopWords) 4
3. 還原字根(Stemming) 5
4. 計算權重(Term Frequency–Inverse Document Frequency, TF-IDF) 5
2-2 多元類別問題(MULTICLASS PROBLEM) 6
三、 研究方法 8
3-1 資料結構 12
3-2 準確度判斷式 16
四、 實驗分析 19
4-1 資料蒐集 19
4-2 實驗結果 20
五、 結論與未來研究議題 21
5-1 結論 21
5-2 未來研究議題 21
參 考 文 獻 23
附 錄 24
附錄一、建立核心計算程序 24
附錄二、計算被預測命中之程序 29
參考文獻 一、 中文部份
[1]尹相志,SQL Server 2008 Data Mining資料採礦,初版,悅知文化,2009
[2]Tan, P.N., Steinbach, M., Kumar, V.著,Introduction to Data Mining,施雅月,賴錦慧譯,台灣培生教育出版社股皆有限公司,2008.01
[3]林傑斌、張一岑、張太平,資料倉儲與資料採擷,博碩文化股份有限公司,2004.05
[4]耿素雲、張立昂,機率統計,二版,儒林圖書有限公司,1996.01
二、 英文部份
[5] Tan, P.N., Steinbach, M., Kumar, V. Introduction to Data Mining,Addison Wesley,2005
三、 期刊報章論文
[6]何承威,王惠嘉,”考量樣板品質與自動擴張技術之醫學資訊擷取”, 中華民國資訊管理學會研討會論文集,2011
[7]魏忠志,”SCI/SSCI文章比對方法之研究”,2005
四、 網路資料
[8]維基百科:2014.06.12取自 http://zh.wikipedia.org/wiki/数据挖掘
[9]維基百科:2014.06.12取自http://zh.wikipedia.org/wiki/文字探勘
[10]2014.05.29取自:sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt
[11]維基百科:2014.06.05取自http://morris.lis.ntu.edu.tw/wikimedia/index.php/Stop_words
[12]維基百科:2014.06.12 取自http://zh.wikipedia.org/wiki/TF-IDF
[13]Ryan Rifn, Multicalss Classification:2014.05.28取自http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
[14]2014.06.12取自http://coolshell.cn/articles/8422.html
指導教授 許秉瑜(Ping-yu Hsu) 審核日期 2014-7-21
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   
網路書籤 Google bookmarks   del.icio.us   hemidemi   myshare   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡  - 隱私權政策聲明