中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/79568
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 80990/80990 (100%)
造访人次 : 41639277      在线人数 : 1409
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/79568


    题名: 深度神經網路架構之跨語言線上百科連結;Cross-lingual Encyclopedia Linking in DNN Framework
    作者: 潘照霖;Pan, Chao-Lin
    贡献者: 資訊工程學系
    关键词: 線上百科;維基百科;百度百科;跨語言;連結;文章表示向量;詞向量;深度學習;卷積類神經網路;長短期記憶模型;注意力機制
    日期: 2018-10-01
    上传时间: 2019-04-02 15:03:08 (UTC+8)
    出版者: 國立中央大學
    摘要: 維基百科的出現,徹底改變人們學習新知識的習慣。其發展了超過298種不同語言的版本,在不同語言之間,卻存在文章數量不平衡的情形,英文維基的文章數量遙遙領先其他語言版本。以中文維基為例,其文章數量僅英文維基的六分之一。除此之外,維基百科在不同語言版本之間的跨語言間連結亦嚴重缺乏,根據統計,英文維基百科僅有2.3%的文章具有跨語言連結至其中文版本。
    除維基百科外,在各國仍有提供特定語言的線上百科存在,其內容更豐富於維基百科的其他語言版本。因此我們以《英文維基》和《百度百科》為目標,建置「跨語言線上百科跨連結」,除有助於全球知識共享,更有助於跨語言相關研究。
    以往跨語言百科連結的作法,常需要依賴語言特性。因此我們提出一深度學習模型,不需要依靠語言特性與線上百科的架構產生特徵,僅以文章內文作為訓練資料的依據,運用各種神經網路,辨別跨語文章的語意上的相似程度。在面對不同語言版本的資料時,僅需替換預訓練詞向量即可。
    ;The emergence of Wikipedia has completely changed the habit of learning new knowledge. It has developed more than 298 different language versions. However, it exists imbalances in the number of articles between different language versions of Wikipedia. The number of articles in English Wikipedia is far ahead over other languages. Take Chinese Wikipedia as an example, the number of articles is only one-sixth of the English Wikipedia. In addition, Wikipedia′s cross-language links between different language versions are also seriously lacking. According to the statistics, only 2.3% of English Wikipedia articles have cross-language links to its Chinese versions.
    Despite of Wikipedia, some other countries has its own online encyclopedias and its content is much more abundant than its language versions of Wikipedia. Therefore, we aim to build a "cross-language online encyclopedia between "English Wikipedia" and "Baidu Baike". It is not only contributing to global knowledge sharing, but more conducive to cross-language related research.
    In previous CLAL works, their methods usually depend on the language characteristics and the structure of encyclopedia. Therefore, we propose a deep learning model, which only uses the textual main content as the basis of the training data, and various neural networks to distinguish the semantic similarity of the cross-language articles. When facing data in different language versions, the only thing to do is replacing the pre-training word embedding.
    显示于类别:[資訊工程研究所] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML103检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明