English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 41625569      線上人數 : 1969
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/79577


    題名: 使用轉移學習來改進針對命名實體音譯的樞軸語言方法;Using transfer learning to improve pivot language approach to named entity transliteration
    作者: 石朝全;Shih, Chao Chuang
    貢獻者: 資訊工程學系
    關鍵詞: 機器音譯;機器翻譯;命名實體音譯;雙語音譯;轉移學習;注意力機制;Seq2Seq模型;樞軸語言;Machine Transliteration;Machine Translation;Named Entity Transliteration;Bilingual transliteration;Transfer Learning;Attention Mechanism;Seq2Seq Model;Pivot language;Bridge Language
    日期: 2019-01-31
    上傳時間: 2019-04-02 15:03:52 (UTC+8)
    出版者: 國立中央大學
    摘要: 機器翻譯已經被研究多年,雖然多數句型可以被順利翻譯,但若句子包含命名實體如人名或地名,仍然有無法成功以該語言文字表現的窘境,這種情形在英語以外的語言之間的轉換也更加嚴重,而命名實體音譯即是此問題的解決方法之一。

    音譯問題是機器翻譯很重要的一部分,但當我們實際要研究這個問題時,我們時常會發生僅有有限的來源語言和目標語言之間的平行語料的狀況,尤其當其中一種語言為低資源語言,這種狀況的發生機率就會大大提升。相對地,若我們將廣泛使用的語言(如:英文)視為樞軸語言,我們可能可以更加容易取得來源語言和樞軸語言或是樞軸語言和目標語言的平行語料,從這兩種語料中,我們可以很直觀地藉由找出共同的樞軸語言條目,來產生包含來源語言、樞軸語言以及目標語言的三語言平行語料,以解決原本雙語間的音譯問題。然而,這種方法卻會浪費大量得來不易的資料。

    因此,我們提出了一個採用了注意力機制以及轉移學習的Seq2Seq模型,除了三種語言的平行語料外,可以有效利用剩餘資料,增進從來源語言到目標語言的命名實體音譯問題之表現。;Machine translation has been research for a long time. Although most of the sentences can be translated correctly, when it comes to named entity like a personal name or a location in a sentence, there′s still room for improvement especially between non-English languages. Named Entity Transliteration is a way to solve the condition mentioned above.

    Transliteration is a key part of machine translation. However when we actually do research, we often have limited parallel data between source language and target language. If we take a wildly used language as a pivot langage, in contract, it would be more easily to extract language pairs of source language to pivot language and pivot language to target language. It′s intuitive to extract the common pivot language entities from these corpora to generate a three-language parallel data include source language, pivot language, target language. We can achieve the bilingual transliteration task using the parallel data; nevertheless, large amount of data is wasted in this method.

    We propose a modified attention-based sequence-to-sequence model which also applies transfer learning techniques. Our model effectively utilize the remaining data besides the parallel data to promote the performance of named entity transliteration.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML142檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明