English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 78936/78937 (100%)
造訪人次 : 39785283      線上人數 : 819
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/81088


    題名: 基於訊息配對相似度估計的聊天記錄解構 改進基於檢索的對話系統;Improving Retrieval-based Dialog System by Chat Log Disentanglement based on Message Pair Similarity Estimation
    作者: 劉至咸;Liu, Zhi-Xian
    貢獻者: 資訊工程學系
    關鍵詞: 對話解構;回覆關係預測;BERT 模型應用;conversation disentanglement;reply prediction;application of BERT
    日期: 2019-07-17
    上傳時間: 2019-09-03 15:33:49 (UTC+8)
    出版者: 國立中央大學
    摘要: 為建立Retrieval-based聊天機器人,我們從聊天紀錄中來產生訓練所需的問答配對(Question-Answer Pair),然而問答配對並非完全依序地呈現在聊天紀錄中,不同內容的問答配對可能互相穿插,而從互相穿插的訊息中分離出內容不同的會話的任務即為對話解構(conversation disentanglement)。
    現有的對話解構研究大多透過計算兩個訊息的相似度來解決問題,在此論文中,我們得出透過計算訊息相似度判斷訊息是否屬於相同會話是非常困難的,但若我們透過計算相似度來預測訊息的回覆關係則可以解決此問題。此外我們指出過去研究中的模型無法處理未經訓練的訊息,而無法在實務上運用的缺陷。
    此論文中,我們使用IRC與Reddit資料集進行實驗,並使用QNAP聊天記錄進行對話解構。其中人工合成的Reddit資料集提供額外的大量訓練資料,且BERT模型在此資料集上的回覆關係預測獲得良好的效能。;In order to build a retrieval-based chatbot, we generate the Question-Answer Pairs from the chat log. However, Question-Answer Pairs don’t present in order in the chat log. Question-Answer Pairs of different content may interleave with each other. The task of separating mixed messages into detached conversation are called conversation disentanglement.
    Most of the existing research deal with this task by calculating the similarity of two messages. In this paper, we find that it is very difficult to predict whether two messages belong to the same conversation by calculating the similarity of the message, but if we predict the reply relation of the message by calculating the similarity, this problem can be solved. In addition, we point out that the models in the past research are unable to deal with untrained messages, and cannot be used in real world.
    In this paper, we used IRC and Reddit datasets for experiments and QNAP chat log for conversation disentanglement. The synthetic Reddit dataset provides an additional amount of training data, and the BERT model gets good performance on predicting reply relationship on this dataset.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML94檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明