中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/86735
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 41656359      線上人數 : 1562
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/86735


    題名: 在PU類型資料之下比較三種邏輯斯迴歸模型;A Comparison among Three Logistic Regression Models under Positive and Unlabeled Data
    作者: 莊渝涵;Jhuang, Yu-Han
    貢獻者: 數學系
    關鍵詞: 邏輯斯迴歸;錯標機制;參數估計;PU類型資料;穩健估計;Logistic regression;Mislabeling mechanism;Parameter estimation;Positive and unlabeled data;Robust estimation
    日期: 2021-08-19
    上傳時間: 2021-12-07 13:10:20 (UTC+8)
    出版者: 國立中央大學
    摘要: 大數據時代的來臨,我們常面臨資料的標記品質不佳的情況。在傳統監督學習的二分類問題中,資料中含有部分的錯誤標記導致其訓練出的模型產生偏差。其中有一種含有錯誤標記的資料類型為僅含有正確標記的正標籤(positive)資料以及混雜大量負標籤(negative)及少量正標籤的未標記(unlabeled)資料,簡稱PU類型資料。在本文中我們比較文獻中所提出的三種邏輯斯迴歸的變型,分別是c-邏輯斯迴歸、ξ-邏輯斯迴歸以及γ-邏輯斯迴歸在PU類型資料的表現。我們藉由模擬實驗來比較這三種方法在PU類型資料下的參數估計準確性及分類正確性。實際資料分析使用UCI Machine Learning Repository中的兩筆資料集,分別是Wisconsin乳癌的資料集(WDBC)和Pima Indians糖尿病的資料集(Pima)。;With the advent of the big data era, we often face the situation of poor quality of labeling the data. In binary classification problems of traditional supervised learning, mislabeled in data leads to a model bias issues. One type of mislabeled data is which contains correctly labeled of positive data and unlabeled ones which mixed with a large number of negative data and a small number of positive data, referred to as positive and unlabeled data. In this article, we compare the three logistic regression variants proposed in the literature, namely c-logistic regression, ξ-logistic regression and γ-logistic regression on positive and unlabeled data. We compare the parameter estimation accuracies and classification correct rates of these three methods under positive and unlabeled data by simulation experiments. For real-world applications, we supply the three methods on the two datasets, WDBC (breast cancer Wisconsin (diagnostic)) data set and PIMA (Pima Indians diabetes) data set in the UCI Machine Learning Repository.
    顯示於類別:[數學研究所] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML88檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明