題名: 中文新聞文件的關聯法則探勘
作者: 許中川
陳俊男
胡勝傑
林彥成
邱宣諭
關鍵字: 文件資料探勘
關聯法則
中文斷詞
關鍵詞擷取
分佈差異
期刊名/會議名稱: 1999 NCS會議
摘要: 新聞文件記錄每天發生的重要事件,在這些大量的新聞文件中,往往蘊含重要的資訊。本研究提出一個自動化探勘架構,從大量的新聞文件中擷取出有用的關鍵詞彙,以關聯法則進一步萃取出潛藏的知識。在探勘過程中,針對中文新聞文件結構的特殊性,我們以結合詞庫式斷詞與統式斷詞的混合式斷詞法進行中文斷詞;根據新聞撰寫經驗法則,提出四個處理程序,取得新聞文件中較具代表性的關鍵詞彙;為切合新聞文件知識開採需求,使用概念階層樹建構背景知識與關鍵詞彙,搭配改良後的關聯法則,提出四個關聯模式:第一個是基本關聯法則,第二個是結構化資料與高頻詞彙關聯,第三個是結構化資料與同類詞彙關聯,第四個為非結構化資料的分佈差異。最後我們以實驗驗證此探勘架構的可行性。
日期: 2006-11-08T03:12:35Z
分類:1999年 NCS 全國計算機會議

文件中的檔案:
檔案 描述 大小格式 
ce07ncs001999000113.pdf868.39 kBAdobe PDF檢視/開啟


在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。