歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

中文詞語分析一體化系統(tǒng).ppt

  • 資源ID:2515128       資源大?。?span id="zpqoccd" class="font-tahoma">371.05KB        全文頁數(shù):30頁
  • 資源格式: PPT        下載積分:9.9積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺(tái)登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開,此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請(qǐng)知曉。

中文詞語分析一體化系統(tǒng).ppt

,張華平 劉 群 zhanghp 中科院計(jì)算技術(shù)研究所 2002-5-28,中文詞語一體化分析,綱要,問題背景與難點(diǎn)分析 主要研究方法與相關(guān)系統(tǒng) 我們的研究思路基于多層HMM的一體化方法 基于N-最短路徑的詞語粗分 基于角色標(biāo)注的未登錄詞識(shí)別 計(jì)算所中文詞語一體化分析系統(tǒng)ICTCLAS 結(jié)論,問題背景與難點(diǎn)分析,問題背景,漢語的書面語是按句分開的,詞與詞之間沒有明確的分隔標(biāo)記。 詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分 。 中文信息處理只要涉及句法、語義(如檢索、翻譯、文摘、校對(duì)等應(yīng)用),就需要以詞為基本單位。句法分析、語句理解、自動(dòng)文摘、自動(dòng)分類和機(jī)器翻譯等,更是少不了詞的詳細(xì)信息 。,問題背景與難點(diǎn)分析 II,分詞的必要性,物,理,學(xué),physics,products,price,image,body,theory,barber,science,understand,reason,school,study,credit,student,subject,物理學(xué),physics,physicist,evidence,6 5 5 = 150 : 2,問題背景與難點(diǎn)分析 III,中文詞語分析的主要難點(diǎn) 歧義 交叉歧義(86%): 結(jié)合成分子時(shí) 組合歧義(14%): 這個(gè)人手上有痣; 我們?nèi)比耸?全局歧義與局部歧義: 乒乓球拍/賣/完了; 乒乓球/拍賣/完了; 我很/難過,問題背景與難點(diǎn)分析 IV,未登錄詞問題 干擾作用 克林頓對(duì)內(nèi)塔尼亞胡說 龔學(xué)平等領(lǐng)導(dǎo) 最終識(shí)別 多樣性 復(fù)雜性 上下文干擾,主要研究方法與相關(guān)系統(tǒng),當(dāng)前主要的研究方法 基于規(guī)則的方法 最大匹配法(Maximum Matching)正向、逆向、雙向 最優(yōu)路徑(+詞頻選擇)法(最少分詞法) 基于統(tǒng)計(jì)的方法 (N元語法,HMM) 基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合 其他的一些方法 (壓縮,自監(jiān)督,基于轉(zhuǎn)移的錯(cuò)誤驅(qū)動(dòng)方法等),主要研究方法與相關(guān)系統(tǒng)II,當(dāng)前主要的中文詞語分析系統(tǒng) 哈工大統(tǒng)計(jì)分詞系統(tǒng) 自動(dòng)化所三元統(tǒng)計(jì)模型 清華大學(xué)SEGTAG系統(tǒng) 詞典中的每一個(gè)重要的詞都加上了切分標(biāo)志 無條件切出qk類詞;完全切分ck類詞;其他無交叉歧義的切之,否則全切分。 “動(dòng)態(tài)規(guī)劃“和“全切分搜索+葉子評(píng)價(jià)“,主要研究方法與相關(guān)系統(tǒng)III,Microsoft Research多國語言處理平臺(tái)NLPWin中的中文詞語分析詞系統(tǒng) 雙向的Chart Parsing,使用了語法規(guī)則并以概率模型作導(dǎo)向 切詞-句法分析一體化 北大計(jì)算語言所分詞和詞類標(biāo)注系統(tǒng) 分詞和詞類標(biāo)注結(jié)合起來 基于規(guī)則的標(biāo)注排歧與基于語料庫統(tǒng)計(jì)模型的排歧結(jié)合 處理過程包括了自動(dòng)切分和初始詞性標(biāo)記、切分歧義字段識(shí)別、組詞和標(biāo)注預(yù)處理、詞性標(biāo)記排歧、切分和詞性標(biāo)注后處理,主要研究方法與相關(guān)系統(tǒng)IV,現(xiàn)有方法的一些潛在不足(待探討): 規(guī)則與統(tǒng)計(jì)的結(jié)合,更大意義上是一種組合,兩種處理出現(xiàn)在系統(tǒng)中相對(duì)獨(dú)立的兩個(gè)不同階段。 排歧、識(shí)別未登錄詞更多的是利用規(guī)則,難以量化。即使量化,也很難和普通詞實(shí)現(xiàn)真正量值上的比較。 歧義字段、未登錄詞作為特殊情況處理,后期處理中沒有與普通詞統(tǒng)一。 沒有相對(duì)統(tǒng)一的處理模型和評(píng)估體系。 最終導(dǎo)致:準(zhǔn)確率、召回率在開放測(cè)試的條件下并不像宣稱的那樣理想,尤其是在未登錄詞、歧義字段存在的情況里。,我們的研究思路 基于多層HMM的一體化方法,目標(biāo): 分詞、詞性標(biāo)注的一體化;未登錄詞與普通詞處理的一體化;評(píng)估體系一體化。 基本思想: 采取HMM模型,建立切分詞圖。詞語粗分階段,先得出N個(gè)概率最大的切分結(jié)果。然后,利用角色標(biāo)注方法識(shí)別未登錄詞,并計(jì)算其概率,將未登錄詞加入到切分詞圖中,之后視它為普通詞處理,最終進(jìn)行動(dòng)態(tài)規(guī)劃優(yōu)選出N個(gè)最大概率切分標(biāo)注結(jié)果。,基于多層HMM的一體化方法II,利用噪聲-信道模型,建立目標(biāo)評(píng)估函數(shù),其中 C:原始字串;W:切分的詞串;T:詞性標(biāo)注序列 P(C|W)=1P(CW)=P(W) P(W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C) =P(T)P(W|T)/P(W) P(W)/P(C) = P(T)P(W|T)/P(C) (字串C出現(xiàn)的概率P(C)為一常數(shù),不影響結(jié)果,可以忽略),(W,T)*= .(0),基于多層HMM的一體化方法III,利用隱馬模型展開P(T)P(W|T),并引入共現(xiàn)概率 P(W,T)|C) =P(ti|ti-1)P(wi|ti).(1) P*(W,T)=lnP(W,T) =ln P(wi|ti) = ln P(ti|ti-1) + ln P(wi|ti) .(2) 評(píng)價(jià)函數(shù)或者決策函數(shù)如下: (W,T)*= ln P(ti|ti-1) + ln P(wi|ti),基于多層HMM的一體化方法IV,一體化需要解決的主要問題 排歧問題 未登錄詞的概率問題P(wi|ti) P(張華平|nr)? P(奧斯特羅夫斯基|nr)? P(大石頭村|ns)?,基于N-最短路徑的詞語粗分,基本思想 根據(jù)詞典,建立字串詞語切分有向無環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對(duì)該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長度值按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等,下同)依次為第1, 第2,第i,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號(hào),最后的粗分結(jié)果集合大小大于或等于N。,基于N-最短路徑的詞語粗分II,出發(fā)點(diǎn) 實(shí)際上是最短路徑方法和全切分的有機(jī)結(jié)合。一方面避免了最短路徑分詞方法大量舍棄正確結(jié)果的可能,另一方面又大大解決了全切分搜索空間過大,運(yùn)行效率差的弊端。 “求同存異,保留爭(zhēng)端”。即:解決在切詞階段能解決的大部分問題;而對(duì)歧義、未登錄詞等問題盡量保留下來,留給后續(xù)過程處理。 統(tǒng)計(jì)與非統(tǒng)計(jì)方法,基于N-最短路徑的詞語粗分III,測(cè)試結(jié)果 說明: 統(tǒng)計(jì)N-最短路徑 句子總數(shù)為: 185,192,基于N-最短路徑的詞語粗分IV -對(duì)比測(cè)試實(shí)驗(yàn)召回率/結(jié)果數(shù),基于角色標(biāo)注的未登錄詞識(shí)別,現(xiàn)有未登錄詞識(shí)別方法的不足 大部分只針對(duì)切分碎片進(jìn)行識(shí)別。 “單點(diǎn)激活”: 必須遇到具明顯特征的上下文或者未登錄詞用字時(shí),才會(huì)觸發(fā)未登錄詞的識(shí)別過程。 對(duì)識(shí)別出來的很難給出實(shí)際意義上的概率值 歧義排除乏力 呂梁的特點(diǎn)是貧困人口占全省的左右。 格威特等高水準(zhǔn)的競(jìng)爭(zhēng)對(duì)手也是促使李寧牌不斷創(chuàng)新突破的一個(gè)誘因 周鵬和同學(xué),未登錄詞識(shí)別II,基于角色的未登錄詞識(shí)別方法 采用Viterbi算法,確定句子概率最大的角色序列,在角色序列的基礎(chǔ)上,進(jìn)行模式匹配。 未登錄詞的角色 內(nèi)部組成:首部、中部、尾部、內(nèi)部成詞 上下文 上下文與內(nèi)部組成交叉成詞 句子中其他成分,未登錄詞識(shí)別 III,漢族人名的角色表(示例,有省略),未登錄詞識(shí)別 IV,具體實(shí)現(xiàn) R# 角色標(biāo)注過程類似于詞性標(biāo)注,也是一層HMM 示例: 館內(nèi)陳列周恩來和鄧穎超生前使用過的物品 館/內(nèi)/陳列/周/恩/來/和/鄧/穎/超生/前/使用/過/的/物品/ 館/A內(nèi)/A 陳列/K周/B恩/C來/D和/M鄧/B穎/C超生/V前/A使用/A過/A的/A物品/A V需要拆分,最終匹配人名模板,得到“周恩來”“鄧穎超”,未登錄詞識(shí)別 V,未登錄詞概率的計(jì)算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri) = P(ti|Ri) P(ti|Ri)可以由語料統(tǒng)計(jì)得到;例如單姓+單名生成姓名的概率等于單姓單名除以總的人名數(shù)目;其結(jié)果大約為12%,未登錄詞識(shí)別 VI,漢族人名測(cè)試結(jié)果,計(jì)算所中文詞語一體化分析系統(tǒng)ICTCLAS,Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 設(shè)計(jì)的基本原則 一體化 結(jié)果不唯一 “當(dāng)斷則斷,不留后患” “求同存異,保留爭(zhēng)端”,ICTCLAS系統(tǒng)處理流程,ICTCLAS功能模塊,ICTCLAS,N-最短路徑切分 (概率統(tǒng)計(jì)),未登錄詞識(shí)別,隱馬標(biāo)注,人名,地名,譯名,其他,結(jié)果生成,重疊詞,規(guī)范,其他,ICTCLAS初評(píng)結(jié)果,評(píng)測(cè)語料庫為人民日?qǐng)?bào)1998年1月1日-1月15日(12000行)的新聞?wù)Z料 總共詞數(shù):601646 切分正確率(按詞統(tǒng)計(jì))98.38%;按句子統(tǒng)計(jì)93.15% 一級(jí)標(biāo)注正確率(按詞統(tǒng)計(jì)):97.16%;按句子統(tǒng)計(jì)78.44%,結(jié)論,漢語詞語分析是中文信息處理的基礎(chǔ),無論是理論上,還是實(shí)際應(yīng)用上都極其重要。 其難點(diǎn)主要在于排歧和未登錄詞的識(shí)別。 目前常用的研究方法及相關(guān)系統(tǒng),存在著一些不足:不統(tǒng)一;量化困難,缺乏可比性。 N-最短路徑方法進(jìn)行詞語粗分,可以盡可能的解決詞語切分問題,同時(shí)將未登錄詞與歧義問題保留到下一過程。 基于角色標(biāo)注的未登錄詞識(shí)別方法,可以克服觸發(fā)與候選字段選取的盲目性,并能計(jì)算出候選詞的概率。最終效果能滿足實(shí)際要求。 基于HMM的一體化方法能夠?qū)⑽吹卿浽~、歧義排除和普通詞的處理統(tǒng)一起來,我們?cè)贗CTCLAS中進(jìn)行了實(shí)際的應(yīng)用。,敬請(qǐng)指導(dǎo)!謝謝!,

注意事項(xiàng)

本文(中文詞語分析一體化系統(tǒng).ppt)為本站會(huì)員(xt****7)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!