第四章 數(shù)字文本與文本處理

上傳人:hjk****65 文檔編號(hào):204175179 上傳時(shí)間:2023-04-26 格式:PPT 頁(yè)數(shù):7 大小:488KB
收藏 版權(quán)申訴 舉報(bào) 下載
第四章 數(shù)字文本與文本處理_第1頁(yè)
第1頁(yè) / 共7頁(yè)
第四章 數(shù)字文本與文本處理_第2頁(yè)
第2頁(yè) / 共7頁(yè)
第四章 數(shù)字文本與文本處理_第3頁(yè)
第3頁(yè) / 共7頁(yè)

下載文檔到電腦,查找使用更方便

15 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《第四章 數(shù)字文本與文本處理》由會(huì)員分享,可在線閱讀,更多相關(guān)《第四章 數(shù)字文本與文本處理(7頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、第三章第三章第三章第三章數(shù)字文本與文本處理數(shù)字文本與文本處理數(shù)字文本與文本處理數(shù)字文本與文本處理第一節(jié) 字符編碼 在計(jì)算機(jī)中,英文采用ASCII碼 英文l 文字的編碼中文1.漢字的輸入編碼 數(shù)字編碼:用數(shù)字代表漢字字符,電報(bào)碼、區(qū)位碼都屬于數(shù)字編碼 字音編碼:指按照漢字的標(biāo)準(zhǔn)化讀音,使用拼音作為漢字的編碼的方法 字形編碼:是指用漢字的形狀表示的編碼方式。這種編碼方式將漢字依筆劃、偏旁、部首用數(shù)字或字母編碼,然后根據(jù)其組成方式依次輸入 形音編碼:將漢字字音與字型相互結(jié)合的一種編碼方法如全息碼就是一種音形編碼。l 文字的編碼22.漢字的機(jī)內(nèi)編碼 漢字的機(jī)內(nèi)編碼是用于漢字信息的存儲(chǔ)、交換、檢索等操作

2、的機(jī)內(nèi)代碼,一般采用兩個(gè)字節(jié)表示。漢字交換碼:指在不同漢字信息處理系統(tǒng)之間進(jìn)行漢字交換時(shí)使用的編碼。漢字交換碼也稱漢字國(guó)標(biāo)碼GB2312 3.漢字的輸出編碼用點(diǎn)陣表示的漢字字形代碼,漢字的輸出形式。漢字區(qū)位碼:國(guó)標(biāo)字符集構(gòu)成一個(gè)二維平面,它分成94行、94列,行號(hào)稱為區(qū)號(hào),列號(hào)稱為位號(hào)。每一個(gè)漢字或符號(hào)在碼表中都有各自的位置,字符的位置用它所在的區(qū)號(hào)(行號(hào))及位號(hào)(列號(hào))來(lái)表示。漢字的輸入編碼、漢字內(nèi)碼、字模碼是漢字的輸入編碼、漢字內(nèi)碼、字模碼是計(jì)算機(jī)中用于輸入、內(nèi)部處理、輸出三計(jì)算機(jī)中用于輸入、內(nèi)部處理、輸出三種不同用途的編碼,不要混為一類。種不同用途的編碼,不要混為一類。3 OCR(Opt

3、ical Character Recognition 光學(xué)符號(hào)光學(xué)符號(hào)識(shí)別),是指將一份文字稿件以圖像形式輸入給計(jì)算機(jī),識(shí)別),是指將一份文字稿件以圖像形式輸入給計(jì)算機(jī),計(jì)算機(jī)取出每個(gè)文字的圖像,再將其轉(zhuǎn)換成漢字的編碼計(jì)算機(jī)取出每個(gè)文字的圖像,再將其轉(zhuǎn)換成漢字的編碼存入計(jì)算機(jī),以達(dá)到漢字輸入的目的。存入計(jì)算機(jī),以達(dá)到漢字輸入的目的。OCR技術(shù)解決的技術(shù)解決的是已存在于紙介質(zhì)上的文字如何被計(jì)算機(jī)識(shí)別并接收的是已存在于紙介質(zhì)上的文字如何被計(jì)算機(jī)識(shí)別并接收的問(wèn)題。由于是對(duì)掃描后的圖像文件進(jìn)行識(shí)別處理,所以問(wèn)題。由于是對(duì)掃描后的圖像文件進(jìn)行識(shí)別處理,所以稱為脫機(jī)漢字識(shí)別系統(tǒng)。稱為脫機(jī)漢字識(shí)別系統(tǒng)。第二

4、節(jié) 文本輸入技術(shù)文文本本輸輸入入手寫識(shí)別手寫識(shí)別 語(yǔ)音識(shí)別語(yǔ)音識(shí)別光學(xué)字符識(shí)別光學(xué)字符識(shí)別(OCR技術(shù))技術(shù))鍵盤輸入鍵盤輸入非鍵盤輸入非鍵盤輸入4第三節(jié) 文本編輯與處理l 文本編輯 文本編輯的主要功能 對(duì)字、詞、句、段落進(jìn)行添加、刪除、修改等操作 字的處理:設(shè)置字體、字號(hào)、字的排列方向、間距、顏色、效果等 段落的處理:設(shè)置行距、段間距、段縮進(jìn)、對(duì)稱方式等 頁(yè)面布局的處理:設(shè)置頁(yè)邊距、每頁(yè)行列數(shù)、分欄、頁(yè)眉、頁(yè)腳等 “所見即所得”(What You See Is What You Get,簡(jiǎn)稱 WYSIWYG):一方面所有的編輯操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果與打印機(jī)的輸出 結(jié)果相同。5l 文本處理 文本處理的內(nèi)容 字?jǐn)?shù)統(tǒng)計(jì),字頻統(tǒng)計(jì),簡(jiǎn)/繁體相互轉(zhuǎn)換,漢字/拼音相互轉(zhuǎn)換 詞語(yǔ)排序,詞語(yǔ)錯(cuò)誤檢測(cè),文句語(yǔ)法檢查 自動(dòng)分詞,詞頻統(tǒng)計(jì),詞性標(biāo)注,詞義辨識(shí),大陸/臺(tái)灣術(shù)語(yǔ)轉(zhuǎn)換 文本壓縮,文本加密,文本著作權(quán)保護(hù) 關(guān)鍵詞提取,文摘自動(dòng)生成,文本分類 文本檢索(關(guān)鍵詞檢索、全文檢索),文本過(guò)濾 文語(yǔ)轉(zhuǎn)換(語(yǔ)音合成),文種轉(zhuǎn)換(機(jī)器翻譯)篇章理解,自動(dòng)問(wèn)答,自動(dòng)寫作等 文本處理軟件6謝謝 謝!謝!

展開閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!