手寫數(shù)字識別[共29頁]

上傳人:gfy****yf 文檔編號:44969787 上傳時間:2021-12-06 格式:DOC 頁數(shù):29 大?。?49KB
收藏 版權(quán)申訴 舉報(bào) 下載
手寫數(shù)字識別[共29頁]_第1頁
第1頁 / 共29頁
手寫數(shù)字識別[共29頁]_第2頁
第2頁 / 共29頁
手寫數(shù)字識別[共29頁]_第3頁
第3頁 / 共29頁

下載文檔到電腦,查找使用更方便

12 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《手寫數(shù)字識別[共29頁]》由會員分享,可在線閱讀,更多相關(guān)《手寫數(shù)字識別[共29頁](29頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。

1、1.1 字符識別概述OCR(Optical Character Recognition)即光學(xué)字符識別技術(shù),是通過掃描儀把印刷體或手寫體文稿掃描成圖像,然后識別成相應(yīng)的計(jì)算機(jī)可直接處理的字符。OCR是模式識別的一個分支,按字體分類主要分為印刷體識別和手寫體識別兩大類。對于印刷體識別又可以分成單一字體單一字號和多種字體多種字號幾類。而手寫體識別又可分為受限手寫體和不受限手寫體兩類;按識別方式可分為在線識別和脫機(jī)識別兩類。字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機(jī)手寫方面技術(shù)已趨向成熟,并推出了很多

2、應(yīng)用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯?dāng)?shù)字及少量特殊符號組成的各種編號和統(tǒng)計(jì)數(shù)據(jù),如:郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手寫數(shù)字識別。在整個OCR領(lǐng)域中,最為困難的就是脫機(jī)自由手寫字符的識別。到目前為止,盡管人們在脫機(jī)手寫英文、漢字識別的研究中已取得很多可喜成就,但距離實(shí)用還有一定距離。而在手寫數(shù)字識別這個方向上,經(jīng)過多年研究,研究工作者已經(jīng)開始把它向各種實(shí)際應(yīng)用推廣,為手寫數(shù)據(jù)的高速自動輸入提供了一種解決方案。1.2 數(shù)字識別研究的目的及意義人類社會己開始進(jìn)入信息時代,信息產(chǎn)業(yè)的發(fā)展將對國家的發(fā)達(dá)和民族的興旺產(chǎn)生重大的影響。因此,世界各國對信息產(chǎn)業(yè)的發(fā)展

3、都給予了極大的關(guān)注和重視。人類社會的不斷進(jìn)步帶來了信息空間的增長和積累,而計(jì)算機(jī)的出現(xiàn)為現(xiàn)代化信息處理提供了有效的手段。但是,在信息技術(shù)高速發(fā)展的同時,一個難題也擺在我們面前,那就是計(jì)算機(jī)數(shù)據(jù)處理和網(wǎng)絡(luò)傳輸?shù)母咚俣扰c數(shù)據(jù)輸入的低速度之間的矛盾。目前,人類的許多信息是記錄在紙上的文字圖像,將這些信息輸入計(jì)算機(jī)是非常繁瑣而低效率的工作,這在一定的程度上減緩了社會信息化的進(jìn)程。因而,作為信息化基礎(chǔ)的數(shù)據(jù)輸入成了計(jì)算機(jī)應(yīng)用中的瓶頸問題。人們接受信息最頻繁的是視覺通道.在日常學(xué)習(xí)和生活中,所處理的信息有75%85%是視覺信息,其中文字信息愈來愈占重要地位.比如對各種期刊文獻(xiàn)的閱讀、查找、翻譯:對各種統(tǒng)計(jì)

4、報(bào)表的匯總、計(jì)算、分析;對各種函件票證的分揀、傳送、驗(yàn)核等。要實(shí)現(xiàn)對這些文字信息處理過程的機(jī)械化、自動化,其先決條件就是利用計(jì)算機(jī)對這些文字信息進(jìn)行識別。字符識別是利用計(jì)算機(jī)自動辨識印刷在紙上或人寫在紙上的漢字,是模式識別的一個重要分支,也是文字識別領(lǐng)域較為困難的問題之一。本技術(shù)涉及模式識別、圖像處理、數(shù)字信號處理、自然語言理解、人工智能、模糊數(shù)學(xué)、信息論、計(jì)算機(jī)、中文信息處理等學(xué)科,是一門綜合性技術(shù),在中文信息處理、辦公室自動化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域,都有著重要的實(shí)用價(jià)值和理論意義。因此,手寫數(shù)字的識別研究有著重大的現(xiàn)實(shí)意義,一旦研究成功并投入應(yīng)用,將產(chǎn)生巨大的社會和經(jīng)濟(jì)效益。1.

5、3 手寫數(shù)字識別的典型應(yīng)用手寫數(shù)字識別有著極為廣泛的應(yīng)用前景,這也正是它受到世界各國的研究工作者重視的一個主要原因。下面將介紹一些以手寫數(shù)字識別技術(shù)為基礎(chǔ)的典型應(yīng)用。(一)手寫數(shù)字識別在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)中的應(yīng)用在大規(guī)模的數(shù)據(jù)統(tǒng)計(jì)12(如:行業(yè)年鑒、人口普查等)中,需要輸入大量的數(shù)據(jù),以前需要手工輸入,需要耗費(fèi)大量的人力和物力。近年來在這類工作中采用OCR技術(shù)已成為一種趨勢。因?yàn)樵谶@種應(yīng)用中,數(shù)據(jù)的錄入是集中組織的,所以往往可以通過專門設(shè)計(jì)表格和對書寫施加限制以便于機(jī)器的自動識別。目前國內(nèi)的大多數(shù)實(shí)用系統(tǒng)都要求用戶按指定規(guī)范在方格內(nèi)填寫。另外,這些系統(tǒng)往往采用合適的用戶界面對識別結(jié)果做全面的檢查,

6、最終保證結(jié)果正確無誤4??梢钥闯?,這是一類相對容易的應(yīng)用,對識別核心算法的要求比較低,是目前國內(nèi)很多單位應(yīng)用開發(fā)的熱點(diǎn)。(二)手寫數(shù)字識別在財(cái)務(wù)、稅務(wù)、金融領(lǐng)域中的應(yīng)用財(cái)務(wù)、稅務(wù)、金融是手寫數(shù)字識別大有可為的又一領(lǐng)域。隨著我國經(jīng)濟(jì)的迅速發(fā)展,每天等待處理的財(cái)務(wù)、稅務(wù)報(bào)表、支票、付款單等越來越多。如果能把它們用計(jì)算機(jī)自動處理,無疑可以節(jié)約大量的時間、金錢和勞力。與上面提到的大規(guī)模數(shù)據(jù)統(tǒng)計(jì)處理相比,在這個領(lǐng)域的應(yīng)用難度更大,原因有:1、對識別的精度要求更高;2、處理的表格通常不止一種,所以一個系統(tǒng)應(yīng)具有智能地同時處理若干種表格的能力;3、由于處理貫穿于整個日常工作之中,書寫應(yīng)盡量按一般習(xí)慣(如:不

7、對書寫者的寫法做限定,書寫時允許寫連續(xù)的字串,而不是在固定的方格內(nèi)書寫),這樣對識別及預(yù)處理的核心算法要求也提高了。1.4 國內(nèi)外研究現(xiàn)狀手寫體數(shù)字識別在學(xué)科上屬于模式識別和人工智能的范疇。在過去的數(shù)十年中,研究者提出了許多識別方法,目前手寫體數(shù)字識別方法可以分為兩類:基于結(jié)構(gòu)特征的方法和基于統(tǒng)計(jì)特征的方法。通過幾十年來各國研究學(xué)者得對數(shù)字識別的研究,國內(nèi)外在手寫識別上也取得了一定的成就。在我國郵電部第三研究所,以信函分揀為目的,識別書寫在信封上的郵政編碼。其它用傳統(tǒng)方法進(jìn)行識別研究的有中國科學(xué)院自動化研究所,該所對手寫體數(shù)字識別的研究歷史幾乎有20年了,在他們新近的報(bào)告中,利用以有限狀態(tài)自動

8、機(jī)為主的識別途徑識別1100個手寫體數(shù)字,識別率達(dá)95.2%,拒識4%,誤識0.2%,上海交通大學(xué)基于壓縮字結(jié)構(gòu)特征的手寫體數(shù)字識別算法選取了12600個樣本組成訓(xùn)練集,6000個樣本組成測試集,用BP網(wǎng)絡(luò)進(jìn)行分類,識別正確率為97.58%,誤識率為1.04%,拒識率為1.38%。 德國E9的Friedhelm Schwenker采用SV-RBF40對手寫體數(shù)字進(jìn)行識別,測試樣本10000個,識別正確率為98.56%。清華大學(xué)采用SVM對金融票據(jù)中的手寫體數(shù)字進(jìn)行識別,測試樣本20000個,識別率約為92%。然而以上提到的系統(tǒng),要么對書寫的正規(guī)程度有要求,要么其測試樣本和訓(xùn)練樣本出于同一批人之

9、手??傊?,一般的系統(tǒng)對書寫人員限制較多,或者對書寫的正規(guī)程度有要求,或者對書寫位置有要求,或者對所用筆、紙有要求,例如對稅務(wù)報(bào)表的識別就要求用規(guī)定的字型書寫數(shù)字,并且對書寫的位置有要求,而真正的無限制手寫體數(shù)字的識別的研究還有待進(jìn)一步提高。1.5 手寫體數(shù)字識別系統(tǒng)概述本文的手寫體數(shù)字識別系統(tǒng)總體流程可分為兩大步驟。(見圖1.1)。 圖像預(yù)處理神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)字識別圖1.1系統(tǒng)總流程圖其中圖像預(yù)處理的流程如圖1.2 所示。 讀取圖片灰度化二值化歸一化調(diào)整數(shù)字分割去噪聲圖像細(xì)化圖1.2 圖像預(yù)處理流程圖神經(jīng)網(wǎng)絡(luò)數(shù)字識別的具體流程如圖1.3 所示。樣本訓(xùn)練識別字符特征提取圖1.3 神經(jīng)網(wǎng)絡(luò)數(shù)字識別流

10、程圖1) 圖像預(yù)處理階段在獲取原始數(shù)字圖像過程中,由于光照、背景紋理、鏡頭分辨率、拍攝角度等原因,難免會造成圖像失真并帶有噪聲。由于這些噪聲的影響,如果對獲取得到的數(shù)字圖像進(jìn)行直接處理的話通常不能得到滿意的結(jié)果,因此在獲取原始數(shù)字圖像后,需要對圖像進(jìn)行預(yù)處理。對于字符識別的預(yù)處理過程一般包括:二值化、去噪聲、數(shù)字分割、歸一化處理、圖像細(xì)化。經(jīng)過預(yù)處理后的圖片不僅能夠有效濾除噪聲,并且能夠?qū)⒉煌拇笮∽址M(jìn)行歸一化到一個固定大小,對大量數(shù)據(jù)進(jìn)行壓縮處理。預(yù)處理階段在該系統(tǒng)中是一個很重要的階段。預(yù)處理效果的好壞會直接影響到整個系統(tǒng)的性能。具體方法可以詳見第二章。2) 特征提取階段由于原始數(shù)字圖像數(shù)

11、據(jù)量大,冗余信息較多,一般不進(jìn)行直接識別,而是進(jìn)行提取有效特征數(shù)據(jù)、壓縮數(shù)據(jù),然后再進(jìn)行識別。換句話說特征提取是為了去除圖像信息中對分類沒有幫助的部分,將圖像信息集中到幾個有代表性的特征上來的過程。3) 數(shù)字識別階段我們將提取到的特征值輸入到已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類識別。1.6 本文內(nèi)容安排本文內(nèi)容上總體安排為六章。第一章主要是對OCR和手寫體數(shù)字識別作簡單的介紹。介紹內(nèi)容有:OCR及手寫體數(shù)字識別的歷史及現(xiàn)狀;手寫體數(shù)字識別的典型應(yīng)用;國內(nèi)外的研究現(xiàn)狀;數(shù)字識別系統(tǒng)的整體描述以及本文的研究內(nèi)容。第二章:主要是研究手寫體數(shù)字識別中的預(yù)處理技術(shù)。本文采用預(yù)處理有灰度化,二值化,去噪聲,歸一

12、化,細(xì)化等技術(shù),該章節(jié)對其進(jìn)行詳細(xì)分析。同時本章針對幾種閾值分割進(jìn)行比較,分析其各自的優(yōu)缺點(diǎn)。第三章:主要研究的是手寫體數(shù)字識別中的特征值提取技術(shù)。在特征值提取模塊中,需要根據(jù)特征表達(dá)方式或者特征提取技術(shù)的不同,選用不同的預(yù)處理技術(shù)。第四章:主要簡單介紹神經(jīng)網(wǎng)絡(luò)分類識別器實(shí)現(xiàn)原理。初步介紹本文采用的BP神經(jīng)網(wǎng)絡(luò),并給出本文采用的學(xué)習(xí)算法和訓(xùn)練算法。第五章:介紹了本文實(shí)現(xiàn)的系統(tǒng)的開發(fā)和運(yùn)行環(huán)境,以及系統(tǒng)的處理過程圖,系統(tǒng)界面。給出實(shí)驗(yàn)結(jié)果分析。第六章:對整個論文的研究和工作進(jìn)行了總結(jié)并指出了進(jìn)一步的研究方向。2 手寫體數(shù)字識別中預(yù)處理技術(shù)預(yù)處理對于一個良好的識別系統(tǒng)不僅是一個必不可少的環(huán)節(jié),而且

13、是至關(guān)重要的。如果預(yù)處理處理得不夠理想,會從很大程度上降低整個系統(tǒng)的識別率。一般手寫體數(shù)字識別而言,預(yù)處理包括很多部分,如去噪聲、灰度化、二值化、歸一化、細(xì)化等等。2.1 圖像灰度化所謂灰度圖像就是圖像的每一個象素的R、G、B分量的值是相等的。彩色圖像的每個象素的R、G、B值是不相同的,所以顯示出紅綠藍(lán)等各種顏色?;叶葓D像沒有這些顏色差異,有的只是亮度上的不同?;叶戎荡蟮南笏攸c(diǎn)比較亮(象素值最大為255,為白色),反之比較暗(象素值最小為0,為黑色)。對讀取到的圖片進(jìn)行灰度處理,為下一步二值化做好準(zhǔn)備工作。圖像灰度化有各種不同的算法,比較直接的一種就是給象素的rgb 值各自一個加權(quán)系數(shù),然后求

14、和。圖2.1測試圖像原圖圖2.2灰度化效果圖2.2 圖像二值化在進(jìn)行了灰度化處理之后,圖像中的每個象素只有一個值,那就是象素的灰度值。它的大小決定了象素的亮暗程度。為了更加便利的開展下面的圖像處理操作,還需要對已經(jīng)得到的灰度圖像做一個二值化處理。圖像的二值化就是把圖像中的象素根據(jù)一定的標(biāo)準(zhǔn)分化成兩種顏色。在數(shù)字圖像處理中,二值化占有非常重要的地位。這是因?yàn)?,一方面類似于字符、指紋、工程圖等圖像本身就是二值的。另一方面,在某些情況下即使圖像本身是有灰度的,也將其轉(zhuǎn)換成二值圖像再處理。這樣在圖像處理系統(tǒng)中,可以減少圖像信息并提高處理速度。圖像的二值化有幾種類型,其中主要的有基于灰度分布的二值化,也

15、有基于梯度信息的二值化。基于灰度分布的二值化處理一般是通過設(shè)定閾值,把它變?yōu)閮H用二值表示前景和背景顏色的圖像。圖像的二值化可以根據(jù)下面的閾值來處理:假設(shè)一幅原始圖像的象素值p(i,j)的取值范圍為0,m,那么設(shè)有其閾值為T=t,0tm,則映射成新的二值圖像的象素值p(i,j)為: (式2.1)對于基于灰度分布的二值化就是一個帶閾值T的二值映射過程,其分割效果的關(guān)鍵在于閾值T的選取。有的應(yīng)用可以由計(jì)算機(jī)自動選取,有的則需要人工干預(yù),所以閾值T的選取視應(yīng)用范圍而有所不同。對于字符識別來說,只需要保留文字特征的二值信息即可。目前,眾多學(xué)者對此已經(jīng)進(jìn)行了比較詳細(xì)的研究,并提出了許多閾值選取的算法,這些

16、算法大體上可以劃分為三類:整體閾值法,局部閾值法和動態(tài)閾值法。1) 整體閾值法(又稱全局閾值法)僅由象素點(diǎn)(i,j)的灰度值p(i,j)確定閾值的方法稱為整體閾值選擇法。典型的閾值選取算法有直方圖法,熵閾值法等等,一般地,如果圖像灰度直方圖呈現(xiàn)雙峰,或者圖像中背景灰度與目標(biāo)灰度呈明顯分離狀,整體閾值法分割圖像效果良好且速度快。2) 局部閾值法由象素(i,j)的灰度值p(i,j)和象素周圍點(diǎn)的局部灰度特性確定閾值的方法稱為局部閾值法。不同的閾值法源于N(i,j)的不同選擇。對于書寫質(zhì)量差,干擾較嚴(yán)重的字符,采用整體閾值法二值化,效果不太理想,局部閾值法有可能得到較為滿意的二值化結(jié)果。3) 動態(tài)閾

17、值法當(dāng)閾值選擇不僅取決于該象素閾值及其周圍各象素的灰度值,而且還和象素坐標(biāo)位置相關(guān)時,稱之為動態(tài)閾值法。這種方法可以處理低質(zhì)量甚至單峰直方圖圖像。對文字圖像而言,由于筆畫和背景的區(qū)分比較明顯,并且動態(tài)閾值法的實(shí)現(xiàn)較為復(fù)雜、計(jì)算時間相對長,因此在文字識別中很少采用。對于以上三種二值化算法中,由于動態(tài)閾值法實(shí)現(xiàn)較為復(fù)雜而且用時較長,很難滿足文字識別中的實(shí)時性要求,因此該算法在字符識別系統(tǒng)中很少被采用。采用整體閾值法和局部閾值法能很好的將背景和目標(biāo)進(jìn)行分割。本系統(tǒng)采用整體閾值法。鑒于在實(shí)際中,考慮到所要進(jìn)行處理的圖像大多是從印刷出版物上掃描得來的底色大多為白色所以我們將這個閾值固定為230。二值化后

18、效果如圖2.3。圖2.3二值化效果圖2.3 圖像反色圖像的反色工作只是為了后期處理識別圖像方便,并不是必須的過程。反色只是對二值化后的圖像象素值取反。即黑色(象素值為0)轉(zhuǎn)變?yōu)榘咨ㄏ笏刂禐?),白色(象素值為1轉(zhuǎn)變?yōu)楹谏ㄏ笏刂禐?)。 圖2.4反色效果圖2.4 圖像去噪聲噪聲對于圖像的預(yù)處理非常重要,它會影響圖像處理的輸入、采集、處理各個環(huán)節(jié)和識別結(jié)果的全過程。特別是圖像的輸入、采集的噪聲是十分關(guān)鍵的問題。如果輸入不良伴有較大的噪聲,濾波去噪后不能達(dá)到理想效果,將必然的嚴(yán)重影響處理的全過程以至最后的識別結(jié)果。噪聲去除已經(jīng)成為圖像處理極其重要的步驟,然而現(xiàn)在還沒有一個通用的濾波去噪方法對所有

19、的圖片適用,一般的圖像預(yù)處理必須根據(jù)實(shí)際情況選擇不同濾波去噪方法進(jìn)行比較,最后得出最佳的濾波去噪方法。通常去噪聲用濾波的方法,比如中值濾波、均值濾波。但是那樣的算法不適合用在處理字符這樣目標(biāo)狹長的圖像中,因?yàn)樵跒V波的過程中很有可能會去掉字符本身的象素。系統(tǒng)采用的是去除雜點(diǎn)的方法來進(jìn)行去噪聲處理的。具體算法描述如下:1)掃描整個圖像的每個象素并取得此象素9領(lǐng)域的象素值(如圖2.5)。2)分別計(jì)算0和1的總數(shù)S0 ,S1 。3)if S0 5 x=0;if S1 5x=1;4)重復(fù)步驟1)直至不再改變。0110x0010圖2.5 領(lǐng)域示意圖經(jīng)過上述算法去離散噪聲后,很好的排除了離散噪聲點(diǎn)的干擾。效

20、果如圖2.6所示。 圖2.6 去離散噪聲效果圖2.5 數(shù)字分割系統(tǒng)在讀進(jìn)來的圖像中一般會含有多個數(shù)字,識別的時候只能根據(jù)每個字符的特征來進(jìn)行判斷,所以還要進(jìn)行字符分割的工作。這一步工作就是把圖像中的字符獨(dú)立的分割出來。具體的算法如下:第一步,先自下向上對圖像進(jìn)行逐行掃描直至遇到第一個白色的象素點(diǎn)。記錄下來。然后再由上向下對圖像進(jìn)行逐行掃描直至找到第一個白色象素,這樣就找到圖像大致的高度范圍。第二步,在這個高度范圍之內(nèi)在自左向右逐列進(jìn)行掃描,遇到第一個白色象素時認(rèn)為是字符分割的起始位置,然后繼續(xù)掃描,直至遇到有一列中沒有白色象素,則認(rèn)為這個字符分割結(jié)束,然后繼續(xù)掃描,按照上述的方法一直掃描直至圖

21、像的最右端。這樣就得到了每個字符的比較精確寬度范圍。第三步,在已知的每個字符比較精確的寬度范圍內(nèi),按照第一步的方法,分別進(jìn)行自上而下和自下而上的逐行掃描來獲取每個字符精確的高度范圍。圖2.7數(shù)字分割效果圖2.5 數(shù)字歸一化對于字符識別來說,歸一化是一個很重要的預(yù)處理因素。由于人們在書寫、設(shè)備使用焦距不同等原因可以導(dǎo)致獲取后的數(shù)字圖像字符的大小不一。對于大小不一的字符圖像,處理起來很不方便,因此在通常情況下,在對字符進(jìn)行預(yù)處理的時候,我們必須將單個字符進(jìn)行歸一化處理。歸一化處理一般的是將單字符圖像進(jìn)行歸一化到固定的大小的數(shù)字圖像,例如本文采用的歸一化后的數(shù)字圖像大小為1616。進(jìn)過歸一化處理后,

22、一般的能夠?qū)⒋蟮淖址麍D像信息進(jìn)行縮小到固定大小的數(shù)字圖像,這樣在提高識別率的同時也能提高處理的效率。歸一化包括位置歸一化,大小歸一化及筆畫粗細(xì)歸一化。這里主要進(jìn)行位置和大小的歸一化,而筆畫粗細(xì)的歸一化可以看做是數(shù)字的細(xì)化。(1)位置歸一化為了消除數(shù)字點(diǎn)陣位置上的偏差,需要把整個數(shù)字點(diǎn)陣圖形移動到規(guī)定的位置上,這個過程稱作位置歸一化。有兩種簡單的位置歸一化方法。一種是基于質(zhì)心的位置歸一化方法;另一種是基于文字外邊框的位置歸一化?;谫|(zhì)心的位置歸一化方法首先計(jì)算數(shù)字的質(zhì)心,然后在把質(zhì)心移動到指定的位置上來?;跀?shù)字外邊框的位置歸一化需要首先計(jì)算文字的外邊框,并找出中心,然后把數(shù)字中心一道指定的位置

23、上來。相對而言,質(zhì)心的計(jì)算是全局性的,基于質(zhì)心的歸一化方法抗干擾能力更強(qiáng)。(2)大小歸一化對不同的數(shù)字做變換,使之成為尺寸大小的數(shù)字,這個過程被稱做大小歸一化。因?yàn)閽呙柽M(jìn)來的圖像中字符大小存在較大的差異,而相對來說,統(tǒng)一尺寸的字符識別的標(biāo)準(zhǔn)性更強(qiáng),準(zhǔn)確率自然也更高,標(biāo)準(zhǔn)化圖像就是要把原來各不相同的字符統(tǒng)一到同一尺寸,在系統(tǒng)實(shí)現(xiàn)中是統(tǒng)一到同一高度,然后根據(jù)高度來調(diào)整字符的寬度。主要是通過將字符的外邊框按比例線性放大或者壓縮為規(guī)定尺寸的字符來實(shí)現(xiàn)。本文主要是對圖像進(jìn)行大小的歸一化,將字符圖像歸一化為標(biāo)準(zhǔn)尺度,便于處理與識別。具體算法如下:先得到原來字符的高度,跟系統(tǒng)要求的高度做比較,得出要變換的系

24、數(shù),然后根據(jù)得到的系數(shù)求得變換后應(yīng)有得寬度。再得到寬度高度之后,把新圖像里面的點(diǎn)按照插值的方法映射到原圖像中。比例縮放所產(chǎn)生的圖像中的像素可能在原圖像中找不到相應(yīng)的像素點(diǎn),這樣必須進(jìn)行插值處理。插值處理常用的方法有兩種,一種是最鄰近插值法,即直接賦值為和它最相近的像素值,這種方法計(jì)算簡單,但有時會出現(xiàn)馬賽克現(xiàn)象。另一種是通過一些插值算法來計(jì)算相應(yīng)的像素值,常采用線性插值法,原理是,當(dāng)求出的分?jǐn)?shù)地址與像素點(diǎn)不一致時,求出周圍四個像素點(diǎn)的距離比,根據(jù)該比率,由四個鄰域的像素灰度值進(jìn)行線性插值。該算法處理效果要好些,但是運(yùn)算量比較大。在本次設(shè)計(jì)中,主要是對數(shù)字圖像進(jìn)行壓縮,直接采用了最鄰近插值法,處

25、理后的效果比較好。歸一化算法流程如圖2.8。二值去噪后的圖像計(jì)算字符圖像的高度和寬度根據(jù)規(guī)定的標(biāo)準(zhǔn)高寬計(jì)算縮放因子計(jì)算新圖像的像素點(diǎn)映射到原圖像的坐標(biāo)利用臨近插值法計(jì)算新圖像像素點(diǎn)的值圖2.8 歸一化算法流程圖 圖2.9 歸一化效果圖2.5 數(shù)字細(xì)化字符細(xì)化是通過一定的處理算法將字符重要的像素點(diǎn)保留下來,去除無關(guān)緊要的點(diǎn),得到字符筆劃骨架的技術(shù)。對字符識別而言,字符圖像上的各個像素點(diǎn)對識別率的貢獻(xiàn)并不一樣,細(xì)化處理能極大的消除字符圖像中的冗余點(diǎn),使計(jì)算機(jī)在分析處理、識別時不受筆劃粗細(xì)的影響,快速的接觸到本質(zhì)內(nèi)容,減少運(yùn)算量,從而縮短識別的時間。字符圖像細(xì)化結(jié)果的好壞將直接影響到字符特征提取的準(zhǔn)

26、確與否(尤其是一些結(jié)構(gòu)特征的提取),最終影響到整個字符識別系統(tǒng)的識別率,因而字符細(xì)化已成為字符識別系統(tǒng)中極為重要的環(huán)節(jié)之一。在圖像分析中,形狀信息是十分重要的。為了便于描述形狀信息和提取特征,對那些細(xì)長的區(qū)域常用它的“類似骨架”的細(xì)線來表示(如字符筆劃),這些細(xì)線處于圖形的中軸附近,而且從視覺上來說仍然保持原來的形狀。這種處理就是所謂的細(xì)化。經(jīng)過細(xì)化的文字圖像既保留了原文字絕大部分特征,又利于特征提取,而且圖像字符點(diǎn)陣比原圖像的要少,降低了處理工作量。但是由于細(xì)化骨架有可能會造成新的畸變,增加對識別的干擾和困難,所以文字細(xì)化的基本要求如下:1) 要保持原有筆劃的連續(xù)性,不能由于細(xì)化造成筆劃斷開

27、。2) 要細(xì)化為單線,即筆劃寬度只有一個像素。3) 細(xì)化后的骨架應(yīng)盡量是原來筆劃的中心線。4) 要保持原有的拓?fù)洹缀翁卣?,特別是一些明顯的拐角不應(yīng)被平滑掉。按照上面的要求,一副圖像的細(xì)化骨架就可以表示原始圖像中物體的結(jié)構(gòu),所以在物體識別和物體定位中,常常使用物體的細(xì)化骨架信息。由于細(xì)化骨架具有良好的結(jié)構(gòu)描述特性,所以近幾十年來,許多學(xué)者已經(jīng)提出了很多相關(guān)的細(xì)化算法,并將其用在不同的字符識別中。細(xì)化算法的大體分類如下:1) 按細(xì)化后圖形的連續(xù)性分,有四鄰域連接算法,八鄰域連接算法。四鄰域連接算法是在水平垂直四個方向的連接,八鄰域連接則是在四鄰域的基礎(chǔ)上加上正反45o對角線方向,總共八個方向。2

28、) 按細(xì)化處理過程分,有串行、并行和串并行處理法。用MN(一般采用33或者55)的窗口對某一像素進(jìn)行檢測時,如該點(diǎn)是可刪除點(diǎn),立即刪除,則為串行細(xì)化處理,它的刪除要影響到后續(xù)點(diǎn)的檢測;如對邊緣點(diǎn)全部檢測完畢后,再同時更新所有可刪除點(diǎn)的值,則為并行細(xì)化處理;串行、并行處理混合處理則屬于串并行處理。3) 按細(xì)化的運(yùn)算方式分為兩種,即邊緣點(diǎn)刪除和內(nèi)點(diǎn)保留。傳統(tǒng)的基于邊緣點(diǎn)刪除的細(xì)化算法,在細(xì)化過程中只對邊緣點(diǎn)的可刪除進(jìn)行判斷并做相應(yīng)的處理,由于受跟蹤順序及所考察領(lǐng)域的影響,容易產(chǎn)生骨架的非對稱性;基于內(nèi)點(diǎn)保留的細(xì)化算法,容易使所得的骨架大于一個像素。本文采用了像素領(lǐng)域分析法的細(xì)化算法,在速度和保留結(jié)

29、構(gòu)信息的準(zhǔn)確性上較佳。其算法如下:1) 對圖像以每33大小劃分子網(wǎng)格,對每個子網(wǎng)格進(jìn)行兩次操作,其中每個33子網(wǎng)格滿足如下矩陣形式: 2) 在第一次操作時,當(dāng)且僅當(dāng)條件G1,G2和G3被全部滿足時,則刪除中心像素p(即讓p = 0)。3) 在第二次操作時,當(dāng)且僅當(dāng)條件G1,G2和G4被全部滿足時,則刪除中心像素p(即讓p=0)。條件G1為:,其中,其中,為圍繞p點(diǎn)的8領(lǐng)域的映射值。條件G2為:,其中,條件G3為:條件G4為 對圖像每個像素都進(jìn)一次上述運(yùn)算,視為完成一次細(xì)化運(yùn)算,然后重復(fù)迭代這個細(xì)化運(yùn)算,直到圖像不再變化為止,這時得到的圖像中字符筆畫均為單像素點(diǎn),并良好保留了字符的結(jié)構(gòu)信息。效果

30、如圖2.10所示。圖2.10細(xì)化效果圖為了更好的顯示細(xì)化效果,見放大效果圖2.11。 圖2.11 細(xì)化效果放大圖如圖所示,數(shù)字8經(jīng)細(xì)化后很好的得到了8的骨架。3 手寫體數(shù)字識別中特征值提取技術(shù)3.1 特征提取概述模式識別使用特征來區(qū)分不同的種類,因此,特征提取是一個模式識別系統(tǒng)的關(guān)鍵部分。特征提取的目標(biāo)是找到某種變換,將n維或nn維的模式類別空間轉(zhuǎn)換到維數(shù)更小的特征空間,并同時保留識別所需要的大部分信息。通過特征提取,模式分類可以在維數(shù)低得多的空間上進(jìn)行,從而降低了計(jì)算的復(fù)雜度。而且,對給定的訓(xùn)練樣本進(jìn)行特征提取可以獲得更精確的分類函數(shù)的描述,以構(gòu)造更可靠的分類規(guī)則。模式特征對于分類是十分重要

31、的,數(shù)字識別的關(guān)鍵在于能否找出有效的特征,選取的特征是否具有可辨性、可靠性、獨(dú)立性和特征數(shù)量少。具體來說,特征的可辨性是指屬于不同類別的樣本,特征應(yīng)該有相對差別較大的值,這樣不同類別的樣本才能區(qū)分的開;特征的可靠性是指對與屬于同一類別的樣本,而其應(yīng)具有穩(wěn)定性,這樣同一類別的樣本才可以判別為同一類別而不至于誤判;特征的獨(dú)立性是指選擇出來的不同特征之間應(yīng)該互不相關(guān),這樣才能減少信息的冗余性;特征的數(shù)量要少是指特征量越少越容易滿足前面的三個原則,處理速度也會相應(yīng)提高。模式識別系統(tǒng)的復(fù)雜度會隨著特征量的增加而迅速增大。更重要的是,訓(xùn)練分類器和判別一個分類器的好壞所需要的數(shù)量也會隨著所用的特征量的數(shù)目呈

32、指數(shù)增長。在一個完善的模式識別系統(tǒng)中,特征提取與選擇技術(shù)通常介于對象特征數(shù)據(jù)采集和分類識別兩個環(huán)節(jié)中間,所抽取與選擇特征的優(yōu)劣,嚴(yán)重的影響著分類器的設(shè)計(jì)和性能。在樣本數(shù)目不是很多的情況下,用很多特征進(jìn)行分類器設(shè)計(jì),無論從計(jì)算復(fù)雜程度還是分類器性能來看都是不合適的,因此研究如何把高維特征空間壓縮到低維特征空間,以便有效的設(shè)計(jì)分類器就成為一個重要的問題,這也是模式識別中的一個關(guān)鍵問題。特征提取方法的選擇是影響識別率的一個至關(guān)重要的因素,必須指出的是,對于不同的識別問題和不同樣本數(shù)據(jù),使用不同的特征提取方法的適應(yīng)性差別是很大的,也就是說,一種特征提取方法對一個問題和數(shù)據(jù)很奏效對另一個問題或數(shù)據(jù)可能失

33、效。一個解決的辦法是尋找不同的數(shù)據(jù)的共同特征,或稱不變量。另一方面,對于一個有限的訓(xùn)練數(shù)據(jù)集,如果使用的是統(tǒng)計(jì)分類器,特征集必須保持在一個合理小的數(shù)量內(nèi)。就數(shù)字識別來說,在實(shí)際過程中,如何選擇若干種特征提取的方法取決于識別的用途。我們必須考慮到待識別的數(shù)字是否有固定的方向和大小,是印刷體還是手寫體,是否存在不同的書寫風(fēng)格,是否有缺損,程度如何。這些有利于縮小特征提取選擇的難度和提高識別率。此外,雖然特征提取是一個好的字符識別系統(tǒng)的重要組成部分,但是對于一個識別系統(tǒng),為了達(dá)到較佳的結(jié)果,其它的步驟,如二值化,歸一化等也需要優(yōu)化處理,并且這些處理不是前后互相獨(dú)立的。特征提取的選擇取決于這些預(yù)處理的

34、結(jié)果。雖然,在一定意義上特征提取和特征選擇都是要達(dá)到降維的目的,只是所實(shí)現(xiàn)的途徑不同,特征提取是通過某種變換的方法組合原始高維特征,獲得一組低維的新特征,而特征選擇是根據(jù)專家的經(jīng)驗(yàn)知識或根據(jù)某種評價(jià)準(zhǔn)則來挑選出那些對分類最優(yōu)影響力的特征,并生成新的特征。有時這兩者并不是截然分開的。例如可以先將原始特征空間映射到維數(shù)較低的空間,在這個空間中再進(jìn)行選擇以進(jìn)一步降低維數(shù)。當(dāng)然也可以先經(jīng)過選擇,去掉那些明顯沒有分類信息的特征,再進(jìn)行映射,以降低維數(shù)。同樣對于手寫體字符的識別,特征提取可以降低字符信息量。去除無用的冗余信息、提高識別系統(tǒng)性能。手寫體字符的識別,常用的特征有結(jié)構(gòu)特征和統(tǒng)計(jì)特征。結(jié)構(gòu)特征和統(tǒng)

35、計(jì)特征各有優(yōu)點(diǎn):結(jié)構(gòu)特征對細(xì)節(jié)變化比較敏感,對噪聲干擾較大的圖像,識別率不高。統(tǒng)計(jì)特征對噪聲不敏感,具有較好的穩(wěn)定性,但對圖像細(xì)節(jié)上的細(xì)微差異不敏感,在待識別字符形狀較相似時易發(fā)生錯誤。所以,統(tǒng)計(jì)特征和結(jié)構(gòu)特征相互之間具有一定的互補(bǔ)性。3.2 手寫體字符特征提取方法概述特征提取是整個字符識別系統(tǒng)的關(guān)鍵,識別算法是根據(jù)選取特征的種類來進(jìn)行選擇的。所選取的特征是否是穩(wěn)定,是否代表一類字符的特點(diǎn),是系統(tǒng)識別率的高低關(guān)鍵。由上節(jié)可知手寫體字符特征提取的方法可分為結(jié)構(gòu)特征和統(tǒng)計(jì)特征兩種,下面就分別簡單介紹這兩種特征提取方法的特點(diǎn)與一般方法。1) 結(jié)構(gòu)特征提取方法采用結(jié)構(gòu)特征提取字符進(jìn)行結(jié)構(gòu)分析從而達(dá)到識

36、別的目的,是一種非常直觀的方法,其思想與人認(rèn)字的原理有點(diǎn)相像,但又有所不同。其基本思想是:字符可以逐級分解成部件、筆劃乃至筆段,識別時可以自底向上,由像素得到筆段,由筆段結(jié)合成筆劃,由筆劃構(gòu)成部件,由部件組成字符,逐級分析字符圖像的結(jié)構(gòu),根據(jù)各元素的屬性、數(shù)量及其互相關(guān)系,便可以判定待識字符。目前研究比較成熟,效果較好的是基于筆劃和基于筆段分析的手寫體字符識別。對不同的字符手寫樣本,盡管人書寫風(fēng)格千變?nèi)f化,然而筆劃與筆劃之間的位置關(guān)系,以筆劃為基元的字符的整體拓?fù)浣Y(jié)構(gòu)是不變的。人認(rèn)字就是抓住了這些本質(zhì)不變的特征,因此能適應(yīng)不同的書寫風(fēng)格的文字。所以,基于筆劃來自動識別字符一直是手寫體字符識別研

37、究的一類主要研究方法。雖然字符的筆劃特征受字體、字形大小等影響較小,是識別字符的良好特征,但可惜筆劃特征對實(shí)際的書寫文本來說比較難穩(wěn)定的提取。通常,用基于筆劃段作為特征能較好的解決這一困難。采用結(jié)構(gòu)特征提取方法的難點(diǎn)在于筆劃或筆段等基元的準(zhǔn)確提取。雖然提取筆劃或筆段的方法已有多種,但他們都是基于圖像處理的方法,截然不同于人根據(jù)知識和經(jīng)驗(yàn)而做出的視覺處理。單純建立在圖像處理方法上的筆段分析只能十分機(jī)械的按圖像就事論事,結(jié)果提取到的筆段難免與人的判別不完全一致。這種情況在存在連筆、斷筆、模糊等場合尤為不可避免。所以,書寫畸變對結(jié)構(gòu)特征分析法有著不可忽視的影響。因此,尋求穩(wěn)定可靠的筆段提取方法仍然是

38、當(dāng)前有待進(jìn)一步研究的課題。2) 統(tǒng)計(jì)特征提取方法從統(tǒng)計(jì)模式識別的觀點(diǎn)來看,字符識別實(shí)際上是一個模式分類問題,人對自然物體的識別,是建立在對該物體進(jìn)行學(xué)習(xí)、特征分析的基礎(chǔ)上的,計(jì)算機(jī)模式識別的過程與人的識別過程有著相似的地方。實(shí)際上就是一種通過學(xué)習(xí)或者其它方法,形成一個記憶知識庫,進(jìn)行模式識別時,清晰地表達(dá)出一種從物體到記憶知識庫的映像,從而得到識別的結(jié)果。人在進(jìn)行物體識別時,是利用大腦中通過學(xué)形成的記憶庫,對識別的物體進(jìn)行一種黑箱式的映像,從記憶庫中找出相匹配的類別。計(jì)算機(jī)要把人類識別物體時的這種黑箱式的映像表達(dá)出來,一般式有兩個步驟完成的:第一步,以適當(dāng)?shù)奶卣鱽砻枋鑫矬w,第二步,計(jì)算機(jī)執(zhí)行某

39、種運(yùn)算完成的映像。此過程實(shí)際上就是傳統(tǒng)的統(tǒng)計(jì)模式識別進(jìn)行物體識別時所采用的一般方法,具體來說就是特征提取和分類函數(shù)的設(shè)計(jì)的問題,而特征提取是問題難點(diǎn)和關(guān)鍵所在。因此如果特征已知,就可以利用現(xiàn)有的數(shù)學(xué)理論來指導(dǎo)設(shè)計(jì)映像函數(shù)。然而,對于特征的選擇和提取,卻沒有可遵循的理論來指導(dǎo),我們很難比較一個物體中哪些特征是實(shí)質(zhì)性,哪些特征是代表性的,哪些特征可能是不重要或與識別無關(guān)緊要的,這些都需要大量的實(shí)驗(yàn)和理論指導(dǎo)。經(jīng)過人們在這方面的大量研究工作,提出了一些統(tǒng)計(jì)特征提取方法。由此可見,對手寫體數(shù)字圖像進(jìn)行特征值的提取,特征值的選擇不僅能濃縮信息、降低維數(shù)、提高處理效率的同時,其對系統(tǒng)的識別性能也有很重要的

40、影響。在3.3和3.4小節(jié)中,我們將詳細(xì)描述本文所采用的2種特征值(共8+16=24種特征值)的提取方法。3.3 手寫體數(shù)字識別中的結(jié)構(gòu)特征提取采用結(jié)構(gòu)特征對字符進(jìn)行結(jié)構(gòu)分析以達(dá)到識別目的是一種非常直觀的方法。字符由各個子部件構(gòu)成,逐級分析字符圖像的結(jié)構(gòu),根據(jù)元素的屬性、數(shù)量及其相互關(guān)系,便可判定待識字符。與統(tǒng)計(jì)方法相比,結(jié)構(gòu)分析不注重特征的絕對位置,只考慮特征的相對關(guān)系,因而對書寫風(fēng)格的變化不敏感,其缺點(diǎn)在于特征提取的算法都相對復(fù)雜。下面將介紹本文采用的穿越密度結(jié)構(gòu)特征向量的提取方法。穿越密度(次數(shù))特征已被廣泛的應(yīng)用于字符識別的研究中。穿線法是取得筆劃密度的一個通用算法,其基本思想是用一組

41、或幾組與水平成0度、30度、45度或者60度等的平行線,貫穿字符,提取字符與平行線的交點(diǎn)信息作為識別的依據(jù)。該算法由于涉及字符拓?fù)浣Y(jié)構(gòu)方面的信息,所以對字符旋轉(zhuǎn)縮放和變形有較強(qiáng)的容忍度。文獻(xiàn)20提出的一種徑向貫穿字符的穿線法,該方法以字符重心為坐標(biāo)原點(diǎn),分別從坐標(biāo)原點(diǎn)以0、45、90、135、180、-135、-90、-45度方向引出8條線穿越字符,以各個方向穿越字符的次數(shù)組成向量作為該字符的徑向筆劃密度特征。但是,當(dāng)書寫風(fēng)格引起統(tǒng)一字符的之心位置不同時,該方法提取的特征準(zhǔn)確性差。本文采用的是整體貫穿法,該方法就是間隔一定距離從垂直和水平方向上進(jìn)行整體穿越,由于本文通過歸一化處理后的圖像的大小

42、是1616的,因此本文采用方法是間隔4個像素進(jìn)行從水平和垂直方向進(jìn)行穿越,從而得到3行、3列上(共6個)的穿越次數(shù)統(tǒng)計(jì)。與水平成45、135度角的兩條穿越線,將這八個數(shù)據(jù)作為特征向量。如圖3.1的第1724這八個特征所示。圖3.1特征向量的提取3.4 手寫體數(shù)字識別中的統(tǒng)計(jì)特征提取統(tǒng)計(jì)特征中最主要的特征為粗網(wǎng)格特征。粗網(wǎng)格特征是一組注重字符圖像的整體的分布特征,此種特征對噪聲具有極強(qiáng)的抑制能力。一般來說,雖然手寫體數(shù)字的書寫風(fēng)格千變?nèi)f化,但是數(shù)字筆劃的分布是有一定的規(guī)律的。由于10個字符的筆劃具有比較固定的總體分布狀況,從特征選擇的質(zhì)量來講,不同數(shù)字的特征向量在特征空間中的分布是比較分散的,即

43、特征空間中不同類的類間距離是比較大的。如圖3.1中116這16個特征所示,本文采用的粗網(wǎng)格特征提取的方法是:把數(shù)字點(diǎn)陣分成幾個局部小區(qū)域,并把每個小區(qū)域上的點(diǎn)陣密度作為描述特征,即統(tǒng)計(jì)每個小區(qū)域中圖像的像素的個數(shù)作為特征數(shù)據(jù)。本文對原始圖像進(jìn)行歸一化處理后的圖像是1616的點(diǎn)陣,將之劃分為大小44的小區(qū)域,共計(jì)16個。4 人工神經(jīng)網(wǎng)絡(luò)分類器4.1 人工神經(jīng)網(wǎng)絡(luò)概述人工神經(jīng)網(wǎng)絡(luò)( Artificial Neural Networks, 簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(Connectionist Model) ,是對人腦或自然神經(jīng)網(wǎng)絡(luò)(Natural Neural Net

44、work)若干基本特性的抽象和模擬。人工神經(jīng)網(wǎng)絡(luò)以對大腦的生理研究成果為基礎(chǔ)的,其目的在于模擬大腦的某些機(jī)理與機(jī)制,實(shí)現(xiàn)某個方面的功能。國際著名的神經(jīng)網(wǎng)絡(luò)研究專家,第一家神經(jīng)計(jì)算機(jī)公司的創(chuàng)立者與領(lǐng)導(dǎo)人Hecht Nielsen給人工神經(jīng)網(wǎng)絡(luò)下的定義就是:“人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓?fù)浣Y(jié)構(gòu)的動態(tài)系統(tǒng),它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)相應(yīng)而進(jìn)行信息處理?!?這一定義是恰當(dāng)?shù)摹?人工神經(jīng)網(wǎng)絡(luò)的研究,可以追溯到 1957年Rosenblatt提出的感知器模型(Perceptron) 。它幾乎與人工智能AI(Artificial Intelligence)同時起步,但30余年來卻并未取得人工智

45、能那樣巨大的成功,中間經(jīng)歷了一段長時間的蕭條。直到80年代,獲得了關(guān)于人工神經(jīng)網(wǎng)絡(luò)切實(shí)可行的算法,以及以Von Neumann體系為依托的傳統(tǒng)算法在知識處理方面日益顯露出其力不從心后,人們才重新對人工神經(jīng)網(wǎng)絡(luò)發(fā)生了興趣,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的復(fù)興。 目前在神經(jīng)網(wǎng)絡(luò)研究方法上已形成多個流派,最富有成果的研究工作包括:多層網(wǎng)絡(luò)BP算法,Hopfield網(wǎng)絡(luò)模型,自適應(yīng)共振理論,自組織特征映射理論等。人工神經(jīng)網(wǎng)絡(luò)是在現(xiàn)代神經(jīng)科學(xué)的基礎(chǔ)上提出來的。它雖然反映了人腦功能的基本特征,但遠(yuǎn)不是自然神經(jīng)網(wǎng)絡(luò)的逼真描寫,而只是它的某種簡化抽象和模擬。神經(jīng)網(wǎng)絡(luò)的研究可以分為理論研究和應(yīng)用研究兩大方面。理論研究可分為以下兩

46、類:1)利用神經(jīng)生理與認(rèn)知科學(xué)研究人類思維以及智能機(jī)理。2)利用神經(jīng)基礎(chǔ)理論的研究成果,用數(shù)理方法探索功能更加完善、性能更加優(yōu)越的神經(jīng)網(wǎng)絡(luò)模型,深入研究網(wǎng)絡(luò)算法和性能, 如:穩(wěn)定性、收斂性、容錯性、魯棒性等;開發(fā)新的網(wǎng)絡(luò)數(shù)理理論,如:神經(jīng)網(wǎng)絡(luò)動力學(xué)、非線性神經(jīng)場等。應(yīng)用研究可分為以下兩類:1)神經(jīng)網(wǎng)絡(luò)的軟件模擬和硬件實(shí)現(xiàn)的研究。2)神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域中應(yīng)用的研究。這些領(lǐng)域主要包括:模式識別、信號處理、知識工程、專家系統(tǒng)、優(yōu)化組合、機(jī)器人控制等。 隨著神經(jīng)網(wǎng)絡(luò)理論本身以及相關(guān)理論、相關(guān)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的應(yīng)用定將更加深入。4.2 BP神經(jīng)網(wǎng)絡(luò)概述在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長一段時間里沒有

47、找到隱層的連接權(quán)值調(diào)整問題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。輸入層各神經(jīng)元負(fù)責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳播處理過程,由輸出層向外界輸出信息處理結(jié)果。當(dāng)實(shí)際輸出與期望輸出不符時,進(jìn)入誤差的

48、反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過程,是各層權(quán)值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 圖4.1 三層前饋神經(jīng)網(wǎng)絡(luò)示意圖4.3 本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)1) 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)模型針對當(dāng)前的脫機(jī)手寫識別,選擇bp神經(jīng)網(wǎng)絡(luò)。2) 神經(jīng)網(wǎng)絡(luò)的層數(shù)、以及各層的節(jié)點(diǎn)數(shù)一般的選擇隱含層的層數(shù)要從網(wǎng)絡(luò)精度和訓(xùn)練時間上考慮,對于比較簡單的映射關(guān)系,在網(wǎng)絡(luò)精度達(dá)到要求的情況下,應(yīng)該盡量選擇較少的隱含層層數(shù),對于較復(fù)雜的映射關(guān)系,可以通過增加

49、隱含層層數(shù),保證映射關(guān)系的正確實(shí)現(xiàn)。其實(shí)兩個隱含層就能解決任何形式的分類的問題,事實(shí)上任何一個連續(xù)的函數(shù),都可以用三層BP神經(jīng)網(wǎng)絡(luò)映射來逼近。因此本文選擇三層BP神經(jīng)網(wǎng)絡(luò)(輸入層、1個隱含層、輸出層)。對于輸入層的節(jié)點(diǎn)數(shù),一般與輸入的特征向量的個數(shù)相同,由于本文提取的字符的特征向量有24個,因此采用的神經(jīng)網(wǎng)絡(luò)的輸入層的節(jié)點(diǎn)數(shù)也為24。對于輸出層的節(jié)點(diǎn)數(shù),由于數(shù)字識別只有10類,2的4次方就可以表示10類,因此本文采用的神經(jīng)網(wǎng)絡(luò)的輸出層的節(jié)點(diǎn)數(shù)為4。對于隱含層的節(jié)點(diǎn)的個數(shù)沒有一個理論基于指導(dǎo),但是根據(jù)前人經(jīng)驗(yàn),一般參照下列公式進(jìn)行設(shè)計(jì): (式4.1)其中為隱含層的節(jié)點(diǎn)數(shù),為輸入節(jié)點(diǎn)的個數(shù),為輸出

50、節(jié)點(diǎn)的個數(shù),一般取110之間的常數(shù)。因此由式5.1(選擇=9),則可計(jì)算得本文采用的隱含層的節(jié)點(diǎn)個數(shù)為14個。3) 輸出層的值確定在2)中已經(jīng)指出,本文采用的輸出層的節(jié)點(diǎn)數(shù)為4。由于目標(biāo)向量如果采取大于1以上的值,可能會導(dǎo)致算法不收斂,因此本文使用目標(biāo)向量0.01來代表0,0.99表示1。所以,數(shù)字09的目標(biāo)向量見表4.1。 表4.1數(shù)字09的目標(biāo)向量數(shù)字00.010.010.010.01數(shù)字10.010.010.010.99數(shù)字20.010.010.990.01數(shù)字30.010.010.990.99數(shù)字40.010.990.010.01數(shù)字50.010.990.010.99數(shù)字60.010.

51、990.990.01數(shù)字70.010.990.990.99數(shù)字80.990.010.010.01數(shù)字90.990.010.010.994) 傳遞函數(shù)確定傳遞函數(shù)的選擇直接影響到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的性能,因此各層之間選擇一個合適的傳遞函數(shù)也是很重要的。本文通過對多種傳遞函數(shù)進(jìn)行測試,最終確定各層的傳遞函數(shù)為:第二層:采用logsin傳遞函數(shù),即對數(shù)S型傳遞函數(shù)。第三層:采用purelin傳遞函數(shù),即線性傳遞函數(shù)。5) 訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)選擇訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)的選擇對訓(xùn)練的時間起著至關(guān)重要的作用,一個好的訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)能夠較好避免神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)解,同時也能夠提升訓(xùn)練的效率。本文采用的訓(xùn)練函數(shù)采

52、用traingdx函數(shù),學(xué)習(xí)函數(shù)采用learngdm函數(shù)。6) 網(wǎng)絡(luò)訓(xùn)練參數(shù)確定在網(wǎng)絡(luò)訓(xùn)練過程中應(yīng)根據(jù)實(shí)際情況預(yù)先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡(luò)模型的收斂的速度大小和具體樣本的學(xué)習(xí)精度來確定。當(dāng)Emin值選擇較小時,學(xué)習(xí)效果好,但收斂速度慢,訓(xùn)練次數(shù)增加。如果Emin值選擇較大時訓(xùn)練不充分。通常選定神經(jīng)網(wǎng)絡(luò)的誤差界值Emin在0.00010.01之間,即在迭代計(jì)算誤差值e Emin時,則認(rèn)為學(xué)習(xí)完成,停止計(jì)算,輸出結(jié)果。有些時候,訓(xùn)練次數(shù)往往很大,甚至不能收斂。此時應(yīng)該設(shè)置一個訓(xùn)練次數(shù)的限制NTmin,在達(dá)到該訓(xùn)練次數(shù)NTmin還沒有收斂到Emin時,可以作放棄或停止處理,本文訓(xùn)練B

53、P網(wǎng)絡(luò)分類器時設(shè)定Emin=0.001,最大訓(xùn)練次數(shù)為NTmin=5000。上面的就是本文神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),圖4.2所示的是本文的神經(jīng)網(wǎng)絡(luò)對樣本數(shù)據(jù)進(jìn)行訓(xùn)練的訓(xùn)練曲線。圖4.2本文神經(jīng)網(wǎng)絡(luò)訓(xùn)練曲線5 系統(tǒng)實(shí)現(xiàn)與結(jié)果分析5.1 系統(tǒng)實(shí)現(xiàn)5.1.1 系統(tǒng)實(shí)現(xiàn)環(huán)境Windows98/2000/XP是當(dāng)前最流行的操作系統(tǒng),現(xiàn)在大部分應(yīng)用系統(tǒng)都是建立在這些平臺上,同時考慮到軟件系統(tǒng)的應(yīng)用領(lǐng)域和可推廣性,我們的系統(tǒng)也是基于Windows XP平臺的。編程軟件采用Matlab。5.1.2 系統(tǒng)處理流程圖及主要工作讀取圖片灰度化二值化歸一化調(diào)整數(shù)字分割去噪聲圖像細(xì)化特征提取識別 圖5.1系統(tǒng)處理流程圖在整個

54、課題中,主要完成以下工作:1) 通過畫圖軟件獲得訓(xùn)練和測試樣本(也可以直接選擇經(jīng)過數(shù)碼相機(jī)怕照獲得的圖像)。2) 使用前文所述方法對圖像進(jìn)行預(yù)處理。3) 建立一套完整的手寫體數(shù)字識別測試系統(tǒng)。5.1.3 系統(tǒng)界面圖5.2系統(tǒng)主要界面5.2 結(jié)果分析在實(shí)驗(yàn)過程中我們分別對10個數(shù)字10個樣本進(jìn)行測試。數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率0100100%1100100%29190%39190%49190%58280%69190%7100100%89090%99190%合計(jì)93793%圖5.3 試驗(yàn)結(jié)果分析從檢測結(jié)果來看,雖然用于訓(xùn)練的數(shù)據(jù)集并不是很多,但誤差率并不是很高,這也體現(xiàn)了BP算法的優(yōu)越性,

55、相信如果用更多的數(shù)據(jù)進(jìn)行訓(xùn)練會使得正確的檢測率提高而錯誤的檢測率降低,從而使網(wǎng)絡(luò)趨于收斂。6 結(jié)束語本文對自由手寫體數(shù)字識別的基本原理及方法作了介紹,并用MATLAB工具實(shí)現(xiàn)了自由手寫體數(shù)字識別系統(tǒng)。在實(shí)際生活中,手寫體數(shù)字識別尤其脫機(jī)手寫體數(shù)字識別的應(yīng)用比較廣泛,例如銀行票據(jù)認(rèn)證、成績自動錄入等等。本文從建立一個完整的脫機(jī)手寫體數(shù)字識別系統(tǒng)的目的出發(fā),對識別系統(tǒng)的重要幾個環(huán)節(jié):預(yù)處理,二值化,分割,分類器進(jìn)行了研究。本文的選取了合適的特征值,進(jìn)行整體識別。通過實(shí)驗(yàn)測試,本文設(shè)計(jì)的系統(tǒng)取得了較好的識別效果并具有良好的抗噪能力。但是還需要從預(yù)處理和特征選擇方面做更深入研究,有待進(jìn)一步提高系統(tǒng)的識別率。在課題研究過程中,由于時間、精力和條件等因素的限制,對一些問題的研究深度不夠,在以下幾個方面還需要做進(jìn)一步研究工作:(l)為了獲得更好的識別效率,從特征向量入手,應(yīng)想辦法提取更精確的特征向量,比如投影特征、環(huán)凸凹特征等。(2)如何簡化圖像預(yù)處理,以及針對某些步驟尋找更簡單有效的方法,完善某些不甚成熟的地方,從而更好的提高識別率。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!