現(xiàn)有數(shù)學(xué)搜索引擎對比.ppt
《現(xiàn)有數(shù)學(xué)搜索引擎對比.ppt》由會員分享,可在線閱讀,更多相關(guān)《現(xiàn)有數(shù)學(xué)搜索引擎對比.ppt(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
MathSearch簡介現(xiàn)有數(shù)學(xué)搜索引擎對比數(shù)學(xué)標記語言簡介數(shù)學(xué)查詢語言MQL簡介,MathSearch簡介,MathSearch的設(shè)計目標MathSearch的設(shè)計思想MathSearch的研究內(nèi)容,MathSearch的設(shè)計目標,MathSearch是一個可進行數(shù)學(xué)內(nèi)容檢索的基于公式的網(wǎng)絡(luò)數(shù)學(xué)搜索引擎。MathSearch使用語義檢索方式,不僅可以實現(xiàn)基于字面顯示結(jié)構(gòu)的數(shù)學(xué)公式檢索,同時可以實現(xiàn)基于數(shù)學(xué)公式語義的檢索。MathSearch能夠?qū)崿F(xiàn)對含有數(shù)學(xué)公式、數(shù)學(xué)符號的網(wǎng)頁、文檔、資料的搜索。MathSearch支持的具體查詢有:結(jié)構(gòu)查詢,語義查詢,通配符查詢,組合查詢,抽象查詢,MathSearch的設(shè)計思想,Mathsearch利用一系列爬蟲進程從網(wǎng)絡(luò)上收集信息,并判斷其是否含有數(shù)學(xué)相關(guān)的內(nèi)容,如果有則開始下載相應(yīng)的文檔,并從文檔中提取所需數(shù)學(xué)公式、數(shù)學(xué)符號或數(shù)學(xué)相關(guān)內(nèi)容。為了同時支持基于數(shù)學(xué)顯示方式的查詢和基于數(shù)學(xué)公式語義的查詢,Mathsearch為這些公式、符號和數(shù)學(xué)內(nèi)容分別建立面向數(shù)學(xué)公式顯示的Presentation索引和面向數(shù)學(xué)公式語義的Content索引。用戶表達查詢需求時,既可以通過所見即所得的GUI窗口輸入要搜索的內(nèi)容,也可以直接輸入數(shù)學(xué)查詢語言MQL來表達搜索需求。MathSearch對MQL進行解析,查找相應(yīng)的數(shù)學(xué)內(nèi)容,通過合理的算法對這些網(wǎng)頁連接建立PageRank,將結(jié)果排序顯示,并將查找內(nèi)容突出顯示。,MathSearch的設(shè)計思想(續(xù)),,圖:MathSearch設(shè)計思想,MathSearch的研究內(nèi)容(1),數(shù)學(xué)搜索數(shù)據(jù)源的界定及表達方式之間的轉(zhuǎn)換研究MathSearch搜索數(shù)學(xué)公式的主要搜索目標格式為MathML格式,OpenMath格式,中綴格式以及LaTex格式。這幾種格式在表示方法上存在較大差異,MathSearch主要研究不同格式的數(shù)學(xué)公式的等價性及它們之間的相互轉(zhuǎn)換方法。MathSearch在數(shù)學(xué)公式編輯器MathEdit基礎(chǔ)上研究數(shù)學(xué)公式轉(zhuǎn)換器,針對目前Web中比較常見的數(shù)學(xué)公式標記語言MathML,OpenMath,LaTex和Infix進行轉(zhuǎn)換,采用標準的JavaScript,DOM及XSL實現(xiàn),提供可視化的圖形界面,方便用戶編輯、轉(zhuǎn)換和提取負責的數(shù)學(xué)公式。該研究可以有效應(yīng)用于網(wǎng)絡(luò)數(shù)學(xué)搜索引擎中。,MathSearch的研究內(nèi)容(2),數(shù)學(xué)公式查詢語言的研究數(shù)學(xué)搜索引擎的關(guān)鍵在于查詢,在數(shù)學(xué)信息檢索系統(tǒng)中,定義一種直觀的通用的有力的查詢表達方式是一項重點研究內(nèi)容。MathSearch使用了一種基于MathML格式的擴展表達方式作為數(shù)學(xué)查詢語言,通過該查詢語言用戶可以有效便利地對查詢需求進行描述。該查詢語言除支持常規(guī)結(jié)構(gòu)化查詢需求描述外,還支持組合查詢表達和抽象查詢表達,增強了查詢表達力度。,MathSearch的研究內(nèi)容(3),數(shù)學(xué)公式索引的研究索引是針對順序查找的低效率而創(chuàng)建的一種方法。索引是指能把一個關(guān)鍵碼與它對應(yīng)的數(shù)據(jù)記錄的信息相關(guān)聯(lián)的一種數(shù)據(jù)結(jié)構(gòu)。由于數(shù)學(xué)公式本身往往具有豐富的語義和特定的結(jié)構(gòu),當前數(shù)學(xué)搜索主要研究以數(shù)學(xué)公式的布局特征和語法結(jié)構(gòu)進行的搜索。目前,索引技術(shù)主要有以下三種:倒排索引、后綴數(shù)組和簽名文件。其中,倒排索引技術(shù)是當前大多數(shù)的信息檢索系統(tǒng)中采用的索引建立技術(shù),它對于關(guān)鍵詞的搜索非常有效。為了兼顧數(shù)學(xué)公式的顯示和語義,MathSearch提出同時為數(shù)學(xué)公式建立面向公式結(jié)構(gòu)的Presentation索引和面向公式語義的Content索引。在建立基于數(shù)學(xué)公式語義的Content索引時,為了增強語義支持,對于網(wǎng)絡(luò)爬蟲搜集到的每一數(shù)學(xué)公式,要首先對其進行相應(yīng)規(guī)范化。為了實現(xiàn)細粒度的數(shù)學(xué)公式查詢,對于網(wǎng)絡(luò)爬蟲搜集到的每一數(shù)學(xué)公式,要分為若干N-grams的數(shù)學(xué)子公式,并對每一子公式按照權(quán)重計算方法賦予一定權(quán)重并建立索引。另外,為了增強數(shù)學(xué)搜索系統(tǒng)的語義支持,對于Content索引內(nèi)容,還要連接到計算機代數(shù)系統(tǒng)進行計算轉(zhuǎn)化,并對所有計算結(jié)果賦予一定權(quán)重并建立索引。在建立基于數(shù)學(xué)公式結(jié)構(gòu)的Presentation索引時,由于PresentationMathML表示的數(shù)學(xué)公式不同于ContentMathML表示的數(shù)學(xué)公式,它們本身不包含語義信息,也無法從語義層面進行數(shù)學(xué)子公式劃分。因而,在建立Presentation索引時,重點考慮數(shù)學(xué)公式的布局及顯示方式,因而直接按其本身字面建立索引。,MathSearch的研究內(nèi)容(4),數(shù)學(xué)搜索系統(tǒng)性能與質(zhì)量的研究搜索引擎提供的結(jié)果集中頁面質(zhì)量的好壞以及高質(zhì)量的頁面能否在結(jié)果集中有較好的排名,對搜索引擎用戶來說具有重要意義,同時也是衡量搜索引擎技術(shù)優(yōu)劣的關(guān)鍵指標,所以對頁面進行重要性評估并按重要性排序是搜索引擎要解決的技術(shù)核心。在數(shù)學(xué)搜索中,要考慮的一個重要問題是相關(guān)度Relativity。相關(guān)度是指檢索出的內(nèi)容與查詢條件之間的匹配程度。因此,加入以下兩個方面的因素的考慮:第一,在數(shù)學(xué)公式中,不同的數(shù)學(xué)符號、數(shù)學(xué)公式具有不同的重要度。第二,對于同一公式,有時具有多種語義,多種表示方式和多個計算結(jié)果。另一方面,在搜索時為了明確用戶需求,系統(tǒng)可以針對不同的用戶記錄歷史操作,以跟蹤用戶行為,總結(jié)用戶偏好,建立用戶日志。使得在下一次搜索中可以根據(jù)用戶的習(xí)慣搜索并顯示可能符合用戶意圖的相關(guān)結(jié)果。,MathSearch的研究內(nèi)容(5),搜索結(jié)果的返回顯示研究搜索引擎強調(diào)命中顯示、突出查詢關(guān)鍵項顯示的主要目的是便于用戶查看和評測返回結(jié)果。對于內(nèi)容較多的文件,系統(tǒng)需要在查詢返回結(jié)果中顯示若干摘要信息并突出顯示匹配查詢條件的關(guān)鍵項。一方面,這樣可以使用戶在結(jié)果文件中快速定位查詢條件中關(guān)鍵項,便于查看。另一方面,也可以作為搜索引擎性能的一個評估標準,檢測搜索結(jié)果是否符合查詢需求以及符合程度。,現(xiàn)有數(shù)學(xué)搜索引擎對比(1),現(xiàn)有數(shù)學(xué)搜索引擎分兩大類:----不支持數(shù)學(xué)內(nèi)容識別的通過查找已提供的元數(shù)據(jù),可以執(zhí)行比普通全文搜索引擎更好的數(shù)學(xué)內(nèi)容搜索,但不能處理數(shù)學(xué)操作。----支持數(shù)學(xué)內(nèi)容識別的根據(jù)他們的數(shù)學(xué)識別方法又分為:基于語義的方法基于語法的方法,現(xiàn)有數(shù)學(xué)搜索引擎對比(2),MathDexMathDex是最早的能夠進行數(shù)學(xué)內(nèi)容識別的全文檢索引擎,是基于Apache的Lucene搜索引擎。關(guān)鍵特性有以下幾點:支持無語義數(shù)學(xué)內(nèi)容文檔的查詢;支持不同數(shù)學(xué)編碼數(shù)學(xué)內(nèi)容的查詢;同時支持數(shù)學(xué)符號和文本的檢索,盡可能滿足用戶的查詢期望而不僅僅針對字面查詢。MathDex對于所有檢索到的文件首先將其轉(zhuǎn)換成XHTML+MathML格式。文件根據(jù)結(jié)構(gòu)及與查詢項的語法相似程度進行排序。MathDex提出N-grams匹配方法以提高精確度。在索引建立階段,不僅為每個公式建立索引,同時記錄其子公式出現(xiàn)的頻率信息。子公式出現(xiàn)的頻率對增加復(fù)雜公式的匹配度有很大意義。另外一個提高精確度的方法是將文件分為多個域,比如題目、正文等,并給予不同權(quán)重。出現(xiàn)在標題中項的權(quán)重應(yīng)高于出現(xiàn)在正文中項的權(quán)重。MathDex存儲表達式的不同部分以進行并行查詢,從方程不同部分匹配到的項具有不同的權(quán)重。不同公式可具有分子域、上標域、行域等。輸入公式被解析,定義合適的域,然后查詢被重寫,在所選擇領(lǐng)域匹配子項。越多子項匹配,相關(guān)度越高。MathDex不能處理數(shù)學(xué)操作和等價性匹配。,現(xiàn)有數(shù)學(xué)搜索引擎對比(3),DLMFSearchDLMFSearch是為美國國家標準與技術(shù)研究所(NationalInstituteofStandardsandTechnology)的數(shù)學(xué)公式數(shù)字圖書館(DigitalLibraryofMathematicalFunctions)而建立的一個檢索系統(tǒng)。DLMFSearch的目標公式格式主要針對于TeX/LaTex格式,查詢語言也是基于LaTex。查詢描述階段,為了使用戶能夠表達模糊查詢需求,DLMFSearch在LaTex格式基礎(chǔ)上進行擴展,定義一系列元數(shù)據(jù),這種查詢語言是一種文本化的查詢語言。在索引建立階段,DLMFSearch擴展文本信息檢索的索引方法。首先對數(shù)學(xué)對象進行線形化,即將所有非字母表中的數(shù)學(xué)符號都對應(yīng)到字母表中的一個字。其次界定并序列化數(shù)學(xué)對象的子項及表達式,最后按順序?qū)⒏髯禹椈癁闃藴室?guī)范形式,即轉(zhuǎn)化為已定義的規(guī)范順序以免表述風格的不一致導(dǎo)致的查詢錯誤。該引擎的核心仍是基于文本的檢索,與傳統(tǒng)文本檢索系統(tǒng)在本質(zhì)上沒有差別。,現(xiàn)有數(shù)學(xué)搜索引擎對比(4),LeActiveMathLeActiveMath是一個基于Web的智能數(shù)學(xué)學(xué)習(xí)環(huán)境,主要目標是根據(jù)用戶的前期工作及實際知識水平為其提供個性化內(nèi)容。目前,這個學(xué)習(xí)系統(tǒng)并未向公眾免費開放,而且并未查找到其可用的搜索系統(tǒng)。它是基于ApacheLucene搜索引擎的。顯然,這樣的教育系統(tǒng)是需要一個搜索引擎的。該系統(tǒng)針對的數(shù)據(jù)源是OMDoc編碼的具有語義的數(shù)學(xué)文件。索引階段依賴于特殊的OMDoc格式,其包含語義信息以及其他的元數(shù)據(jù)。應(yīng)用于現(xiàn)有真實文檔則仍有一定問題。然而,使用特殊的OMDoc格式可以提高文檔的相關(guān)度,使得搜索引擎在特殊環(huán)境更加有效。OMDoc具有把文件分為被稱之為項的內(nèi)容單元的特性。這些項包括:定理,練習(xí),證明,定義等等。它們可以通過單一的標志符來定位,這有利于開發(fā)它們之間的關(guān)系。索引階段,將OMDoc的公式轉(zhuǎn)換為特殊的包含信息深度的文本化標記。子公式的深度信息包含于索引字符串中。搜索階段將輸入公式轉(zhuǎn)化為具有深度級別的表達式。目前,他們解決這一問題的辦法是迭代索引庫中從1到最大深度的公式。,現(xiàn)有數(shù)學(xué)搜索引擎對比(5),EgoMathEgoMath是一個基于Egothorv2的可識別數(shù)學(xué)內(nèi)容的全文本搜索引擎。它的主要目的是適用于現(xiàn)實世界中不包含隱含語義信息的數(shù)學(xué)內(nèi)容。它支持PresentationMathML和ContentMathML表示方式,更側(cè)重于針對PresentationMathML表示方式。對于PDF文件,用Infty轉(zhuǎn)換器轉(zhuǎn)換為PresentationMathML標記的數(shù)學(xué)文件。EgoMath同時支持文本化查詢和數(shù)學(xué)公式查詢,這對于現(xiàn)實應(yīng)用更具有效性。EgoMath并不是用一個單獨的項來表示一個數(shù)學(xué)公式,復(fù)雜的公式往往由一個項的有序集合來表示。后一個表達式可以由前一個表達式通過應(yīng)用歸納和變形來得到。這些規(guī)則試圖降低全文索引庫的最大缺陷——靜態(tài)特性。每個集合中后面的公式都是由歸納而來的,因而可以匹配更多的表達式。在搜索階段,用戶輸入被分為簡單文本查詢和數(shù)學(xué)查詢。然后,采用和索引階段相同的算法處理數(shù)學(xué)查詢。算法產(chǎn)生n個表達式,這些表達式通過“AND”操作符附加到簡單文本查詢上。結(jié)果是執(zhí)行n個連續(xù)的查詢操作。出于后面的查詢項被匹配到的可能性更大,因為后面的項比前面的更具有普遍性。每個數(shù)學(xué)文件都被分為數(shù)學(xué)部分和文本部分進行存儲。否則類似于“sin”的模糊查詢就會即返回包含數(shù)學(xué)公式“sin”的文檔,又返回包含字符串“sin”的文檔。EgoMath中查詢語言采用類似于LaTex的表示方式。EgoMath由于UI設(shè)計仍未完成直至目前仍未公布。,現(xiàn)有數(shù)學(xué)搜索引擎對比(6),MathWebSearchMathWebSearch是一個不依賴于全文檢索引擎的數(shù)學(xué)搜索引擎。進行數(shù)學(xué)搜索時,MathWebSearch采用了非文本化的查詢方法。該方法中表達式被解析為置換樹,結(jié)果是產(chǎn)生一個類似于樹的結(jié)構(gòu),節(jié)點包含了對父節(jié)點的置換。為了進行子公式的查找,它將每一公式的所有子公式單獨的加入索引庫中。盡管MathWebSearch是最好的數(shù)學(xué)識別搜索引擎,但它仍存在一定問題。一方面,具有相同語法的公式可能具有不同的語義,另一方面,語法不同的公式可能具有相同的語義。另外,公式的每一次查找都要轉(zhuǎn)換為置換樹,這可能帶來性能問題。由于該搜索引擎不支持全文本的查找,因而在實用性上仍存在一定缺陷。目前,它可索引ContentMathML文件,受限制的PresentationMathML,OpenMath格式的文件。該數(shù)學(xué)搜索引擎前端Web搜索界面非常類似于MathDex但是查詢語言有所不同,它的查詢語言擴展自MathML。,現(xiàn)有數(shù)學(xué)搜索引擎對比(7),數(shù)學(xué)標記語言簡介(1),TeX/LaTexTeX第一個高質(zhì)量的電子排版系統(tǒng),它提供了一套功能強大并且十分靈活的排版語言,多達900多條指令,并且TEX有宏功能,用戶可以不斷地定義自己適用的新命令來擴展TEX系統(tǒng)的功能。LaTex是當今世界上最流行和使用最為廣泛的TEX宏集。TeX可以看作是一種專門用來排版的命令語言,LaTex實際是TeX的宏命令。使用LaTex基本上不需要使用者自己設(shè)計命令和宏等,因此,即使使用者并不是很了解TEX,也可以在短短的時間內(nèi)生成高質(zhì)量的文檔。和Word等流行的編輯軟件比較,LaTex在編排公式時不需考慮公式的位置和公式中字符的大小,LaTex會自動的將這些工作嚴格按照國際標準給出。即TeX系統(tǒng)的排版結(jié)果DVI(DeViceIndependent)文件與輸出設(shè)備無關(guān)。DVI文件可以顯示、打印、照排,幾乎可以在所有的輸出設(shè)備上輸出。TeX排版源文件及結(jié)果在各種計算機系統(tǒng)上互相兼容。目前有很多科技文獻中的公式都是用LaTex來描述的。,數(shù)學(xué)標記語言簡介(2),MathMLMathML完全采用XML的定義規(guī)范,繼承了XML的大部分優(yōu)點,具有強大的數(shù)學(xué)公式表達能力。MathML用于描述數(shù)學(xué)公式的結(jié)構(gòu)和內(nèi)容,它的出現(xiàn)使數(shù)學(xué)公式不僅可以在Web上建立與傳輸,而且可以在其它應(yīng)用程序中實現(xiàn)再利用和轉(zhuǎn)換,滿足用戶對數(shù)學(xué)公式的各種處理需求。MathML提供兩種描述數(shù)學(xué)公式的標記:Presentation標記和Content標記。Presentation標記大約有30個,附帶50多種屬性,主要目的是用來描述抽象數(shù)學(xué)符號的二維結(jié)構(gòu),相當于一個數(shù)學(xué)符號構(gòu)造器,把數(shù)學(xué)符號的語法結(jié)構(gòu)表現(xiàn)出來。每一個表現(xiàn)標記都對應(yīng)著唯一的一種符號模式。Content標記大約有120個,其中大部分是空標記,附帶的屬性只有簡單的12種。Presentation標記和Content標記都可以完整地描述任何一個數(shù)學(xué)公式,但是它們的側(cè)重點不同:前者用來描述數(shù)學(xué)表達式的二維布局結(jié)構(gòu),它更注重表達式的顯示方式;后者描述用于計算和處理的數(shù)學(xué)信息,它更關(guān)注表達式的內(nèi)在含義。Presentation標記和Content標記使得Web中的數(shù)學(xué)信息不僅是機器能讀的,而且是機器能理解的。為了同時從結(jié)構(gòu)和語義兩方面描述一個數(shù)學(xué)對象,二者還可交叉使用形成混合編碼,但不能相互替代。,數(shù)學(xué)標記語言簡介(3),OpenMathOpenMath也是一種XML應(yīng)用。區(qū)別在于,MathML最初是處理數(shù)學(xué)對象的顯示和交付,而Open-Math則著眼于數(shù)學(xué)語義或內(nèi)容。OpenMath繼承了XML的固有特征,用OpenMath編碼的數(shù)學(xué)對象可以在瀏覽器中顯示、在系統(tǒng)之間交互、在數(shù)據(jù)庫或文件中進行存儲或檢索,甚至可以對其數(shù)學(xué)合理性進行驗證。盡管MathML和OpenMath之間具有很強的互補性,但人們更加關(guān)心的還是數(shù)學(xué)對象的語義及內(nèi)容而并非數(shù)學(xué)表達式的顯示問題。數(shù)學(xué)結(jié)構(gòu)的OpenMath表示方法就是OpenMath對象,通常OpenMath對象或OpenMath表達式以有標號的樹型結(jié)構(gòu)出現(xiàn),樹的葉子節(jié)點就是基本OpenMath對象,這些對象用預(yù)定義的XML標簽來進行編碼。內(nèi)容字典是OpenMath發(fā)送數(shù)學(xué)信息的概念當中的核心,可以用它來指定OpenMath對象中使用的所有符號的正式和非正式語義,內(nèi)容字典定義了各種符號的意義,這些符號就可以用來表示OpenMath對象所要表達的數(shù)學(xué)概念。內(nèi)容字典分成四類:核心字典、公共字典、附加字典和CONTRIBUTED字典。,數(shù)學(xué)查詢語言MQL簡介,數(shù)學(xué)搜索引擎的關(guān)鍵在于查詢。而有效查詢的前提條件是用戶能夠充分表達查詢需求。因而,數(shù)學(xué)信息檢索系統(tǒng)實現(xiàn)的一個必要條件是定義一種數(shù)學(xué)查詢表達方式,即數(shù)學(xué)查詢語言。從實用性與易用性的角度考慮,該查詢語言必須是通用的、有力的。該查詢語言除了要便于用戶表達查詢需求外,還要便于查詢在數(shù)據(jù)庫中執(zhí)行。數(shù)學(xué)符號的輸入往往具有模糊性和繁復(fù)性。在數(shù)學(xué)檢索系統(tǒng)中,為了明確用戶查詢需求,定義的這種查詢語言應(yīng)當具有較高的一致性和較小的模糊性。鑒于MathML的眾多優(yōu)點,MathSearch選取MathML作為查詢語言的基礎(chǔ)。,數(shù)學(xué)查詢語言MQL簡介(續(xù)),MQL(MathQueryLanguage)是一種基于MathML的數(shù)學(xué)查詢語言,這種查詢語言是符合XML規(guī)范的。MQL在MathML規(guī)范的基礎(chǔ)上增加了一系列元數(shù)據(jù)標簽及其屬性以支持數(shù)學(xué)公式查找。這種查詢語言的語法直觀并且覆蓋了大多數(shù)常用的數(shù)學(xué)符號。使用這種查詢語言描述用戶的查詢需求,可以使科學(xué)和數(shù)學(xué)領(lǐng)域的用戶更加精確的描述查詢需求。例如確定查詢數(shù)學(xué)對象的數(shù)據(jù)類型、取值范圍等,以此獲得更符合用戶需求的相關(guān)結(jié)果,提高搜索引擎的查詢精度。,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 現(xiàn)有 數(shù)學(xué) 搜索引擎 對比
鏈接地址:http://italysoccerbets.com/p-3435866.html