計(jì)算機(jī)檢索技術(shù)及搜索引擎應(yīng)用.ppt
《計(jì)算機(jī)檢索技術(shù)及搜索引擎應(yīng)用.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《計(jì)算機(jī)檢索技術(shù)及搜索引擎應(yīng)用.ppt(129頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第二講計(jì)算機(jī)檢索技術(shù)及搜索引擎應(yīng)用,,必須找?哪里找?如何找?,第一節(jié)計(jì)算機(jī)檢索技術(shù),計(jì)算機(jī)檢索的實(shí)質(zhì):匹配運(yùn)算計(jì)算機(jī)檢索技術(shù),檢索提問,檢索表達(dá)式,掃描、匹配,,,識(shí)別,數(shù)據(jù)庫,檢索詞的組配技術(shù),計(jì)算機(jī)檢索技術(shù),檢索表達(dá)式的構(gòu)成規(guī)則,,檢索詞:主題詞、關(guān)鍵詞、名稱、分類號(hào)分子式等。,檢索表達(dá)式:運(yùn)用各種運(yùn)算符,把檢索詞連接組配。,,布爾邏輯,位置邏輯,截詞,字段限制,加權(quán),計(jì)算機(jī)檢索技術(shù),,,其他,1.1,1.2,1.3,1.4,1.6,1.5,1.1布爾邏輯檢索技術(shù),布爾邏輯檢索技術(shù)就是利用布爾邏輯算符進(jìn)行檢索項(xiàng)的邏輯組配,用以表達(dá)檢索者的提問概念。布爾邏輯算符指規(guī)定檢索詞之間相互關(guān)系的運(yùn)算符號(hào),在檢索表達(dá)式中起著邏輯組配的作用,,,復(fù)雜概念的檢索式,1.1布爾邏輯檢索技術(shù),常用的布爾邏輯運(yùn)算符:邏輯“與(AND)”邏輯“或(OR)”邏輯“非(NOT)”運(yùn)算順序,1.1.1邏輯“與”,運(yùn)算符:AND或*用于交叉概念或限定關(guān)系的組配,實(shí)現(xiàn)檢索詞概念范圍的交集。表達(dá)式:,AandB或A*B,And兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在檢索字段中,檢出同時(shí)含有檢索詞A和檢索詞B的記錄,1.1.1邏輯“與”,作用縮小檢索范圍,提高查準(zhǔn)率。舉例檢索“人口控制”或者“控制人口”方面的文獻(xiàn)信息。人口and控制,返回,1.1.2邏輯“或”,運(yùn)算符:OR或+用于檢索詞并列關(guān)系(同義詞、近義詞)的組配,實(shí)現(xiàn)檢索詞概念范圍的并集。表達(dá)式:,AorB或A+B,在文獻(xiàn)記錄中只要含有檢索詞A和檢索詞B中的任何一個(gè)即算命中,檢索出的記錄含有檢索詞A或者檢索詞B,1.1.2邏輯“或”,作用擴(kuò)大檢索范圍,防止漏檢,提高查全率。舉例檢索“計(jì)算機(jī)”方面的文獻(xiàn)信息。計(jì)算機(jī)or電腦使用的注意事項(xiàng)如果檢索詞涉及表達(dá)整體概念,要針對(duì)具體情況分別列出每個(gè)表達(dá)部分概念的檢索詞,否則將出現(xiàn)漏檢。,返回,1.1.3邏輯“非”,運(yùn)算符:NOT或-一種排斥關(guān)系的組配,用來從原來的檢索范圍中排除不需要的概念。表達(dá)式:,AnotB或A-B,適用于排除含有某個(gè)指定檢索詞的記錄,檢索出的記錄含有檢索詞A,但同時(shí)不含檢索詞B,2.1.3邏輯“非”,作用縮小檢索范圍,增強(qiáng)檢索的準(zhǔn)確性。但使用不當(dāng),易排除有用文獻(xiàn)信息,從而導(dǎo)致漏檢舉例檢索有關(guān)能源方面的文獻(xiàn)信息,但不包括核能。energynotnuclear使用的注意事項(xiàng)兩個(gè)關(guān)系緊密的檢索詞不宜用not,返回,1.1布爾邏輯檢索技術(shù),優(yōu)先級(jí)高,優(yōu)先級(jí)低,,,布爾邏輯運(yùn)算符的運(yùn)算順序,返回,1.2位置邏輯檢索技術(shù),位置邏輯檢索利用位置邏輯算符限定檢索詞之間的位置,或指定檢索詞在記錄中某一特定位置進(jìn)行檢索。位置算符又稱鄰接運(yùn)算符。位置邏輯檢索的作用表達(dá)各個(gè)檢索詞之間的順序與相對(duì)位置關(guān)系。與布爾邏輯檢索的區(qū)別使用布爾邏輯檢索時(shí),計(jì)算機(jī)只判斷參加運(yùn)算的檢索詞在數(shù)據(jù)庫記錄中出現(xiàn)與否,不能確定檢索詞之間的相對(duì)位置關(guān)系。而通過與位置算符配合使用可以減少檢索誤差。,1.2位置邏輯檢索技術(shù),Dialog系統(tǒng)中的幾種位置算符同詞位檢索(W)——(With/Word)、(nW)(N)——(NEAR)、(nN)同字段檢索(F)——(Field)(L)——(Link)其他位置算符(S)——(Subfield)(C)——(Citation),1.2.1同詞位檢索,允許在連接的兩個(gè)詞之間最多夾入n個(gè)其他單元詞,只強(qiáng)調(diào)插入單元詞個(gè)數(shù)沒限定插入單元詞的具體范圍,同時(shí)詞序不能顛倒,此算符兩側(cè)的檢索詞必須按輸入時(shí)的前后順序排列,而且所連接的詞之間除可以有一個(gè)空格或一個(gè)標(biāo)點(diǎn)符號(hào)或一個(gè)鏈接號(hào)外不得夾有任何其他單詞或字母,1.2.1同詞位檢索,允許兩個(gè)檢索詞之間最多可以插入n個(gè)單詞,且這兩個(gè)檢索詞的詞序任意,此算符兩側(cè)的檢索詞必須緊密相連,所連接的詞間不允許插入任何其他單詞或字母,但詞序可以顛倒,(N)舉例,檢索式chemistry(N)physics,,命中,含有chemistryphysics或physicschemistry的文獻(xiàn),返回,檢索式economic(2N)recovery,(nN)舉例,,命中,含有economicrecovery或recoveryoftheeconomic的文獻(xiàn),返回,(W)/()舉例,檢索式American()Literature,,命中,有關(guān)AmericanLiterature或American,Literature的文獻(xiàn),返回,(nW)舉例,檢索式knowledge(1W)economy,,命中,有關(guān)knowledgeeconomy或knowledge-basedeconomy的文獻(xiàn),返回,2.2.2同字段檢索,,表示此算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在同一字段內(nèi)。如:篇名字段、文摘字段、敘詞字段等,但兩詞的詞序中間插入的次數(shù)不限。,表示兩個(gè)檢索詞之間存在從屬關(guān)系或限制關(guān)系。如果其中一個(gè)為一級(jí)主題詞,另一個(gè)就為二級(jí)主題詞。,,(L)舉例,檢索式control(L)stability,,命中,標(biāo)題含有control和stability兩個(gè)檢索詞的文獻(xiàn)記錄。,返回,(F)舉例,檢索式economic(F)knowledge,,命中,標(biāo)題為“theEconomicImpactofKnowledge-Based”的文獻(xiàn)記錄。,返回,原因:,算符兩側(cè)的檢索詞在同一標(biāo)題字段中,1.2.3其他位置邏輯檢索,(S)——(Subfield)表示在此算副輛車的檢索詞必須出現(xiàn)在同一個(gè)子字段中,順序不變,中間可插入詞數(shù)不限。舉例(basicorcobolorpascal)(S)(program*orcompil*),,Basic(S)program*basic(S)compil*Cobol(S)program*cobol(S)compil*Pascal(S)program*pascal(S)compil*,1.2.3其他位置邏輯檢索,(C)——(Citation)表示兩側(cè)的檢索詞只能出現(xiàn)在同一條記錄中,且對(duì)它們的相對(duì)位置或次序沒有任何限制,作用和布爾算符and完全相同,1.2.4位置邏輯檢索技術(shù),嚴(yán)謹(jǐn),寬松,返回,1.3截詞檢索技術(shù),實(shí)質(zhì)截詞檢索就是用截詞符號(hào)將檢索詞截?cái)?,用檢索詞的片段進(jìn)行匹配運(yùn)算。注意在截?cái)鄷r(shí),截?cái)嗟脑~干不能太短,詞干一般應(yīng)在3個(gè)字符以上,以免增加檢索時(shí)間,產(chǎn)生誤檢。,1.3截詞檢索技術(shù),截詞形式按截詞的字符數(shù)量有限截?cái)?、無限截?cái)喟唇卦~的位置右截?cái)?、左截?cái)?、中間截?cái)?1.3.1按截詞數(shù)量截?cái)?有限截?cái)嘀赶薅ń厝ビ邢迋€(gè)字符。截?cái)喾?hào)??——截?cái)?個(gè)字符???——截?cái)?個(gè)字符依此類推。舉例輸入:product??結(jié)果:含有product、products的記錄,1.3.1按截詞數(shù)量截?cái)?無限截?cái)鄼z索詞詞干可變化兩個(gè)以上字符時(shí),連續(xù)使用若干個(gè)“?”或“*”代替變化字符。用法可同時(shí)查找含有該詞干的所有文獻(xiàn)記錄,亦可用于年代的查找。,1.3.2其他截?cái)喾绞?1.把截詞符號(hào)置放在一個(gè)檢索詞的中間;2.中截?cái)嗖辉试S有限截?cái)?1.將截詞符號(hào)放在一個(gè)字符串左方,表示其左的有限或無限個(gè)字符不影響該字符串的檢索;2.實(shí)質(zhì):后方一致檢索,1.最常用的截詞檢索技術(shù);2.放在字符串右方,表示其右有限或無限個(gè)字符不影響該字符串的檢索;3.實(shí)質(zhì):后截?cái)嗍乔胺揭恢聶z索,后截?cái)?前截?cái)?中截?cái)?舉例,舉例,舉例,返回,后截?cái)嗯e例,輸入:computer*檢索結(jié)果,computeracycomputerisecomputerizationcomputers,后截?cái)嘧⒁馐马?xiàng),后截?cái)嘀饕褂糜谌缦聨追N情況:檢索詞的單復(fù)數(shù)的描述;如:book?同根詞的表達(dá);如:chemi*可以檢索出chemical、chemistry、chemist等同根詞年代的表達(dá);如:20??(21世紀(jì)),199?(20世紀(jì)90年代)作者如:Moyer*可以檢索出所有姓Moyer的作者,返回,前截?cái)嗯e例,輸入:*computer檢索結(jié)果microcomputerminicomputer,返回,中截?cái)嗯e例,輸入:organi?ation檢索結(jié)果organizationorganisation中截?cái)嘀饕褂糜谌缦聨追N情況:檢索詞的拼寫方式存在美式、英式之分;檢索詞在某個(gè)元音位置出現(xiàn)的單復(fù)數(shù)不同;如:man與men作用擴(kuò)大檢索范圍,提高檢全率,減少檢索詞的輸入量,返回,1.4字段限制檢索技術(shù),在檢索系統(tǒng)中,通常有一些縮小或約束檢索結(jié)果的方法,稱為限制檢索。限制檢索的方式,1.4.1字段限制檢索,特點(diǎn)及作用使檢索出的文獻(xiàn)信息達(dá)到一定的專指度。將檢索詞限制在記錄的某個(gè)特定字段內(nèi)檢索,不但可以減輕機(jī)器負(fù)擔(dān),提高運(yùn)算速度,還可以使檢索結(jié)果更準(zhǔn)確。用法將需要檢索的內(nèi)容限制在相關(guān)的字段內(nèi)。如:作者姓名作者字段關(guān)鍵詞關(guān)鍵詞或題名字段,1.4.1字段限制檢索,字段種類基本字段:表達(dá)文獻(xiàn)內(nèi)容特征的字段輔助字段:表達(dá)文獻(xiàn)外表特征的字段字段檢索形式1.通過菜單選擇檢索字段2.用命令的方式輸入字段限制算符,篇名字段、文摘字段、敘詞字段、分類類目等,作者、機(jī)構(gòu)、文獻(xiàn)類型、語種等,返回,1.4.2使用限制符檢索,Web檢索方式通常通過菜單選擇檢索字段,在聯(lián)機(jī)Web高級(jí)檢索中,還可以用表示語種、文獻(xiàn)類型、出版國家、出版年代等額字段標(biāo)識(shí)符來限制檢索范圍。在Dialog系統(tǒng)中,用專門的字符表示不同字段。,1.4.2使用限制符檢索,前綴限制字符AU=限查特定作者JN=限查特定刊名LA=限查特定語種PN=限查特定專利號(hào)PY=限查特定年代后綴限制符/TI限在題目中查/AB限在文摘中查/DE限在敘詞標(biāo)引中查,查找2004年出版的英文或法文的宏觀經(jīng)濟(jì)學(xué)方面的期刊檢索式:(macroeconomics/de,ti,ab)ANDPY=2004AND(LA=ENORFR)ANDDT=Serial,,,,,,返回,1.5加權(quán)檢索技術(shù),與其他檢索技術(shù)的區(qū)別基本方法1.在每個(gè)檢索詞后面給定表示重要程度的數(shù)值,稱為權(quán)值。2.檢索時(shí),查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在3.計(jì)算存在的檢索詞的權(quán)值總和。4.權(quán)值之和達(dá)到或超過預(yù)先給定的闕值,即為命中,返回,1.6其他輔助檢索技術(shù),1.6.1信息的瀏覽式檢索與鏈接技術(shù)1.6.2檢索結(jié)果的翻譯和多語種(或跨語種)檢索技術(shù)1.6.3檢索結(jié)果的后處理技術(shù),1.6.1信息的瀏覽式檢索與鏈接技術(shù),用戶,在計(jì)算機(jī)檢索系統(tǒng)中,“瀏覽”方式的實(shí)現(xiàn)主要得益于超文本鏈接技術(shù)的成功應(yīng)用。,某種信息組織結(jié)構(gòu)(或?qū)Ш綑C(jī)制),鏈接,信息,,,,訪問、探尋,提供,1.6.1信息的瀏覽式檢索與鏈接技術(shù),搜索引擎目前,基于瀏覽式檢索的技術(shù)方法已在網(wǎng)絡(luò)搜索引擎中得到了廣泛應(yīng)用,以Yahoo為首創(chuàng)的一類網(wǎng)絡(luò)搜索引擎就是通過分類目錄導(dǎo)航機(jī)制實(shí)現(xiàn)對(duì)同絡(luò)信息的瀏覽式檢索的。此外,超文本鏈接技術(shù)在傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索系統(tǒng)中,也越來越顯現(xiàn)出重要的應(yīng)用價(jià)值。,1.6.1信息的瀏覽式檢索與鏈接技術(shù),參考文獻(xiàn)鏈接(CitedReference),,,相關(guān)記錄鏈接(RelatedRecords),,被引次數(shù)鏈接(TimesCited),被引次數(shù)鏈接舉例,在系統(tǒng)檢索結(jié)果列表中,該鏈接點(diǎn)首先給出該文獻(xiàn)的被引用次數(shù),單擊該鏈接點(diǎn),系統(tǒng)會(huì)進(jìn)一步顯示引用該篇文獻(xiàn)的所有其他文獻(xiàn);,點(diǎn)擊,,,參考文獻(xiàn)鏈接舉例,該鏈接點(diǎn)不僅可以顯示該檢索結(jié)果文獻(xiàn)所使用的參考文獻(xiàn)數(shù)量,單擊它還可顯示這些參考文獻(xiàn)的具體列表;,點(diǎn)擊,,,相關(guān)記錄鏈接,通過該鏈接點(diǎn)可以查看在不同年份中與當(dāng)前所檢索的記錄共同引用同一篇(或多篇)參考文獻(xiàn)的一組文獻(xiàn),即相關(guān)記錄,并按共同引用參考文獻(xiàn)的多少排序。,1.6.1信息的瀏覽式檢索與鏈接技術(shù),外部鏈接與原始文獻(xiàn)的鏈接;與圖書館館藏OPAC系統(tǒng)的鏈接,了解該文獻(xiàn)記錄所在期刊的館藏情況;與其他數(shù)據(jù)庫服務(wù)系統(tǒng)的鏈接。,返回,1.6.2檢索結(jié)果的翻譯和多語種(或跨語種)檢索技術(shù),目前檢索結(jié)果翻譯這一檢索輔助功能主要出現(xiàn)在網(wǎng)絡(luò)搜索引擎中。目前,一些大型、綜合性搜索引擎在檢索結(jié)果翻譯方面已經(jīng)展開研究,并開始提供這一服務(wù)功能。與檢索結(jié)果翻譯問題密切關(guān)聯(lián)的另一個(gè)問題是多語種(或跨語種)檢索問題。檢索結(jié)果的翻譯功能畢竟有限,更重要的應(yīng)是多語種(或跨語種)檢索功能的實(shí)現(xiàn)。鑒于自然語言理解的困難性,真正意義上的多語種檢索實(shí)現(xiàn)技術(shù)目前仍處于研究中。,返回,1.6.3檢索結(jié)果的后處理技術(shù),排序輸出最常用(或默認(rèn))的排序標(biāo)準(zhǔn):相關(guān)度(relevance)排序,,檢索結(jié)果條目,用戶檢索請(qǐng)求,,,匹配,結(jié)果(按匹配程度大小從高到低排序),,1.6.3檢索結(jié)果的后處理技術(shù),聯(lián)機(jī)聚類聯(lián)機(jī)聚類技術(shù)可以動(dòng)態(tài)地把檢索結(jié)果集合劃分、安排到一個(gè)由聚類計(jì)算面生成的類目等級(jí)結(jié)構(gòu)中,用戶通過在這一目錄結(jié)構(gòu)中進(jìn)一步瀏覽其感興趣的結(jié)果,可以節(jié)省大量的聯(lián)機(jī)時(shí)間。去重合并存在原因:1.國際聯(lián)機(jī)檢索系統(tǒng)的多數(shù)據(jù)庫(或跨數(shù)據(jù)庫)檢索;2.網(wǎng)絡(luò)搜索引擎的信息檢索。目前,獨(dú)立搜索引擎對(duì)檢索結(jié)果中的重復(fù)信息很少進(jìn)行過濾處理。不過,元搜索引擎則普遍具有對(duì)來自不同引擎重復(fù)檢索結(jié)果的合并和去重功能。,第二節(jié)搜索引擎,2.1搜索引擎的定義、原理、分類2.2Google及其使用技巧2.3其它搜索引擎,2.1.1搜索引擎的定義,搜索引擎是一個(gè)提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。搜索引擎常常是用戶利用網(wǎng)上資源的第一途徑。,2.1.2搜索引擎原理,從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。大多數(shù)搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎也不能真正理解網(wǎng)頁上的內(nèi)容,它只能機(jī)械的匹配網(wǎng)頁上的文字。,2.1.3搜索引擎的分類,按檢索機(jī)制劃分按檢索內(nèi)容劃分按數(shù)據(jù)來源劃分,,,,(1)按檢索機(jī)制劃分,全文搜索引擎目錄式搜索引擎元搜索引擎,,,,全文搜索引擎,從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。優(yōu)點(diǎn):是查詢?nèi)?、充分,用戶能夠?qū)Ω骶W(wǎng)站的每篇文章中的每個(gè)詞進(jìn)行搜索,檢索直接、方便,而且可使用布爾邏輯檢索、短語檢索等高級(jí)功能。缺點(diǎn):繁多而雜亂的感覺。代表性的全文搜索引擎是Google、百度。,目錄式搜索引擎,通過用戶瀏覽層次類型目錄來尋找所需信息。分類一般按主題分類,并輔之以年代、地區(qū)等分類。網(wǎng)站多以此方式組織。例如:新浪>分類目錄>計(jì)算機(jī)與互聯(lián)網(wǎng)>硬件>行情報(bào)價(jià)。優(yōu)點(diǎn):使用戶清晰方便地查找到某一大類信息,尤其適合那些希望了解某一范圍內(nèi)信息,并不嚴(yán)格限于查詢關(guān)鍵字的用戶。缺點(diǎn):搜索范圍較全文搜索引擎要小許多,尤其是當(dāng)用戶選擇類型不當(dāng)時(shí),可能遺漏某些重要的信息源。代表性的目錄式搜索引擎是Yahoo、搜狐、新浪網(wǎng)站,元搜索引擎,同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。沒有自己的數(shù)據(jù)庫,利用一個(gè)統(tǒng)一的界面,查詢其他獨(dú)立的搜索引擎。優(yōu)點(diǎn):快捷,信息覆蓋面更加廣泛缺點(diǎn):高級(jí)檢索功能不完善,檢索結(jié)果沒有經(jīng)過處理著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有北斗、等。,圖Dogpile界面,MetaCrawler1995年由華盛頓大學(xué)推出,1997年被InfoSpace購買。支持調(diào)用12個(gè)獨(dú)立搜索引擎,提供涵蓋近20個(gè)主題的目錄檢索服務(wù)。檢索特性非常豐富,包括常規(guī)檢索、高級(jí)檢索、定制檢索、國家或地區(qū)的資源檢索等檢索服務(wù)模式。高級(jí)檢索模式可實(shí)現(xiàn):搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國家的檢索結(jié)果過濾,最長檢索時(shí)間設(shè)置,每頁可顯示的和允許每個(gè)搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)等。以上內(nèi)容均可作為定制檢索的個(gè)性化選項(xiàng)并予以保存。檢索結(jié)果中包括一個(gè)以1000為最大值的相關(guān)度指標(biāo)。,一款理想的元搜索引擎應(yīng)具備的特點(diǎn)和功能,含蓋較多的搜索資源,可隨意選擇和調(diào)用源搜索引擎;具備盡可能多的可選擇功能,如資源類型(網(wǎng)站、網(wǎng)頁、新聞、軟件、FTP、MP3、圖像等)選擇、返回結(jié)果數(shù)量控制、結(jié)果時(shí)段選擇、過濾功能選擇等強(qiáng)大的檢索請(qǐng)求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規(guī)則、字符的轉(zhuǎn)換功能(如對(duì)不支持“NEAR”算符的搜索引擎,可自動(dòng)實(shí)現(xiàn)由“NEAR”向“AND”算符的轉(zhuǎn)換等詳盡全面的檢索結(jié)果信息描述(如網(wǎng)頁名稱、URL、文摘、源搜索引擎、結(jié)果與用戶檢索需求的相關(guān)度等)支持多種語言檢索。,(2)按檢索內(nèi)容劃分,通用型專題型,通用型搜索引擎,通用型搜索引擎在采集標(biāo)引信息資源時(shí)不限制資源的主題范圍和數(shù)據(jù)類型,又稱為綜合型檢索工具。如:Google、百度、AltaVista、Excite、Yahoo等也有這種混合功能。右圖是Yahoo的檢索界面,既有檢索窗口,也有分類瀏覽目錄。,,專題型檢索工具,專題型檢索工具指那些專門用來檢索某一類型信息和數(shù)據(jù)的檢索工具,如查詢地圖的檢索工具“MapBlast”、查詢圖像的檢索工具“WebSEEK”等。,圖G的界面,,(3)按數(shù)據(jù)來源劃分,獨(dú)立搜索引擎擁有獨(dú)立的采集標(biāo)引機(jī)制和獨(dú)立的數(shù)據(jù)庫元搜索引擎沒有自己的數(shù)據(jù)庫,它利用一個(gè)統(tǒng)一的界面,查詢其他獨(dú)立的搜索引擎,2.2Google及其使用技巧,由兩個(gè)斯坦福大學(xué)博士生LarryPage與SergeyBrin于1998年9月發(fā)明。約搜索30億張網(wǎng)頁,包括35個(gè)國家和地區(qū)的語言的資源。已占有全球搜索市場的80%。Google在中國的搜索市場的市場份額也已突破30%,并且增長速度迅猛,在中文搜索市場有舉足輕重的作用。,2.2.1Google檢索步驟,確定檢索需求構(gòu)建檢索策略點(diǎn)擊檢索評(píng)估檢索結(jié)果點(diǎn)擊瀏覽保存所需信息,2.2.2Google檢索技巧,使用正確的方法合理利用“與/或”的搜索:OR搜索中包括或不包括的詞:+、-搜索近似詞:~搜索特定詞組:“”列出相似頁面:類似網(wǎng)頁利用高級(jí)檢索使用“更多”功能,Google高級(jí)檢索,查找其他類型文件,Google可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。新的文檔類型只要與用戶的搜索相關(guān),就會(huì)自動(dòng)顯示在搜索結(jié)果中。例如,如果您只想查找PDF或Flash文件,而不要一般網(wǎng)頁,只需搜索:關(guān)鍵詞filetype:pdf關(guān)鍵詞filetype:swf”,貨幣轉(zhuǎn)換要使用我們的內(nèi)置貨幣轉(zhuǎn)換器,只需在Google搜索框中鍵入您需要完成的貨幣轉(zhuǎn)換,并單擊“回車”鍵或GoogleSearch按鈕即可?!緦?shí)例】3.5USD=?GBP10新加坡元等于多少印度盧比8人民幣換成泰國的貨幣30人民幣每公升=?美元每加侖,計(jì)算器Google為用戶提供了一個(gè)內(nèi)置計(jì)算器。只需要在搜索字段中輸入算式,按一下回車鍵或者搜索就可以了。這個(gè)計(jì)算器可以用來做所有簡單的計(jì)算,一些復(fù)雜的科學(xué)計(jì)算,單位換算,以及提供各種物理常數(shù)?!緦?shí)例】5+2*22^20sqrt(-4)一磅=?克光速乘以二秒等于多少公里,符號(hào)功能示例+加3+44-減13-5*乘7*8/除以12/3^的…次方8^2%模(除之后的余數(shù))8%7選組合運(yùn)算X選Y表示在X個(gè)單位中選Y個(gè)有多少種選法18選4開…次方計(jì)算一個(gè)數(shù)的n次方根32開5次方sqrt平方根sqrt(9)sin,cos,etc.三角函數(shù)(括號(hào)中的數(shù)字單位為弧度)tan(45)ln以e為底的對(duì)數(shù)ln(17)log以10為底的對(duì)數(shù)log(1,000)!階乘5!%百分之20%,按鏈接搜索有一些詞后面加上冒號(hào)對(duì)Google具有特殊的含義。其中的一個(gè)詞是“l(fā)ink:”。查詢link:顯示所有指向該網(wǎng)址的網(wǎng)頁。例如,“l(fā)ink:”將找出所有指向Google主頁的網(wǎng)頁。不能將link:搜索與普通關(guān)鍵詞搜索結(jié)合使用。指定網(wǎng)域有一些詞后面加上冒號(hào)對(duì)Google有特殊的含義。其中的一個(gè)詞是“site:”。要在某個(gè)特定的域或站點(diǎn)中進(jìn)行搜索,可以在Google搜索框中輸入“site:”。,如何辨別網(wǎng)站的性質(zhì),.edu教育學(xué)術(shù).gov官方政府單位.net網(wǎng)絡(luò)管理或服務(wù)機(jī)構(gòu).org財(cái)團(tuán)法人或基金會(huì)等非官方的一般機(jī)構(gòu).int國際性組織.com代表商業(yè)企業(yè)團(tuán)體與組織中國科學(xué)研究機(jī)構(gòu),天氣查詢用Google查詢中國城市地區(qū)的天氣和天氣預(yù)報(bào),只需輸入您要查詢的城市地區(qū)名稱和一個(gè)關(guān)鍵詞(“天氣”、“氣象”、“tq”、“tianqi”、“tianqi”等,任選其一)就能在搜索結(jié)果頁面的最上方看到當(dāng)日及未來二至三天的天氣情況。當(dāng)鼠標(biāo)移動(dòng)到天氣圖標(biāo)上時(shí),還可以顯示對(duì)應(yīng)的天氣情況細(xì)節(jié)。,金融信息在搜索框中輸入股票和基金的名稱或代碼,可查詢最新的股票和基金信息。郵編區(qū)號(hào)用Google查詢郵政編碼或長途電話區(qū)號(hào),您只需輸入關(guān)鍵詞(“郵編”,“yb”和“YB”任選其一;“區(qū)號(hào)”,“qh”和“QH”任選其一)和要查的城市地名或郵政編碼或電話區(qū)號(hào)即可。Google會(huì)為您提供相關(guān)的所有信息,包括所在地的省市名稱,郵政編碼及長途電話區(qū)號(hào)。,手機(jī)號(hào)碼用Google查詢手機(jī)電話號(hào)碼歸屬地,您只需直接輸入要查的號(hào)碼即可(不需要任何關(guān)鍵詞)。Google能自動(dòng)識(shí)別以13開頭的11位數(shù)字為手機(jī)號(hào)碼而返回相關(guān)的網(wǎng)站鏈接,讓您即刻便知道答案。定義要查看字詞或詞組的定義,只需鍵入“define”,接著鍵入一個(gè)空格,然后鍵入您需要其定義的詞。如果Google在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會(huì)檢索該信息并在搜索結(jié)果的頂部顯示它們。通過包含特殊操作符“define:”,并使該操作符與您需要其定義的字詞之間不留空格,還可獲得定義的列表。,Google更多功能,得心“In”手:intitle/inurl/intext人在旅“圖”:熱門“榜”單:關(guān)注“趨勢(shì)”:,國外搜索引擎,AltaVistaAskJeevesExciteMetaCrawler……,AltaVista()DEC公司1995年12月推出,AskJeeves(,Excite(斯坦福大學(xué)1993年8月創(chuàng)建,MetaCrawler(http://www.MetaC,常用的學(xué)術(shù)搜索引擎,,,,,專注于科學(xué)搜索引擎與目錄,還包括一些科學(xué)雜志以及其他的工具等,提供了一種通過引文鏈接檢索文獻(xiàn)的網(wǎng)絡(luò)學(xué)術(shù)信息搜索工具,Google學(xué)術(shù)搜索提供可廣泛搜索學(xué)術(shù)文獻(xiàn)的簡便方法,專為搜索高度相關(guān)的科學(xué)信息而設(shè)計(jì)的搜索引擎,,,,,,,,,Scirus由Elsevier開發(fā),是目前互聯(lián)網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)門戶網(wǎng)站之一,Scirus引擎的信息源主要是兩部分:網(wǎng)頁和期刊。為科學(xué)家們?cè)诰W(wǎng)絡(luò)上和專有數(shù)據(jù)庫中快速查找所需的信息打開了一道便捷之門,此外,還可以對(duì)網(wǎng)絡(luò)中所搜索到的結(jié)果進(jìn)行過濾,然后只列出包含有科學(xué)信息的成分。目前Scirus可搜索4.5億個(gè)與科學(xué)相關(guān)的網(wǎng)頁,信息來源包括同行評(píng)審期刊論文、預(yù)印本、報(bào)告、科學(xué)數(shù)據(jù)、發(fā)明專利及有關(guān)網(wǎng)頁,大多是網(wǎng)上開放獲取資源(如電子打印稿件ArXiv.org、RePEc、MIT開放課程資料等),也含部分商業(yè)收費(fèi)資源(如LexisNexis、ScienceDirect等)。學(xué)科領(lǐng)域以自然科學(xué)為主,也有部分社科資源,如經(jīng)濟(jì)學(xué)、商業(yè)、管理、語言文字學(xué)、法學(xué)、社會(huì)與行為科學(xué)、心理學(xué)、社會(huì)學(xué)等。,SCIRUS簡介,SCIRUS的特色過濾非科學(xué)方面的信息。收錄同行評(píng)審(peer-reviewed)的文章,這在一般搜索引擎中大部份是被忽略掉的??梢运阉魈囟ㄗ髡?、期刊、出版年等縮小查詢范圍??赏瑫r(shí)查詢學(xué)科相關(guān)的會(huì)議、摘要、及專利資料。收錄年代、排序及收費(fèi)Scirus索引的更新頻率與收錄年限是每月更新,可檢索1973-2008年間發(fā)表的文獻(xiàn)。Scirus檢索結(jié)果的排序:缺省情況下,Scirus將檢索結(jié)果按照相關(guān)度進(jìn)行排序。也可以將檢索結(jié)果按照日期排序。用戶可免費(fèi)瀏覽所有檢索到的互聯(lián)網(wǎng)主頁的信息。Scirus提供的期刊資源可以免費(fèi)查看題錄和文摘。但是,獲取全文需要預(yù)先注冊(cè)并支付費(fèi)用。,SCIRUS檢索方法“基本檢索(BasicSearch)”界面和高級(jí)檢索(AdvancedSearch)。(1)基本檢索:BasicSearchAllofthewords:檢索結(jié)果中必須包括輸入的每一個(gè)檢索詞,邏輯關(guān)系相當(dāng)于“AND”;Anyofthewords:檢索結(jié)果中可包括一個(gè)或多個(gè)檢索詞,相當(dāng)“OR”;Exactphrase:檢索結(jié)果與輸入短語嚴(yán)格匹配,相當(dāng)于引號(hào)“”的應(yīng)用。(2)高級(jí)檢索:AdvancedSearchScirus高級(jí)檢索支持邏輯檢索符:邏輯與、邏輯或、邏輯非,國內(nèi)搜索引擎,百度必應(yīng)bing北大天網(wǎng)搜狐新浪網(wǎng)易……,百度系列產(chǎn)品3個(gè),本地相關(guān)頁面2個(gè),行業(yè)門戶類2個(gè),全國性重點(diǎn)企業(yè)網(wǎng)站3個(gè),2009年5月28日,美國微軟公司推出全新搜索引擎Bing,力圖借助語義識(shí)別技術(shù)更好掌握用戶搜索意圖,提供更符合需求的內(nèi)容鏈接,向搜索引擎巨頭谷歌公司發(fā)起挑戰(zhàn)。,關(guān)于搜索引擎的網(wǎng)站,,,InternetSearchEngineHelp&Tutorials,總結(jié),每種搜索引擎都有不同的特點(diǎn),只有選擇合適的搜索工具才能得到最佳的結(jié)果。隨著Web查詢技術(shù)的發(fā)展,新的搜索引擎必將不斷涌現(xiàn),已有搜索引擎的功能也會(huì)不斷改善,在優(yōu)勝劣汰中進(jìn)步。,1、請(qǐng)用分別舉例說明“布爾邏輯表達(dá)式、位置算符、限制算符”在文獻(xiàn)檢索中的作用及檢索結(jié)果的變化情況?2、請(qǐng)說明GOOGLE及百度之間的區(qū)別和實(shí)際應(yīng)用比較(優(yōu)缺點(diǎn))?3、請(qǐng)通過搜索引擎提供2至3個(gè)所學(xué)專業(yè)的主題網(wǎng)站,并簡要說明?,課后作業(yè):,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 計(jì)算機(jī) 檢索 技術(shù) 搜索引擎 應(yīng)用
鏈接地址:http://italysoccerbets.com/p-3592075.html