《計算機信息檢索》PPT課件.ppt
《《計算機信息檢索》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《計算機信息檢索》PPT課件.ppt(80頁珍藏版)》請在裝配圖網上搜索。
計算機信息檢索,第一節(jié)計算機檢索基礎知識,概述:20世紀90年代以來,隨著Internet的發(fā)展,Internet上出現(xiàn)了龐大的信息資源。各種信息庫、文獻數據庫、事實數據庫應有盡有,滲入到各個領域。美國報道生活新方式的期刊POV將互聯(lián)網檢索專家作為未來十大熱門職業(yè)之一。,如何在茫茫的信息海洋中找到對你有用的信息?,?,一.脫機批處理檢索階段(19541964年)(off-lineretrieval)單機檢索,以批處理進行的。二.聯(lián)機檢索階段(19651971)(on-lineretrieval)終端機從主機獲取信息,人機對話,檢索是以命令的形式進行的。三.光盤檢索階段(1978-)在發(fā)達國家,光盤檢索是聯(lián)機檢索的支持和補充,但在通信技術不太發(fā)達的國家,由于它自身的優(yōu)點,卻是用戶獲取信息的一個十分重要的手段四.網絡信息檢索階段(1990)又叫混合型檢索,指Internet,具全球性的,知道網址就可以隨時隨地訪問。,發(fā)展概況p328,我發(fā)展的很快啊,1.光盤檢索:以菜單形式檢索.a.光盤單機檢索-(CD-ROM)只讀式光盤檢索.b.光盤聯(lián)機檢索-局域網內的檢索.2.網絡檢索a.局域網檢索b.互聯(lián)網檢索,計算機檢索分類,計算機信息檢索原理,計算機信息檢索:以計算機為基礎的信息的存儲與檢索。計算機檢索系統(tǒng):計算機硬件(服務器、檢索中端)、軟件(系統(tǒng)軟件和應用軟件)、通訊網絡和數據庫(文獻書目、事實型、數值型、全文、多媒體、超文檔)原理:,計算機檢索的實質:“匹配運算”。檢索者以人機對話的形式把檢索提問變成機器能識別的檢索命令輸入計算機中,由計算機自動對數據庫中的記錄進行匹配后輸出檢索結果。邏輯提問式:用邏輯符號(與、或、非)將提問特征(主題詞、分類號、自由詞、作者等)連接起來的式子。,計算機檢索的過程(基本步驟),選擇檢索詞編寫檢索提問邏輯式;用戶提問邏輯式同數據庫匹配;輸出檢索結果;對檢索結果進行評價。,計算機信息檢索方法,基本方法:1、分類目錄檢索2、關鍵詞檢索3、基于內容的檢索搜索引擎的檢索功能(具體方法)1、布爾邏輯檢索2、截詞檢索3、詞位置檢索4、加權檢索5、限制檢索6、全文檢索,1.布爾邏輯檢索(復合檢索),布爾邏輯是表達不同概念之間關系的符號邏輯系統(tǒng)。常用的布爾邏輯運算符有:與(AND、*)(邏輯乘).或(OR、+)(邏輯加).非(NOT、)(邏輯減).AandB(A*B):表示提問要求命中文獻同時包含A、B兩個特征;AorB(A+B):表示提問要求命中文獻包含A、B兩個特征中的任何一個即可;AnotB(AB):表示提問要求命中文獻包含特征A,但不能包含特征B。法定數檢索:(是布爾邏輯檢索的一種改進)A*B*C*D,截詞檢索就是在檢索詞中保留相同的部分(即詞干),用相反的截詞符(常用的有?、$、*)等代替可變化部分并代表許多相同詞干檢索用詞的一種檢索方法。截詞方式:左截斷、右截斷、中截斷、左右截斷右截詞:前端一致.如:chemi*表示查找結果含有chemical,chemist,等左截詞:后端一致。如:*physics-physics,biophysics,chemophysics等中間截詞:wom*n-woman,women.左右截斷:中間一致*relation*可以查找relation,relations,或者interrelation,interrelationship等。,2.截詞檢索:提高查全率,nW關系:要求所連接的兩個檢索詞在結果中相互距離不超過n個詞或字,而且前后順序不能顛倒。nN關系:前后順序可以顛倒。例如:A(2W)B;A(2N)B,3.詞位置檢索P335,4.限制檢索,字段限定檢索:將檢索詞限定在特定的字段中用來縮小查找范圍的檢索方法。分為主題因素限定和非主題因素限定。范圍限制檢索:主要用于出版年、記錄號、專利號等數字型字段限定檢索。常用的比較關系GT(greaterThan)(大于)LT(lessthan)(小于)EQ(equal)(等于)NE(notequal)(不等于)GE(greaterthanorequal)(大于等于)LE(lessthanorequal)(小于等于),5.加權檢索:很少用,加權檢索:是某些檢索系統(tǒng)中提供的一種定量檢索技術。運用加權檢索可以命中核心概念文獻,因此它是一種縮小檢索范圍提高查準率的有效方法。,第二節(jié)Internet信息檢索,網絡信息檢索概念:對因特網信息資源進行標引和檢索的檢索系統(tǒng)機制,網絡信息檢索工具即因特網上提供網絡信息資源導航服務的一個網站。搜索引擎(SearchEngine),是采用因特網信息自動跟蹤標引等技術、建立在互聯(lián)網上專門提供網絡信息資源導航服務的一個網站。,網絡信息檢索工具的類型,按檢索機制劃分目錄型:圖書館目錄一樣的分類樹型結構,如yahoo.sina.sohu檢索型:關鍵詞、主題詞搜索引擎混合型:兼有檢索型和目錄型兩種檢索方式。、多元型:集合型搜索引擎,檢索接口工具。同時對多個搜索引擎進行并行或串行操作。按檢索的內容劃分綜合型、專題型、專門信息檢索工具,1.www(環(huán)球信息網)2.電子郵件(E-mail)3.遠程登錄(Telnet):本地可登錄外地計算機4.文件傳輸協(xié)議(FTP):下載或者上傳5.電子公告版(BBS)發(fā)布公告或信息:遠程登錄的討論;WWW方式下討論。6.其它:網絡新聞組等,一.Inernet信息常用獲取方式,(1)概念www是worldwideweb(環(huán)球信息網)的縮寫。中文名稱為萬維網。它是在Internet環(huán)境下實現(xiàn)分布式超文本檢索的體系。作用:WWW采用的是客戶/服務器結構,整理和儲存各種WWW資源,并響應客戶端軟件的請求,把客戶所需的資源傳送到WindowsUNIX或Linux等平臺上。網頁、網站:網站(web服務器)是由網頁集合而成的,而大家通過瀏覽器所看到的畫面就是網頁,網頁說具體了是一個或多個html文件,瀏覽器是用來解讀這份文件的。,www(環(huán)球信息網),操作系統(tǒng),(2)超鏈接與超文本用戶通過瀏覽器觀看一個網頁時,會發(fā)現(xiàn)一些帶有下劃線的文字或圖形圖片等,當鼠標指針指向這一部分時,鼠標指針變成手形,稱之為超鏈接。當鼠標單擊超鏈接時,瀏覽器就會顯示出與該超鏈接相關的內容。具有超鏈接的文本就稱為超文本。,(3)統(tǒng)一資源定位符(URL):在www中用URL(uniformresourcelocator)定義資源所在地,URL的地址格式為:應用協(xié)議類型:/信息資源所在主機名(域名或IP地址)/路徑名/文件名例:,二.Internet信息獲取的常用輔助工具,1.文件下載工具:網絡螞蟻(NetAnts)網際快車Flashget(JetCar)迅雷下載等等2.文件壓縮與解壓工具:WinzipWinrar3.PDF文件及其閱讀軟件:下載安裝Adobe公司開發(fā)的AcrobatReader軟件(免費),即可在不同平臺上閱讀PDF文件。,1.概念:搜索引擎(SearchEngines)指對WWW站點資源和其他網絡資源進行標引和檢索的一類檢索系統(tǒng)機制。一般包括數據采集標引機制、數據組織機制和用戶檢索機制。,四.Internet搜索引擎,搜索引擎基本結構圖,基于菜單驅動的信息查詢工具,樹狀結構,如圖書館,搜索引擎按其工作方式主要可分為三種,分別是:全文搜索引擎(FullTextSearchEngine)目錄索引類搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine),2.搜索引擎分類,全文搜索引擎是名副其實的搜索引擎.國外具代表性的有:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等國內著名的有百度(Baidu)。它們都是通過從互聯(lián)網上提取的各個網站的信息而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。,全文搜索引擎,目錄索引:是按目錄分類的網站鏈接列表,在嚴格意義上算不上是真正的搜索引擎??糠诸惸夸浺部烧业叫枰男畔?。最具代表性:Yahoo雅虎。其他著名的還有OpenDirectoryProject(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬于這一類。,目錄索引,元搜索引擎(METASearchEngine),亦稱“搜索引擎之母”。是對多個獨立搜索引擎的整合、調用、控制和優(yōu)化利用。搜索結果優(yōu)化處理后,以統(tǒng)一的格式在同一界面集中顯示元搜索引擎是用戶同時利用多引擎進行網絡搜索的中介??杀焕玫莫毩⑺阉饕娣Q為“源搜索引擎”(sourceEngine),或“搜索資源”(searcingresources)。,1、Vivisimo(調用多種搜索引擎,并對返回的結果自動分類,界面友好,簡單易用。2.Infospace3.Dogpile4InfoGrid(提供與主要搜索網站的直接連結和目錄檢索,具有強大的元搜索和新聞搜索功能。5.MetaCrawler()支持調用12個獨立搜索引擎,提供涵蓋近20個主題的目錄檢索服務。其檢索特性非常豐富,包括常規(guī)檢索、高級檢索、定制檢索、國家或地區(qū)的資源檢索等檢索服務模式。6.S(),常用外文元搜索引擎,國內元搜索引擎,搜魅網(someta):集合了百度、google、搜狗、雅虎多家主流搜索引擎的結果,提供網頁、資訊、網址導航等聚合查詢。馬虎聚搜:集合了google和百度的搜索結果,提供一些有用的熱點排行。佐意綜合搜索(chinazss):佐意網提供的綜合搜索,結合了GoogleBaiduyahoo等知名搜索引擎,更細分了不同的搜索類別,如軟件搜索,游戲搜索,視頻搜索,新聞搜索,網頁搜索,地圖搜索,音樂搜索,企業(yè)搜索等??此祈撁婧唵危瑓s搜索功能卻很強大。佐意綜合搜索可以說是元搜索中的一個典范。該搜索引擎還可直接查詢手機號碼歸屬地,IP查詢等。比比貓(bbmao):綜合了百度,谷歌,搜狐,雅虎,搜狗等搜索引擎的搜索結果,并建立了自動分類,是目前最好的一款產品。速度還可以。,3.搜索引擎使用技巧,責任不在搜索引擎,而是沒掌握搜索精度的技巧。如何提高信息檢索效率呢?,1、關鍵詞提煉和細化搜索條件選擇最具代表性和指示性關鍵詞-搜索技巧之母有時多輸入一兩個關鍵詞效果不同-基本技巧之一。使用雙引號:實現(xiàn)精確查詢,不包含演變形式2、用好搜索邏輯命令:使用布爾命令“AND”、“OR”、“NOT”、“near”及與之對應的“*”、“+”、“-”等邏輯符號命令。使用空格:等同于AND;查詢兩個以上關鍵詞時,用空格表示結果中必須同時出現(xiàn)這幾個關鍵詞。用圓括號:當兩個關鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時用,computeradventuregame最基本的搜索方式。computer(OR)adventure(OR)games=computer+adventure+game相當于布爾邏輯檢索中的ANDcomputer(AND)adventure(AND)games=computer*adventure*gamecomputer(AND)game(NOT)adventure=computer+game-adventure,比較一下下面各搜索條件的含義,4、精確匹配搜索:縮小搜索結果范圍,甚至完成某些其他方式無法完成的任務。元詞檢索:使用通配符(*和?)區(qū)分大小寫:5、特殊搜索命令:除一般搜索功能外,還提供一些特殊搜索命令,以滿足高級用戶的特殊需求。比如查詢指向某網站的外部鏈接和某網站內所有相關網頁的功能等等。6、附加搜索功能:搜索引擎都提供的一些方便用戶搜索的定制功能。常見的有相關關鍵詞搜索、限制地區(qū)搜索等。,元詞放關鍵詞前面,表明搜索的具體特征。例輸入“title:清華大學”,可以查到網頁標題中帶有清華大學的網頁。關鍵詞后加上“domain:org”,可查到所有以org為后綴的網站。image:檢索圖片,link:檢索鏈接到某個選定網站的頁面,URL:檢索地址中帶有某個關鍵詞的網頁。,*表示匹配的數量不受限制;?表示匹配單個字符,主要用在英文搜索引擎中。例輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。,著名搜索引擎簡介,1.國外英文目錄索引:Yahoo最著名的目錄索引,搜索引擎開山鼻祖之一。DAskJeeves著名的自然語言搜索引擎,2002年初收購Teoma全文搜索引擎。LookSmart點擊付費索引目錄,2002年收購WiseNut全文搜索引擎。A有其自身特色的目錄索引。2.國外英文搜索引擎:(全文搜索引擎)Google以搜索精度高、速度快成為最受歡迎的搜索引擎,是目前搜索界的領軍人物。Fast/AllTheWeb總部位于挪威的搜索引擎后起之秀,風頭直逼google。AltaVista曾經的搜索引擎巨人,目前仍被認為是最好的搜索引擎之一。,Overture最著名的搜索引擎廣告商,競價排名的始作俑者,也是全文搜索引擎。Lycos發(fā)源于西班牙的搜索引擎,網絡遍布世界各地。HotBot隸屬于LycosNetworks,搜索結果來自其他搜索引擎及目錄索引。3.國內目錄索引:搜狐(Sohu)國內三大門戶之一,最早在國內推出搜索引擎收費登錄服務。新浪(Sina)最大的中文門戶網站,同樣也推出了搜索引擎收費索引項目。網易(Netease)網易搜索是ODP的國內翻版,其目錄由志愿管理員維護,是google的網頁搜索用戶。4.國內全文搜索引擎:百度(Baidu)國內唯一商業(yè)化的全文搜索引擎,提供搜狐、新浪、263、Tom等站點的網頁搜索服務。,計算機信息檢索策略,構造步驟:(例如:廢水處理裝置與技術)1.分析信息需求(檢索課題),明確檢索要求2.選擇檢索系統(tǒng)3.選擇檢索途徑和檢索方法,確定檢索詞或檢索式4.實施信息檢索5.檢索策略的反饋和調整6.獲取原始文獻,檢索策略的反饋與調節(jié):,一.影響查全率和查準率的主要因素1.主題分析是否準確全面2.檢索詞選擇是否準確3.檢索詞之間邏輯關系的配置是否合適,二.提高查全率和查準率的方法,1.提高查全率的方法(1)降低檢索詞的專指度(2)增加同義詞近義詞或相關詞的邏輯或運算(3)選用截詞檢索(4)增加和調整檢索途徑,要記住啊,2.提高查準率的方法,(1)提高檢索詞的專指度,增加或換用下位詞和專指性較強的關鍵詞進行檢索(2)用AND連接一些進一步限定主題概念的相關檢索項,增加相互的制約(3)用NOT來排除一些無關的檢索項(4)采用限定檢索,縮小檢索范圍,提高查準率,百度搜索引擎,特點(1)功能完備,搜索精度高。除數據庫的規(guī)模及部分特殊搜索功能外,其他方面可與領軍人物Google相媲美,在中文搜索方面有些地方甚至超過了Google,是國內技術水平最高的搜索引擎。(2)為搜狐、雅虎中國、T、21CN、廣州視窗等搜索引擎,以及中央電視臺、外經貿部等提供后臺數據搜索支持。百度目前主要提供中文(簡/繁體)網頁搜索服務。如無限定,默認以關鍵詞精確匹配方式搜索。支持“-”號、“.”號、“|”號及“l(fā)ink:”等特殊搜索命令。在搜索結果頁面,百度還設置了相關搜索功能,方便訪問者查詢與輸入關鍵詞有關的其他方面的信息。提供“百度快照”查詢。其他搜索功能包括新聞搜索、網站網址鏈接、MP3搜索、圖片搜索、Flash搜索等。,=OR,點更多,根據你的需要選擇,Mp3,MP3,視頻,具體搜索,在結果中進行二次搜索,相關搜索功能,高級搜索,在一個網址前加“site:”,可以限制只搜索某個具體網站、網站頻道、或某域名內的網頁。例如:電話site:表示在網站內搜索和“電話”相關的資料intelsite:表示在域名以“”結尾的網站內搜索和“intel”相關的資料;門戶.cn表示在域名以“cn”結尾的網站內搜索和“門戶”相關的資料.,在指定網站內搜索,搜狐搜索引擎,搜狐國內最著名的門戶網站,也是國內最早提供搜索服務的站點。互聯(lián)網概念在國內的普及,搜狐功不可沒。在2001年年初由CNAZ(中文網站評估認證網)舉辦的搜索引擎網絡專項功能排名調查中,搜狐名列第一。搜狐設有獨立的目錄索引,并采用百度搜索引擎技術,提供網站、網頁、類目、新聞、黃頁、中文網址、軟件等多項搜索選擇。搜狐搜索范圍以中文網站為主,支持中文域名。搜狐是網站最重要的訪問來源之一,因此是國內搜索引擎登錄的首選。目前除學校、科研機構、政府單位等性質的網站仍實行免費登錄外,其他網站登錄均須支付一定的費用。,高級檢索,搜狐檢索特色,1.搜狐搜索引擎對搜索結果是按“相關性”進行排列的。相關性越高,排列位置越靠前。2.搜狐中文檢索系統(tǒng)目前支持的運算符有:-、&、|、()、空格、not、and、or。這些運算符既可以是英文,也可以是中文(全角或半角)。a.使用空格、&、and,來指定查詢串必須出現(xiàn)在結果中b.使用-或not,來限定-或not后的查詢串不出現(xiàn)在結果中c.使用|或or,來指定|或or兩邊的查詢串中有一個一定出現(xiàn)在結果中d.使用()或“”,來指定()或“”內的表達式是一個整體單元.例如:輸入“體育-(足球籃球)”,會查詢到包含“體育”,且不包含“足球”與“籃球”的所有網站3.相關檢索:將輸入的關鍵字段擴展,給出更多與之有關的搜索關鍵字4.信息的分類比較好,按照其分類表查找效果比用關鍵詞理想,新浪搜索引擎,新浪是全球范圍內最大的華語門戶網站之一。新浪是國內網民最常訪問的網站,是最常用的中文搜索引擎。新浪自建獨立的目錄索引。共設16大類目錄,10,000多個子目,收錄網站達20余萬,是規(guī)模最大的中文搜索引擎。新浪網推出中國第一家可對多個數據庫查詢的綜合搜索引擎。在關鍵詞的查詢結果中,在同一頁面上包含目錄、網站、新聞標題、新聞全文、頻道內容、網頁、商品信息、消費場所、中文網址、滬深行情、軟件、游戲等各類信息的綜合搜索結果,這在國內尚屬唯一。搜索規(guī)則:默認綜合搜索,涉及網站、網頁、新聞等內容。網站搜索僅限于自身目錄中的注冊網站。目前除學校、政府機構、科研單位的網站外,其他類型網站都須支付一定的費用。,輸入關鍵詞查詢,雅虎搜索引擎,Yahoo!搜索引擎之王,世界最大的門戶網站,最早的目錄索引之一,也是目前最重要的搜索服務網站。除主站(MotherYahoo)外,還設有美國都會城市分站(YahooCities,如芝加哥分站)、國別分站(如雅虎中國)和國際地區(qū)分站(如YahooAsia)。其數據庫中的注冊網站無論是在形式上還是內容上質量都非常高。Yahoo屬于目錄索引類搜索引擎,可以通過兩種方式在上面查找信息,一是通常的關鍵詞搜索,一是按分類目錄逐層查找。由于Yahoo靠人工操作甄選網站,且評判標準十分嚴格,因此是公認最難登錄的搜索引擎。但它對我們網絡營銷的作用舉足輕重,尤其是對商業(yè)網站而言,因為Yahoo不僅是全球范圍內最著名的互聯(lián)網品牌,而且也是最具影響力的企業(yè)資料庫。,輸入關鍵詞,可以查找你要的內容:網頁、圖片等,Google搜索引擎,Google于1998年美國上市,幾年間迅速發(fā)展成為目前規(guī)模最大的搜索引擎。目前每天需要處理2億次搜索請求,數據庫存有30億個WEB文件。Google提供常規(guī)及高級搜索功能。還提供特別主題搜索,如:AppleMacintosh,BSDUnix,Linux和大學院校搜索等。Google允許以多種語言進行搜索,在操作界面中提供多達余種語言選擇,同時還可以在多達多個國別專屬引擎中進行選擇。,導航,高級搜索,1、Google無需用明文的“+”來表示邏輯“與”操作,只要空格就可以了。2、Google用減號“-”表示邏輯“非”操作。示例:搜索所有包含“專題講座”而不含“計算機”的中文網頁搜索式:專題講座-計算機3、Google用大寫的“OR”表示邏輯“或”操作注意:小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”查詢)。4、搜索某一類型文件,可用“filetype”來搜索。示例:搜索文獻綜述的PDF文件搜索式:文獻綜述filetype:pdf,檢索語法:+、-、OR、filetype,1、site:表示搜索結果局限于某個具體網站或者網站頻道(如site:),或者是某個域名(如site:com)。如果是要排除某網站或者域名范圍內的頁面,只需用“-網站/域名”(如site:-com)。示例:搜索中文教育科研網站()上所有包含“文獻綜述”的頁面。搜索式:文獻綜述site:2、link:搜索所有鏈接到某個URL地址的網頁。示例:搜索所有含指向華軍軟件園“”鏈接的網頁。搜索式:link:注意:“l(fā)ink”不能與其他語法相混合操作,所以“l(fā)ink:”后面即使有空格,也將被Google忽略,高級搜索語法:site,link,inurl,allinurl,intitle,allintitle,3、inurl:返回的網頁鏈接中包含第一個關鍵字,后面的關鍵字則出現(xiàn)在鏈接中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,于是,就可以用INURL語法找到這些相關資源鏈接,然后,用第二個關鍵詞確定是否有某項具體資料。INURL語法和基本搜索語法的最大區(qū)別在于,前者通常能提供非常精確的專題資料。示例:查找MIDI曲“滄海一聲笑”。搜索式:inurl:midi滄海一聲笑注意:“inurl:”后面不能有空格,4、allinurl:返回的網頁鏈接中包含所有查詢關鍵字,這個查詢的對象只集中于網頁的鏈接字符串。5、allintitle、intitle:用法類似于上面的allinurl和inurl,只是后者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標記語言title中之間的部分。示例:蘇東坡作品集搜索式:intitle:蘇東坡作品,謝謝!,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 計算機信息檢索 計算機信息 檢索 PPT 課件
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://italysoccerbets.com/p-11494843.html