數(shù)據(jù)庫(kù)通用檢索技術(shù)與方法.ppt
數(shù)據(jù)庫(kù)通用檢索技術(shù)與方法,nbwangjt,引言,恒變信息環(huán)境-日新月異數(shù)據(jù)庫(kù)的檢索界面、檢索功能、版本形式經(jīng)常會(huì)有變化不變基本技術(shù)與基本原理方法或技巧,2,1信息檢索七準(zhǔn)則,你得到什么檢索結(jié)果,取決于你怎么提問(wèn)(即主題概念分析)去信息應(yīng)該在的地方檢索(即選擇數(shù)據(jù)庫(kù))向你的檢索結(jié)果提問(wèn)信息可能是真的,但內(nèi)容仍然會(huì)有錯(cuò)的(檢索結(jié)果的判斷,內(nèi)容的選取)檢索是一個(gè)多步驟的過(guò)程(擴(kuò)檢、縮檢)檢索結(jié)果必須符合需求(檢索結(jié)果的選擇)咨詢圖書(shū)館員(獲得幫助)信息本身是無(wú)意義的,只有人提問(wèn)之后才有價(jià)值(撰寫論文吧,讓信息增值)信息檢索準(zhǔn)則編譯自:,3,2數(shù)據(jù)庫(kù)檢索常見(jiàn)問(wèn)題,對(duì)信息檢索有畏懼心理不理解信息檢索過(guò)程或原理,無(wú)法做到觸類旁通。不知道選擇什么樣的數(shù)據(jù)庫(kù)檢索,到哪里檢索不知道如何選擇恰當(dāng)?shù)臋z索詞在文摘索引數(shù)據(jù)庫(kù)中想下載全文僅僅用一個(gè)詞檢索(不會(huì)利用邏輯組配)在外文數(shù)據(jù)庫(kù)中輸入中文詞檢索,4,2數(shù)據(jù)庫(kù)檢索常見(jiàn)問(wèn)題(續(xù)),信息環(huán)境意識(shí)不強(qiáng),在網(wǎng)絡(luò)中搜索一個(gè)數(shù)據(jù)庫(kù)就進(jìn)行檢索用整個(gè)論文(或課程)題名在題名項(xiàng)中檢索檢索結(jié)果太多(不會(huì)用限定和組配)檢索結(jié)果太少(課題分析不夠;檢索詞選?。z索結(jié)果的處理(排序、下載、閱讀器、復(fù)制)說(shuō)說(shuō)看,各位還有哪些問(wèn)題?,5,3信息檢索“高級(jí)檢索”界面解讀,4信息檢索途徑解析,信息檢索途徑也稱為信息檢索字段、檢索項(xiàng)。信息檢索的基本原理就是文本匹配。檢索途徑指定了輸入的關(guān)鍵詞進(jìn)行匹配(比對(duì))的范圍在檢索式的編寫中,如下表示:篇名=評(píng)價(jià)AND關(guān)鍵詞=信息資源配置,8,檢索項(xiàng)/檢索途徑對(duì)應(yīng)內(nèi)容,5信息檢索技術(shù)與發(fā)展,當(dāng)前信息檢索是基于文本的可檢索字段信息以文本的形式存儲(chǔ)在數(shù)據(jù)庫(kù)(數(shù)據(jù)集合)中即使是多媒體數(shù)據(jù)庫(kù),也是抽象特征進(jìn)行文本化或說(shuō)字符化基于文本的匹配技術(shù)是信息檢索的核心隨著信息技術(shù)的發(fā)展,以后還會(huì)有基于顏色、聲音、氣味、質(zhì)量等等的檢索。,9,5.1認(rèn)識(shí)數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)檢索,數(shù)據(jù)庫(kù)是存儲(chǔ)在一起的相關(guān)數(shù)據(jù)(信息)的集合數(shù)據(jù)庫(kù)是信息檢索的主要對(duì)象,比如針對(duì)網(wǎng)絡(luò)信息資源的搜索引擎(谷歌、百度、雅虎)就是一個(gè)數(shù)據(jù)庫(kù),文獻(xiàn)信息檢索領(lǐng)域的數(shù)據(jù)庫(kù)非常多。,10,5.2數(shù)據(jù)庫(kù)檢索,匹配技術(shù):有哪些匹配規(guī)則(模糊、精確、截詞)?數(shù)據(jù)庫(kù)檢索是一個(gè)多步驟的過(guò)程擴(kuò)檢、縮減、檢索詞的選擇與邏輯組配數(shù)據(jù)庫(kù)的檢索也是一個(gè)知識(shí)的探索與發(fā)現(xiàn)的過(guò)程,別人沒(méi)法替代檢索、瀏覽、判斷、調(diào)整策略、再檢索花點(diǎn)時(shí)間,了解數(shù)據(jù)庫(kù)特點(diǎn)的必要性涵蓋學(xué)科或主題范圍文獻(xiàn)類型(出版形式、內(nèi)容層次)收錄年限,收錄對(duì)象數(shù)據(jù)量(記錄數(shù))文種全文獲取,5.3布爾邏輯檢索技術(shù),并且【邏輯與】表示當(dāng)兩個(gè)詞都出現(xiàn)在檢索項(xiàng)中的時(shí),這樣的文獻(xiàn)才被檢索出來(lái)。是縮檢的方法或者【邏輯或】表示只要其中一個(gè)詞出現(xiàn)在檢索項(xiàng)中,這樣的文獻(xiàn)就能檢索出來(lái)。是擴(kuò)檢的方法去除【邏輯非】表示從已經(jīng)檢索的結(jié)果中去除含有該檢索詞的文獻(xiàn)。即檢索出的文獻(xiàn)包前面的檢索詞,但不包含去除的詞。是縮檢的方法,12,例:網(wǎng)絡(luò)信息資源評(píng)價(jià)研究綜述,網(wǎng)絡(luò)信息、信息資源、網(wǎng)絡(luò)信息資源、選擇、利用、評(píng)價(jià)(網(wǎng)絡(luò)信息OR信息資源)AND評(píng)價(jià)NOT檢索工具(網(wǎng)絡(luò)信息OR信息資源)AND(選擇OR利用OR評(píng)價(jià))如何對(duì)應(yīng)于數(shù)據(jù)庫(kù)的檢索?技巧:每一次檢索解決一個(gè)問(wèn)題,即搜索到一個(gè)方面的信息資源。比如:網(wǎng)絡(luò)信息資源AND選擇網(wǎng)絡(luò)信息資源AND利用網(wǎng)絡(luò)信息資源AND評(píng)價(jià),13,5.4截詞檢索技術(shù),截詞包括后截、中截、前截等。用?作為截詞符(有些系統(tǒng)用*),主要包括下列情形:截詞符?中截一字符,后截?cái)鄋個(gè)字符如wom?n可以檢索出:woman,women如coumput?可以檢索出Compute,Computer,Computing,computable,14,?后、中截二字符如:transplant?可以檢索出:transplant、transplanted、transplanter?后、中截三字符如:comput?可以檢索出:compute;computer;computing,15,通配符,無(wú)限截?cái)?%?*后方一致(前截?cái)啵?“%國(guó)慶”將檢索出所有字段為張國(guó)慶、歐陽(yáng)國(guó)慶、國(guó)慶等的記錄。前方一致(后截?cái)啵?如:“信息檢索%”將檢索出信息檢索原來(lái)、信息檢索技術(shù)等的記錄。,16,截詞檢索是擴(kuò)檢(即擴(kuò)大檢索結(jié)果),17,5.5模糊檢索與精確檢索方法,模糊檢索系統(tǒng)根據(jù)檢索詞自動(dòng)拆分成更小的單元詞如“網(wǎng)絡(luò)信息資源”模糊檢索,相當(dāng)于用:網(wǎng)絡(luò)信息資源OR網(wǎng)絡(luò)信息OR信息資源OR網(wǎng)絡(luò)OR信息OR資源模糊檢索是一些數(shù)據(jù)庫(kù)(檢索系統(tǒng))的默認(rèn)檢索模式。當(dāng)檢索結(jié)果較少或檢索不到信息時(shí),可以選擇模糊檢索。模糊檢索是擴(kuò)檢(即擴(kuò)大檢索結(jié)果)精確檢索與模糊檢索相對(duì)應(yīng),檢索詞不能拆分開(kāi)精確檢索是縮檢(即縮小檢索結(jié)果,18,5.6限制檢索,19,主題領(lǐng)域限定年代限定文獻(xiàn)類型限定語(yǔ)種限定文獻(xiàn)層次限定限制檢索是縮檢(即縮小檢索結(jié)果),如在谷歌和百度搜索引擎中的檢索特定的文獻(xiàn)類型:“報(bào)告filetype:pdf”檢索指定網(wǎng)址內(nèi)的信息:“報(bào)告site:”以后會(huì)看到一些數(shù)據(jù)庫(kù)通常都有年代/類型等的選擇,20,21,到“中國(guó)知網(wǎng)”期刊論文的高級(jí)搜索中,如何在檢索框中實(shí)現(xiàn)?主題=網(wǎng)絡(luò)信息資源AND(選擇OR評(píng)價(jià))如何實(shí)現(xiàn)檢索2005年以來(lái)的論文?如何實(shí)現(xiàn)?篇名=網(wǎng)絡(luò)信息資源AND(選擇OR評(píng)價(jià))如何實(shí)現(xiàn)?主題=(網(wǎng)絡(luò)資源AND網(wǎng)絡(luò)信息)AND篇名=(選擇OR評(píng)價(jià)),