電視節(jié)目的個性化搜索研究影視編導專業(yè)

上傳人:文*** 文檔編號:48659883 上傳時間:2022-01-13 格式:DOC 頁數(shù):14 大?。?53KB
收藏 版權申訴 舉報 下載
電視節(jié)目的個性化搜索研究影視編導專業(yè)_第1頁
第1頁 / 共14頁
電視節(jié)目的個性化搜索研究影視編導專業(yè)_第2頁
第2頁 / 共14頁
電視節(jié)目的個性化搜索研究影視編導專業(yè)_第3頁
第3頁 / 共14頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《電視節(jié)目的個性化搜索研究影視編導專業(yè)》由會員分享,可在線閱讀,更多相關《電視節(jié)目的個性化搜索研究影視編導專業(yè)(14頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、電視節(jié)目的個性化搜索研究 摘 要 電視節(jié)目是人們普遍喜歡的娛樂方式之一。然而隨著電視技術的高速發(fā)展,電視節(jié)目日益豐富的,人們不知不覺中已深處在電視節(jié)目的海洋中。電視節(jié)目包含了文本字幕,因而對電視節(jié)目的查找可間接地轉換為對電視文本的搜索。為了幫助用戶快速地查找到喜愛的電視節(jié)目,針對電視節(jié)目的個性化搜索進行了研究,并開發(fā)了一個小型的個性化電視節(jié)目搜索原型系統(tǒng)。本文主要研究了基于文本的電視節(jié)目的個性化搜索,在文章最后可以看到個性化搜索算法可以顯著提高搜索質量。 關鍵詞:個性化搜索,用戶興趣模型,查詢擴展,用戶反饋 一、引言 電視節(jié)目是人們普通的娛樂方式;然而隨著電視技術

2、的高速發(fā)展,出現(xiàn)了諸如電纜、光纜、微波、衛(wèi)星等多種傳播方式。我國的鑫諾通信衛(wèi)星可可同時支持兩百余套標準清晰度電視節(jié)目;人們不知不覺中已深處在電視節(jié)目的海洋中。 為了幫助用戶快速地查找到喜愛的個性化電視節(jié)目,針對電視節(jié)目的個性化搜索進行了研究。在我們的系統(tǒng)中,我們是基于如下假定:每個電視節(jié)目都有一個對應的具有固定格式且具有類別信息的描述文本,所以對電視節(jié)目的搜索可以轉換為對電視文本的搜索。 二、個性化搜索引擎研究綜述 個性化搜索引擎目的是為了建立的通用搜索引擎之上的新一代的搜索引擎,它的目標是消除當前搜索引擎缺點即結果相關性低和“千人一面”等缺點。 2.1個性化搜索框架 如下圖所示,我

3、們設計的電視節(jié)目個性化搜索系統(tǒng)共分為6個子系統(tǒng):分別是處于最底層的自然語言處理子系統(tǒng)和網(wǎng)絡蜘蛛子系統(tǒng)、處于次底層的存儲子系統(tǒng)和索引子系統(tǒng)。 圖2-1電視節(jié)目個性化搜索系統(tǒng)架構 處于中間層的通用搜索系統(tǒng)和個性化搜索子系統(tǒng),處于最高層的用戶查詢處理子系統(tǒng)。其中個性化搜索子系統(tǒng)又包括了四個子模塊,分別為用戶興趣模型模塊,用戶反饋模塊,語義庫模塊和以語義庫為基礎的查詢擴展模塊。 我們的系統(tǒng)通用搜索引擎在此基礎上,添加了基于用戶興趣模型,用戶查詢關鍵字的擴展,用戶相關反饋等三個要素,使經(jīng)典的搜索引擎具有了個性化搜索的特征。 由上面可以看出,我們的電視節(jié)目個性化搜索系統(tǒng)是有九大模塊組成的,每個

4、模塊具有各自相對對立的功能(高內聚),而各個模塊間緊密聯(lián)系(低耦合),一起共同實現(xiàn)了電視節(jié)目的個性化搜索的功能。 我們的系統(tǒng)是通過在原理的基礎上增加了用戶興趣模型、用戶查詢擴展和用戶反饋等中間層的子系統(tǒng)來實現(xiàn)搜索引擎的個性化。所以接下我們將介紹整個系統(tǒng)各個子系統(tǒng)的設計和實現(xiàn),并著重介紹用戶興趣模型、用戶查詢擴展和用戶反饋等中間層的子系統(tǒng)等三個子系統(tǒng)。 2.2個性化搜索的流程圖 圖2-2個性化搜索流程圖 如上圖所示,用戶使用個性化搜索的系統(tǒng)的過程如下: 1.首先用戶必須先注冊,使系統(tǒng)能記錄你的相關信息,從而提供每個用戶具有一個獨立的,與眾不同的搜索引擎。 2.用戶通過查詢界面輸入

5、查詢,用戶查詢處理子系統(tǒng)會對用戶查詢調用自然語言處理子系統(tǒng)進行預處理。 3.系統(tǒng)會通過“用戶查詢擴展”子模塊對查詢進行擴展,擴展后的查詢再經(jīng)過“用戶興趣模型”子模塊進行過濾得到跟用戶更相關的查詢。 4.初始查詢請求作為輸入經(jīng)過通用搜索引擎子系統(tǒng)的處理,并獲得初始的查詢結果再利用“用戶興趣模型”模塊對初始查詢結果進行重排序和過濾,得到最終的個性化查詢結果。 5.用戶對查詢結果做出反饋,那些反饋信息將被加入到“用戶興趣模型”模塊中,使其能在下一次搜索中發(fā)揮作用。 三、用戶反饋和用戶興趣模型 3.1用戶反饋 用戶反饋技術(user feedback)是在個性化搜索方面最重要的方法之一。一

6、個搜索引擎最終返回的結果很大程度是依賴于用戶的查詢詞。然而很少有用戶能夠構造理想的查詢詞,用戶構造出來的查詢詞通常含義模糊。這樣的原因有很多:用戶的教育背景,用戶對搜索引擎的理解水平,用戶對檢索問題的掌握情況。 但是用戶能做的是,如果把相關文檔擺在用戶面前,用戶是能夠知道這是我想要的。因此很自然的就產(chǎn)生了“用戶反饋”的想法,即通過使用用戶反饋來改進搜索系統(tǒng)的性能,提高用戶的滿意程度。 3.2用戶興趣模型子系統(tǒng)設計 我們定義的用戶興趣模型的信息是通過用戶反饋捕捉到的動態(tài)用戶興趣。 我們下面主要講述了通過學習用戶顯式或隱式反饋來建立用戶興趣模型并動態(tài)更新用戶模型的方法。 我們研究的用戶興

7、趣模型是基于如下幾個方面的考慮的: 用戶可以具有多個不同的興趣模型,用戶興趣模型反映了用戶的興趣和偏好; 用戶顯式或隱式反饋是將觸發(fā)用戶興趣的建立或者更新,用戶反饋包括了顯示正反饋,顯示負反饋,隱式正反饋和隱式負反饋四種; 每一個用戶的興趣模型可以通過向量空間模型來表示;文檔和用戶興趣的相似度大小可以通過余弦公式來計算。 圖3-1用戶興趣模型結構 3.3用戶興趣模型學習算法 毫無疑問,用戶的興趣是會隨著戶顯式或隱式的反饋而動態(tài)改變的,比如新興趣的加入,舊興趣的消失,以及原來來興趣的減弱或者加強。因此我們的系統(tǒng)必須能及時調整,才能真正反映用戶的興趣愛好。 用戶興趣模型學習算法描

8、述如下: 輸入:反饋類型fbType,被反饋的文檔向量空間表示fvd,學習速率α 注釋:fbType>0代表用戶喜歡該反饋文檔,學習速率α代表用戶的偏好大小 Find the most relevant category C in user profile P If Relevance(C fvd)< o then Learn NewCatergory (P, fbType, fvd, a) Else Learn UserFeedback (P, fbType, fvd, a) End if 給定一個反饋文檔,首先是先找到在profile中和反饋文檔最相

9、關的興趣類別C。如果相關度最大興趣類別的值小于一定的閾值θ則建立一個新的興趣類別;否則該興趣類別將根據(jù)反饋類型fbType的值和學習速率α進行相應的修改。 四、用戶查詢擴展 4.1用戶查詢擴展子系統(tǒng)必要性及實現(xiàn)途徑 用戶使用搜索引擎獲得的搜索結果相關性高低往往和關鍵字的選取有很大關系。然而受用戶的教育背景,用戶對搜索引擎的理解水平及用戶對檢索問題的掌握情況等多方面因素的限制。因而很少用戶能夠構造理想的查詢詞,因此個性化的搜索系統(tǒng)必須要能夠理解用戶的搜索意圖,主動向用戶推薦相關度較好的關鍵字。 我們知道自然語言的詞語之間有著非常復雜的關系,在實際的應用中,有時需要把這種復雜的關系用一種簡

10、單的數(shù)量來度量,而詞語相似度的量化就是其中的一種。如果能把獲得和用戶查詢關鍵字相似度高的詞語,無疑能提高用戶的查詢結果。另外,我們可以像Baidu那樣從用戶查詢日志里面提取“相關搜索“來實現(xiàn)用戶查詢的擴展。我們的系統(tǒng)采用了兩種方法來進行查詢擴展: [1]采用Corpus來獲得某個詞語的相似詞語,來實現(xiàn)查詢的擴展。 [2]采用基于關鍵字的相似性和IDF的方法來實現(xiàn)關鍵字的擴展。 通過對用戶查詢關鍵字進行擴展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關鍵字推薦。 4.2基于Corpus的用戶查詢擴展 由前面章節(jié)討論可以知道,用戶查詢擴展主要借助Corpus庫對用戶查

11、詢的關鍵字進行擴展,實現(xiàn)向用戶主動推薦可能滿足用戶意圖的關鍵字功能。 4.2.1基于Corpus的查詢擴展子系統(tǒng)結構 Corpus是在大規(guī)模語料庫中統(tǒng)計的來得豐富信息進行篩選并存儲,作為詞和詞之間相似度量化的信息基礎。如下圖所示,corpus庫用于把浩瀚的語料庫中所蘊含的詞和詞之間的關系通過統(tǒng)計的方法提取出來并進行存儲,然后為上層的詞語關系量化計算提供支持。 圖4-1 Corpus庫介紹 圖4-2基于Corpus的查詢擴展子系統(tǒng)結構圖 圖4-3 Corpus庫結構 該子系統(tǒng)主要使用了下層Corpus庫提供的單詞擴展接口,該函數(shù)返回和輸入單詞相似度最高的10個單詞,從而實

12、現(xiàn)了對查詢的擴展,因而可能得到更符合用戶潛在需求的查詢關鍵字。 五、實驗與數(shù)據(jù)分析 為了驗證我們個性化搜索系統(tǒng)原型,我們進行了一些模擬實驗。我們的實驗過程如下: 圖5-1實驗流程圖 系統(tǒng)的測試是通過志愿者來人工判讀搜索結果的好壞的。測試的結果和語料以測試者的主觀判讀有很大的關系。實驗結果表明,使用個性化的搜索的結果比通用搜索的結果平均滿意程度要高10%。 圖5-2結果對比 除此之外,我們電視化個性化搜索系統(tǒng)的結果的精度與學習速率α以及興趣類別閾值θ具有很大的關系。 圖5-3學習速率和用戶滿意程度的關系 實驗結果表明,用戶的滿意程度隨著學習速率的降低而增大。 圖

13、5-4興趣類別閾值和結果精度之間關系 而查詢結果精度隨著興趣類別的閾值增大而有增長趨勢。 六、總結 個性化搜索是當今搜索引擎領域熱門的研究方向之一。在本文中,我們研究了通過用戶興趣模型過濾搜索結果、通過使用用戶反饋改進搜索質量、通過用戶擴展捕捉用戶查詢意圖等途徑來共同實現(xiàn)電視節(jié)目的個性化搜索的方法。我們通過用戶反饋得到的文檔來建立用戶興趣模型來表示用戶的個性化信息。另外,通過對用戶查詢關鍵字進行擴展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關鍵字推薦。 用戶個性化的興趣模型是我們研究的核心,它對能否實現(xiàn)個性化搜索具有重要的意義?;谟脩舻呐d趣是多樣并且是多變的事實

14、,我們使用用戶興趣模型來代表用戶多樣且多變的興趣分類。每個興趣分類由含短期正興趣描述向量、短期負興趣描述向量以及長期興趣描述向量等3部分組成。 實驗結果表明,我們設計的出的個性化搜索系統(tǒng)能顯著提高用戶的查詢體驗。 參考文獻 [1]艾瑞發(fā)布的2007年第三季度搜索引擎市場報告. [2]Google個性化首頁. [3]杜小勇.下一代搜索引擎,中國傳媒科技. [4]李以正.基于用戶反饋與協(xié)同過濾的情報檢索系統(tǒng)的建立.情報雜志.2007.No.2 [5]宋懿,國德峰.基于壓縮倒排文件的中文全文檢索仿真系統(tǒng).計算機工程.2008(12) [6]龔筆宏.基于用戶反饋的個性化檢索技術研究.北京大學博士論文,2007,pp.92. 14

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!