《電視節(jié)目的個性化搜索研究影視編導專業(yè)》由會員分享,可在線閱讀,更多相關《電視節(jié)目的個性化搜索研究影視編導專業(yè)(14頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、電視節(jié)目的個性化搜索研究
摘 要
電視節(jié)目是人們普遍喜歡的娛樂方式之一。然而隨著電視技術的高速發(fā)展,電視節(jié)目日益豐富的,人們不知不覺中已深處在電視節(jié)目的海洋中。電視節(jié)目包含了文本字幕,因而對電視節(jié)目的查找可間接地轉換為對電視文本的搜索。為了幫助用戶快速地查找到喜愛的電視節(jié)目,針對電視節(jié)目的個性化搜索進行了研究,并開發(fā)了一個小型的個性化電視節(jié)目搜索原型系統(tǒng)。本文主要研究了基于文本的電視節(jié)目的個性化搜索,在文章最后可以看到個性化搜索算法可以顯著提高搜索質量。
關鍵詞:個性化搜索,用戶興趣模型,查詢擴展,用戶反饋
一、引言
電視節(jié)目是人們普通的娛樂方式;然而隨著電視技術
2、的高速發(fā)展,出現(xiàn)了諸如電纜、光纜、微波、衛(wèi)星等多種傳播方式。我國的鑫諾通信衛(wèi)星可可同時支持兩百余套標準清晰度電視節(jié)目;人們不知不覺中已深處在電視節(jié)目的海洋中。
為了幫助用戶快速地查找到喜愛的個性化電視節(jié)目,針對電視節(jié)目的個性化搜索進行了研究。在我們的系統(tǒng)中,我們是基于如下假定:每個電視節(jié)目都有一個對應的具有固定格式且具有類別信息的描述文本,所以對電視節(jié)目的搜索可以轉換為對電視文本的搜索。
二、個性化搜索引擎研究綜述
個性化搜索引擎目的是為了建立的通用搜索引擎之上的新一代的搜索引擎,它的目標是消除當前搜索引擎缺點即結果相關性低和“千人一面”等缺點。
2.1個性化搜索框架
如下圖所示,我
3、們設計的電視節(jié)目個性化搜索系統(tǒng)共分為6個子系統(tǒng):分別是處于最底層的自然語言處理子系統(tǒng)和網(wǎng)絡蜘蛛子系統(tǒng)、處于次底層的存儲子系統(tǒng)和索引子系統(tǒng)。
圖2-1電視節(jié)目個性化搜索系統(tǒng)架構
處于中間層的通用搜索系統(tǒng)和個性化搜索子系統(tǒng),處于最高層的用戶查詢處理子系統(tǒng)。其中個性化搜索子系統(tǒng)又包括了四個子模塊,分別為用戶興趣模型模塊,用戶反饋模塊,語義庫模塊和以語義庫為基礎的查詢擴展模塊。
我們的系統(tǒng)通用搜索引擎在此基礎上,添加了基于用戶興趣模型,用戶查詢關鍵字的擴展,用戶相關反饋等三個要素,使經(jīng)典的搜索引擎具有了個性化搜索的特征。
由上面可以看出,我們的電視節(jié)目個性化搜索系統(tǒng)是有九大模塊組成的,每個
4、模塊具有各自相對對立的功能(高內聚),而各個模塊間緊密聯(lián)系(低耦合),一起共同實現(xiàn)了電視節(jié)目的個性化搜索的功能。
我們的系統(tǒng)是通過在原理的基礎上增加了用戶興趣模型、用戶查詢擴展和用戶反饋等中間層的子系統(tǒng)來實現(xiàn)搜索引擎的個性化。所以接下我們將介紹整個系統(tǒng)各個子系統(tǒng)的設計和實現(xiàn),并著重介紹用戶興趣模型、用戶查詢擴展和用戶反饋等中間層的子系統(tǒng)等三個子系統(tǒng)。
2.2個性化搜索的流程圖
圖2-2個性化搜索流程圖
如上圖所示,用戶使用個性化搜索的系統(tǒng)的過程如下:
1.首先用戶必須先注冊,使系統(tǒng)能記錄你的相關信息,從而提供每個用戶具有一個獨立的,與眾不同的搜索引擎。
2.用戶通過查詢界面輸入
5、查詢,用戶查詢處理子系統(tǒng)會對用戶查詢調用自然語言處理子系統(tǒng)進行預處理。
3.系統(tǒng)會通過“用戶查詢擴展”子模塊對查詢進行擴展,擴展后的查詢再經(jīng)過“用戶興趣模型”子模塊進行過濾得到跟用戶更相關的查詢。
4.初始查詢請求作為輸入經(jīng)過通用搜索引擎子系統(tǒng)的處理,并獲得初始的查詢結果再利用“用戶興趣模型”模塊對初始查詢結果進行重排序和過濾,得到最終的個性化查詢結果。
5.用戶對查詢結果做出反饋,那些反饋信息將被加入到“用戶興趣模型”模塊中,使其能在下一次搜索中發(fā)揮作用。
三、用戶反饋和用戶興趣模型
3.1用戶反饋
用戶反饋技術(user feedback)是在個性化搜索方面最重要的方法之一。一
6、個搜索引擎最終返回的結果很大程度是依賴于用戶的查詢詞。然而很少有用戶能夠構造理想的查詢詞,用戶構造出來的查詢詞通常含義模糊。這樣的原因有很多:用戶的教育背景,用戶對搜索引擎的理解水平,用戶對檢索問題的掌握情況。
但是用戶能做的是,如果把相關文檔擺在用戶面前,用戶是能夠知道這是我想要的。因此很自然的就產(chǎn)生了“用戶反饋”的想法,即通過使用用戶反饋來改進搜索系統(tǒng)的性能,提高用戶的滿意程度。
3.2用戶興趣模型子系統(tǒng)設計
我們定義的用戶興趣模型的信息是通過用戶反饋捕捉到的動態(tài)用戶興趣。
我們下面主要講述了通過學習用戶顯式或隱式反饋來建立用戶興趣模型并動態(tài)更新用戶模型的方法。
我們研究的用戶興
7、趣模型是基于如下幾個方面的考慮的:
用戶可以具有多個不同的興趣模型,用戶興趣模型反映了用戶的興趣和偏好;
用戶顯式或隱式反饋是將觸發(fā)用戶興趣的建立或者更新,用戶反饋包括了顯示正反饋,顯示負反饋,隱式正反饋和隱式負反饋四種;
每一個用戶的興趣模型可以通過向量空間模型來表示;文檔和用戶興趣的相似度大小可以通過余弦公式來計算。
圖3-1用戶興趣模型結構
3.3用戶興趣模型學習算法
毫無疑問,用戶的興趣是會隨著戶顯式或隱式的反饋而動態(tài)改變的,比如新興趣的加入,舊興趣的消失,以及原來來興趣的減弱或者加強。因此我們的系統(tǒng)必須能及時調整,才能真正反映用戶的興趣愛好。
用戶興趣模型學習算法描
8、述如下:
輸入:反饋類型fbType,被反饋的文檔向量空間表示fvd,學習速率α
注釋:fbType>0代表用戶喜歡該反饋文檔,學習速率α代表用戶的偏好大小
Find the most relevant category C in user profile P
If Relevance(C fvd)< o then
Learn NewCatergory (P, fbType, fvd, a)
Else
Learn UserFeedback (P, fbType, fvd, a)
End if
給定一個反饋文檔,首先是先找到在profile中和反饋文檔最相
9、關的興趣類別C。如果相關度最大興趣類別的值小于一定的閾值θ則建立一個新的興趣類別;否則該興趣類別將根據(jù)反饋類型fbType的值和學習速率α進行相應的修改。
四、用戶查詢擴展
4.1用戶查詢擴展子系統(tǒng)必要性及實現(xiàn)途徑
用戶使用搜索引擎獲得的搜索結果相關性高低往往和關鍵字的選取有很大關系。然而受用戶的教育背景,用戶對搜索引擎的理解水平及用戶對檢索問題的掌握情況等多方面因素的限制。因而很少用戶能夠構造理想的查詢詞,因此個性化的搜索系統(tǒng)必須要能夠理解用戶的搜索意圖,主動向用戶推薦相關度較好的關鍵字。
我們知道自然語言的詞語之間有著非常復雜的關系,在實際的應用中,有時需要把這種復雜的關系用一種簡
10、單的數(shù)量來度量,而詞語相似度的量化就是其中的一種。如果能把獲得和用戶查詢關鍵字相似度高的詞語,無疑能提高用戶的查詢結果。另外,我們可以像Baidu那樣從用戶查詢日志里面提取“相關搜索“來實現(xiàn)用戶查詢的擴展。我們的系統(tǒng)采用了兩種方法來進行查詢擴展:
[1]采用Corpus來獲得某個詞語的相似詞語,來實現(xiàn)查詢的擴展。
[2]采用基于關鍵字的相似性和IDF的方法來實現(xiàn)關鍵字的擴展。
通過對用戶查詢關鍵字進行擴展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關鍵字推薦。
4.2基于Corpus的用戶查詢擴展
由前面章節(jié)討論可以知道,用戶查詢擴展主要借助Corpus庫對用戶查
11、詢的關鍵字進行擴展,實現(xiàn)向用戶主動推薦可能滿足用戶意圖的關鍵字功能。
4.2.1基于Corpus的查詢擴展子系統(tǒng)結構
Corpus是在大規(guī)模語料庫中統(tǒng)計的來得豐富信息進行篩選并存儲,作為詞和詞之間相似度量化的信息基礎。如下圖所示,corpus庫用于把浩瀚的語料庫中所蘊含的詞和詞之間的關系通過統(tǒng)計的方法提取出來并進行存儲,然后為上層的詞語關系量化計算提供支持。
圖4-1 Corpus庫介紹
圖4-2基于Corpus的查詢擴展子系統(tǒng)結構圖
圖4-3 Corpus庫結構
該子系統(tǒng)主要使用了下層Corpus庫提供的單詞擴展接口,該函數(shù)返回和輸入單詞相似度最高的10個單詞,從而實
12、現(xiàn)了對查詢的擴展,因而可能得到更符合用戶潛在需求的查詢關鍵字。
五、實驗與數(shù)據(jù)分析
為了驗證我們個性化搜索系統(tǒng)原型,我們進行了一些模擬實驗。我們的實驗過程如下:
圖5-1實驗流程圖
系統(tǒng)的測試是通過志愿者來人工判讀搜索結果的好壞的。測試的結果和語料以測試者的主觀判讀有很大的關系。實驗結果表明,使用個性化的搜索的結果比通用搜索的結果平均滿意程度要高10%。
圖5-2結果對比
除此之外,我們電視化個性化搜索系統(tǒng)的結果的精度與學習速率α以及興趣類別閾值θ具有很大的關系。
圖5-3學習速率和用戶滿意程度的關系
實驗結果表明,用戶的滿意程度隨著學習速率的降低而增大。
圖
13、5-4興趣類別閾值和結果精度之間關系
而查詢結果精度隨著興趣類別的閾值增大而有增長趨勢。
六、總結
個性化搜索是當今搜索引擎領域熱門的研究方向之一。在本文中,我們研究了通過用戶興趣模型過濾搜索結果、通過使用用戶反饋改進搜索質量、通過用戶擴展捕捉用戶查詢意圖等途徑來共同實現(xiàn)電視節(jié)目的個性化搜索的方法。我們通過用戶反饋得到的文檔來建立用戶興趣模型來表示用戶的個性化信息。另外,通過對用戶查詢關鍵字進行擴展,得到潛在的用戶查詢意圖并經(jīng)過用戶興趣模型的過濾得到用戶個性化的關鍵字推薦。
用戶個性化的興趣模型是我們研究的核心,它對能否實現(xiàn)個性化搜索具有重要的意義?;谟脩舻呐d趣是多樣并且是多變的事實
14、,我們使用用戶興趣模型來代表用戶多樣且多變的興趣分類。每個興趣分類由含短期正興趣描述向量、短期負興趣描述向量以及長期興趣描述向量等3部分組成。
實驗結果表明,我們設計的出的個性化搜索系統(tǒng)能顯著提高用戶的查詢體驗。
參考文獻
[1]艾瑞發(fā)布的2007年第三季度搜索引擎市場報告.
[2]Google個性化首頁.
[3]杜小勇.下一代搜索引擎,中國傳媒科技.
[4]李以正.基于用戶反饋與協(xié)同過濾的情報檢索系統(tǒng)的建立.情報雜志.2007.No.2
[5]宋懿,國德峰.基于壓縮倒排文件的中文全文檢索仿真系統(tǒng).計算機工程.2008(12)
[6]龔筆宏.基于用戶反饋的個性化檢索技術研究.北京大學博士論文,2007,pp.92.
14