點(diǎn)擊率及其準(zhǔn)確性研究分析網(wǎng)絡(luò)工程專業(yè)
《點(diǎn)擊率及其準(zhǔn)確性研究分析網(wǎng)絡(luò)工程專業(yè)》由會(huì)員分享,可在線閱讀,更多相關(guān)《點(diǎn)擊率及其準(zhǔn)確性研究分析網(wǎng)絡(luò)工程專業(yè)(14頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、點(diǎn)擊率及其準(zhǔn)確性研究 摘要 在互聯(lián)網(wǎng)時(shí)代網(wǎng)頁(yè)點(diǎn)擊率日益成為重要的理論和運(yùn)用熱點(diǎn),本課題正是基于這樣一個(gè)原因圍繞統(tǒng)計(jì)網(wǎng)頁(yè)頁(yè)面點(diǎn)擊率和準(zhǔn)確性問題展開了較為全面的研究。首先對(duì)網(wǎng)頁(yè)頁(yè)面點(diǎn)擊率問題的研究背景、現(xiàn)狀和趨勢(shì)進(jìn)行了闡釋;其次針對(duì)點(diǎn)擊率中存在的問題,重點(diǎn)研究了單頁(yè)面統(tǒng)計(jì)、利用jsp內(nèi)置對(duì)象application統(tǒng)計(jì)、利用jsp application和session統(tǒng)計(jì)等三種方法,同時(shí)著眼如何區(qū)分同一IP上不同用戶點(diǎn)擊情況,納入點(diǎn)擊時(shí)間、點(diǎn)擊頻率兩個(gè)因素,設(shè)計(jì)改進(jìn)了點(diǎn)擊率的統(tǒng)計(jì)方法,結(jié)果表明改進(jìn)后的點(diǎn)擊率統(tǒng)計(jì)方法能夠更加準(zhǔn)確反映用戶點(diǎn)擊的真實(shí)情況。 關(guān)鍵詞 頁(yè)面點(diǎn)擊率;準(zhǔn)確性;
2、點(diǎn)擊時(shí)間;點(diǎn)擊頻率 Research on Click-through Rate and Its Accuracy Abstract In the Internet age, the click-through rate of web pages has become an increasingly important theoretical and application hotspot. This topic is based on this reason, focusing on the statistical issues of page click-through
3、 rate and accuracy. Firstly, the research background, current situation and trend of web page click-through rate are elaborated. Secondly, aiming at the problems of click-through rate, three methods are studied: counting by single page, counting with JSP built-in object application, counting with JS
4、P application and session. In order to distinguish clicks of different users on the same IP, including click time and click frequency, a click rate statistics method was designed and improved. The results show that the improved click-through rate statistics method can more accurately reflect the cli
5、ck-through rate of users. Key words page click rate; accuracy; click time; click frequency 13 1 概述 1.1 研究背景與意義 當(dāng)今進(jìn)入網(wǎng)絡(luò)時(shí)代、智能時(shí)代和電子商務(wù)時(shí)代,網(wǎng)絡(luò)上電子商務(wù)店鋪、輿論輿情分析人員、文案創(chuàng)作人員等等許多主體都會(huì)更加關(guān)注自己在網(wǎng)絡(luò)上的網(wǎng)頁(yè)備關(guān)注的程度,這種被關(guān)注程度衡量的重要依據(jù)就是點(diǎn)擊率的多少,每天或者是每個(gè)小時(shí)有多少人在點(diǎn)擊網(wǎng)頁(yè),特別是隨著電子商務(wù)發(fā)展,網(wǎng)頁(yè)上的廣告成為一種和電視媒體廣告一樣重要的廣告模式,如何知道廣告瀏覽情況,點(diǎn)擊率也是最重要的衡
6、量指標(biāo)。反映了網(wǎng)頁(yè)上某一內(nèi)容的受關(guān)注程度,經(jīng)常用來衡量廣告的吸引程度。因此,對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)點(diǎn)擊率的研究越來越重要。 當(dāng)前研究人員研究的重點(diǎn)是關(guān)注網(wǎng)站頁(yè)面上某個(gè)內(nèi)容,被點(diǎn)擊次數(shù)與被顯示次數(shù)之比,用公式表示就是Click frequency=clicks/time*100%。點(diǎn)擊率的計(jì)算可以通過多種方式進(jìn)行,最基本的公式為:點(diǎn)擊率=點(diǎn)數(shù)數(shù)訪問數(shù)。如一個(gè)新聞網(wǎng)站的網(wǎng)頁(yè)鏈接在一小時(shí)之內(nèi),某網(wǎng)頁(yè)刊登的廣告被點(diǎn)擊10次,以10s為單位時(shí)間,這個(gè)網(wǎng)頁(yè)上的廣告點(diǎn)擊率=點(diǎn)擊數(shù)訪問數(shù)=10/360*100%=2.8%。。當(dāng)前通用的計(jì)算方法是指網(wǎng)站的點(diǎn)擊率,也就是指一個(gè)鏈接單位時(shí)間內(nèi)的點(diǎn)擊次數(shù)。 在互聯(lián)網(wǎng)廣告成為
7、了商家推崇的一種主流營(yíng)銷方式的時(shí)代,選擇了網(wǎng)站網(wǎng)頁(yè)點(diǎn)擊率與準(zhǔn)確性這個(gè)課題進(jìn)行研究,并把研究的范圍聚焦到電子商務(wù)中網(wǎng)頁(yè)廣告的點(diǎn)擊率問題,采用一定的算法預(yù)估精準(zhǔn)廣告投放的效益,在精確廣告投放過程中扮演了很重要的角色。預(yù)估的準(zhǔn)確性對(duì)廣告主的收益、廣告商的收益以及用戶的友好體驗(yàn)有著重大的影響,因此受到互聯(lián)網(wǎng)企業(yè)的廣泛關(guān)注。這時(shí)用點(diǎn)擊率衡量出一個(gè)比值,有多少人看到一個(gè)鏈接,然后又有多少人點(diǎn)進(jìn)去看,用這兩個(gè)數(shù)字之比來衡量一個(gè)網(wǎng)絡(luò)內(nèi)容的受歡迎程度和影響程度,如圖1.1在線廣告投放模式所示。 圖1.1 在線廣告投放模式 但是當(dāng)前采取的方法計(jì)算網(wǎng)頁(yè)點(diǎn)擊率CRT,最突出的特點(diǎn)是這種點(diǎn)擊率計(jì)算方法不重復(fù)計(jì)算
8、24小時(shí)內(nèi)相同IP的點(diǎn)擊行為,因?yàn)橄嗤腎P意味著相同的人,相同的人看一萬(wàn)次和看一次沒有什么區(qū)別。典型的是百度統(tǒng)計(jì)和谷歌統(tǒng)計(jì),使用百度統(tǒng)計(jì)可以很好的區(qū)分搜索推廣與自然流量,可以自動(dòng)推送給搜索引擎爬蟲,一條統(tǒng)計(jì)代碼可以和很多的百度產(chǎn)品結(jié)合在一起,所以百度統(tǒng)計(jì)還是比較方便的,目前常用點(diǎn)擊率統(tǒng)計(jì)方法有三種:第一種是單頁(yè)面統(tǒng)計(jì),第二種是利用jsp的內(nèi)置對(duì)象application進(jìn)行統(tǒng)計(jì)的方法,第三種是利用jsp的application和session進(jìn)行統(tǒng)計(jì)的方法。 本課題考慮到因?yàn)辄c(diǎn)擊率可以反映人們對(duì)一個(gè)網(wǎng)站或app喜愛程度,而如何探究點(diǎn)擊率的準(zhǔn)確性就需要仔細(xì)分析,比如在網(wǎng)吧一個(gè)IP可以不同的人登
9、錄,所以點(diǎn)擊率的準(zhǔn)確性是個(gè)值得探討的問題。正是基于這樣一個(gè)原因圍繞統(tǒng)計(jì)網(wǎng)頁(yè)頁(yè)面點(diǎn)擊率和準(zhǔn)確性問題展開了較為全面的研究,首先對(duì)網(wǎng)頁(yè)頁(yè)面點(diǎn)擊率問題的研究背景、現(xiàn)狀和趨勢(shì)進(jìn)行了闡釋;其次針對(duì)點(diǎn)擊率中存在的問題,重點(diǎn)研究了單頁(yè)面統(tǒng)計(jì)、利用jsp內(nèi)置對(duì)象application統(tǒng)計(jì)、利用jsp application和session統(tǒng)計(jì)等三種方法,同時(shí)著眼如何區(qū)分同一IP上不同用戶點(diǎn)擊情況,納入點(diǎn)擊時(shí)間、點(diǎn)擊頻率兩個(gè)因素,設(shè)計(jì)改進(jìn)了點(diǎn)擊率的統(tǒng)計(jì)方法,結(jié)果表明改進(jìn)后的點(diǎn)擊率統(tǒng)計(jì)方法能夠更加準(zhǔn)確反映用戶點(diǎn)擊的真實(shí)情況。 1.2 研究現(xiàn)狀 在國(guó)內(nèi)外對(duì)這個(gè)問題的研究多年來一直都是熱點(diǎn),有研究基本理論的,也有研
10、究算法應(yīng)用的,還有創(chuàng)新方法結(jié)構(gòu)的。從國(guó)外典型的有代表性的研究來看,發(fā)表比較早的研究成果是來自于Google. Microsoft、Yahoo三大互聯(lián)網(wǎng)公司。這三個(gè)公司近些年來把廣告點(diǎn)擊率預(yù)估作為了一個(gè)很熱門的研究課題,把廣告點(diǎn)擊率預(yù)估模塊作為實(shí)時(shí)廣告系統(tǒng)中一個(gè)不可或缺的組成部分,在學(xué)術(shù)上和工業(yè)界都有著很深入的研究,研究?jī)?nèi)容的重點(diǎn)是點(diǎn)擊率預(yù)估模型的設(shè)計(jì)、信息的提取和處理、長(zhǎng)短期利益權(quán)衡策略、模型訓(xùn)練分布式系統(tǒng)實(shí)現(xiàn)等方面, 并取得了一系列的理論成果和應(yīng)用成果,這種價(jià)值可以起到聯(lián)鎖作用,也就是說預(yù)估效果的好壞嚴(yán)重影響著廣告商的收益、廣告主的廣告投放效果以及用戶的上網(wǎng)體驗(yàn),如圖1.2廣告點(diǎn)擊率預(yù)估問
11、題模型所示。 圖1.2 廣告點(diǎn)擊率預(yù)估問題模型 此外,在國(guó)外的研究方面還有從事其他有關(guān)研究的。從國(guó)內(nèi)有代表性的典型研究來看,隨著國(guó)內(nèi)網(wǎng)絡(luò)理論和信息理論發(fā)展,國(guó)內(nèi)學(xué)者也十分重視點(diǎn)擊率及其準(zhǔn)確性研究,有跟蹤國(guó)外研究前沿的,有獨(dú)創(chuàng)派系的,也有國(guó)內(nèi)國(guó)外結(jié)合的,當(dāng)前的一個(gè)重點(diǎn)就是 信息的提取和處理,由于這是一個(gè)很復(fù)雜的過程,國(guó)內(nèi)學(xué)者把關(guān)注的重點(diǎn)放在如何從原始數(shù)據(jù)中提取出有助于點(diǎn)擊率預(yù)估的信息,目前取得了一系列成果,通常使用回歸或者分類方法,構(gòu)建點(diǎn)擊率預(yù)估模型,模型中考慮了各種對(duì)點(diǎn)擊率可能產(chǎn)生影響的因素。 1.3 研究框架 本文將論文分為5個(gè)部分,第一部分研究點(diǎn)擊率及其準(zhǔn)確性概述,第二部
12、分研究點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)原理,第三部分研究點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)方法分析,重點(diǎn)是基于單頁(yè)面統(tǒng)計(jì)、基于jsp內(nèi)置對(duì)象application統(tǒng)計(jì)、基于jsp application和session統(tǒng)計(jì),第四部分研究進(jìn)點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)新方法,主要包括利用點(diǎn)擊時(shí)間優(yōu)化統(tǒng)計(jì)方法和 利用點(diǎn)擊頻率優(yōu)化統(tǒng)計(jì)方法,第五部分對(duì)全文進(jìn)行總結(jié),并對(duì)研究課題進(jìn)行展望。 2 點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)原理 2.1 點(diǎn)擊率及其準(zhǔn)確性含義 通過前面的概述可以知道點(diǎn)擊率的含義,即網(wǎng)頁(yè)點(diǎn)擊率就是指一個(gè)鏈接單位時(shí)間內(nèi)的點(diǎn)擊次數(shù),最基本的公式為點(diǎn)擊率=點(diǎn)擊數(shù)訪問數(shù)。 點(diǎn)擊率的公式可表示為:
13、 (2-1) 當(dāng)前通用的計(jì)算方法是指網(wǎng)站的點(diǎn)擊率,就是指一個(gè)鏈接單位時(shí)間內(nèi)的點(diǎn)擊次數(shù),目前可以用百度統(tǒng)計(jì)來監(jiān)測(cè),百度統(tǒng)計(jì)點(diǎn)擊率當(dāng)前成為國(guó)內(nèi)最流行和可信的點(diǎn)擊率統(tǒng)計(jì)工具。如一個(gè)新聞網(wǎng)站的網(wǎng)頁(yè)鏈接在一小時(shí)之內(nèi),某網(wǎng)頁(yè)刊登的廣告被點(diǎn)擊10次,以10s為單位時(shí)間,這個(gè)網(wǎng)頁(yè)上的廣告點(diǎn)擊率=點(diǎn)擊數(shù)訪問數(shù)=10/360*100%=2.8%。 2.2 點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)方法分類 當(dāng)前對(duì)點(diǎn)擊率問題的典型研究,目前常用的方法有三種模式。 第一種,用戶瀏覽CTR模型預(yù)測(cè)模型。這種方法利用了概率論和統(tǒng)計(jì)論的思想,首先假設(shè)對(duì)網(wǎng)站上網(wǎng)頁(yè)上某個(gè)廣告的每一次點(diǎn)擊都是相互獨(dú)
14、立的獨(dú)立事件,第一次與后面的不相關(guān),則就可以利用相關(guān)性因素和IP位置的因素得到網(wǎng)頁(yè)的點(diǎn)擊率。這種模型是本文研究的重點(diǎn),在操作層面重點(diǎn)設(shè)計(jì)和創(chuàng)新基于單頁(yè)面統(tǒng)計(jì)、基于jsp內(nèi)置對(duì)象application統(tǒng)計(jì)、jsp application和session統(tǒng)計(jì)的方法。 第二種,動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型。這種方法以智能算法為基礎(chǔ),用到了貝葉斯網(wǎng)絡(luò)模型,貝葉斯網(wǎng)絡(luò)模型是研究過程的動(dòng)態(tài)模型。這里用到計(jì)算網(wǎng)頁(yè)點(diǎn)擊率主要是對(duì)使用者點(diǎn)擊網(wǎng)頁(yè)廣告的過程進(jìn)行建模,估算出觀察相關(guān)性、實(shí)際相關(guān)性指標(biāo)。這一個(gè)過程的建模和估算具體為:假設(shè)使用者點(diǎn)擊URL地址,當(dāng)且僅當(dāng)使用者確實(shí)關(guān)注到了URL這個(gè)鏈接,所謂的觀察相關(guān)性已經(jīng)滿足條
15、件;若使用者點(diǎn)擊后續(xù)的URL地址,則實(shí)際相關(guān)性不符合用戶的要求。這樣的一個(gè)模型大大的提高了計(jì)算點(diǎn)擊的實(shí)際效果,更加具有真實(shí)性。 第三種,點(diǎn)擊鏈模型。這種模型是對(duì)CRT預(yù)測(cè)方法的擴(kuò)展,這種方法的最大的優(yōu)點(diǎn)是充分考慮的使用者的心理因素和實(shí)際需求因素,對(duì)網(wǎng)頁(yè)上的廣告進(jìn)行瀏覽,反復(fù)的瀏覽,當(dāng)達(dá)到使用者的需求時(shí)才點(diǎn)擊,這樣的模型建模比較復(fù)雜,但經(jīng)過人工智能算法分析,則可以比較準(zhǔn)確的不僅計(jì)算了點(diǎn)擊率,而且預(yù)估的使用者的實(shí)際需求,對(duì)商業(yè)上有更高的價(jià)值。 2.3 本章小結(jié) 本章從分析點(diǎn)擊率的內(nèi)涵和外延出發(fā),對(duì)這一個(gè)概念進(jìn)行了闡釋,爾后研究了點(diǎn)擊率統(tǒng)計(jì)方法,重點(diǎn)分析了點(diǎn)擊率統(tǒng)計(jì)的典型方法,如用戶瀏覽CTR
16、模型預(yù)測(cè)模型、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型、點(diǎn)擊鏈模型,最后分析了本課題研究中所用到的方法,進(jìn)行了典型的歸納,為后續(xù)研究做好鋪墊。 3 點(diǎn)擊率及其準(zhǔn)確性統(tǒng)計(jì)方法分析 3.1 基于單頁(yè)面統(tǒng)計(jì) 這種統(tǒng)計(jì)方法對(duì)于網(wǎng)站的頁(yè)面,當(dāng)點(diǎn)擊了網(wǎng)站的某個(gè)頁(yè)面,計(jì)數(shù)器就統(tǒng)計(jì)一次點(diǎn)擊量,通過以獨(dú)立的IP地址或者網(wǎng)站頁(yè)面為訪問對(duì)象,只要被訪問點(diǎn)擊就記錄一次點(diǎn)擊量。在實(shí)際中將統(tǒng)計(jì)代碼放置在需要統(tǒng)計(jì)的網(wǎng)站網(wǎng)頁(yè)內(nèi),完成內(nèi)置代碼就可以實(shí)現(xiàn)點(diǎn)擊量的統(tǒng)計(jì)。 主要代碼如下: _hmt.push([_trackPageview, /virtual/login]); router.afterEach((to, from) => {
17、 console.log(to); console.log(to.fullPath); window._hmt.push([_trackPageview, /# + to.fullPath]); }); 3.2 基于jsp內(nèi)置對(duì)象application統(tǒng)計(jì) Jsp可以內(nèi)置request、response、pageContext、session、application、out、config、page、exception等內(nèi)置對(duì)象,這種應(yīng)用對(duì)象——application,是存活范圍最大的對(duì)象,當(dāng)服務(wù)器一直開啟時(shí),application在整個(gè)服務(wù)器運(yùn)行過程中數(shù)據(jù)一直
18、存在,但利用application統(tǒng)計(jì)也有弊端,這個(gè)程序結(jié)果運(yùn)行分析,也是訪問一次頁(yè)面統(tǒng)計(jì)一次。感覺還是不夠好。真正滿意的是瀏覽器打開網(wǎng)頁(yè),到關(guān)閉網(wǎng)頁(yè)算一次,這樣統(tǒng)計(jì)比較實(shí)際。
application實(shí)現(xiàn)一個(gè)簡(jiǎn)單的網(wǎng)頁(yè)計(jì)數(shù)器主要代碼如下:
@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
String path = request.getContextPath();
19、l>
20、t="keyword1,keyword2,keyword3">
21、 } else { String strnum=null; strnum =(String)application.getAttribute("counter"); int icount=0; icount=Integer.valueOf(strnum).intValue(); icount++; application.setAttribute("counter",Integer.toString(icount))
22、; } %> 您是第<%=application.getAttribute("counter") %>位訪問者;