深度學習之word2vec課件共23頁

資源ID：30026491 資源大?。?span id="z5gtgtq" class="font-tahoma">1.58MB 全文頁數(shù)：23頁
資源格式： PPT 下載積分：10積分

快捷下載

會員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要10積分

郵箱/手機：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機號，方便查詢和重復下載（系統(tǒng)自動生成）
支付方式：
驗證碼：	換一換

賬號：
密碼：
驗證碼：	換一換
當日自動登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會被瀏覽器默認打開，此種情況可以點擊瀏覽器菜單，保存網(wǎng)頁到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經(jīng)過壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標題沒有明確說明有答案則都視為沒有答案，請知曉。

網(wǎng)站客服

侵權投訴

深度學習之word2vec課件共23頁

深度學習之word2vec學習、分享與交流報告人：黃宇鵬目錄基本概念模型與方法實戰(zhàn)與應用詞向量自然語言中的詞語在機器學習中表示符號 One-hot Representation例如： “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實現(xiàn)時就可以用0,1,2,3,.來表示詞語進行計算，這樣“話筒”就為3，“麥克”為8. 存在兩個問題維度比較大,尤其是用于 Deep Learning 的一些算法時詞匯鴻溝：任意兩個詞之間都是孤立的，不能體現(xiàn)詞和詞之間的關系詞向量 Distributional Representation 詞表示為： 0.792, 0.177, 0.107, 0.109, 0.542, .，常見維度50或者100 解決“詞匯鴻溝”問題可以通過計算向量之間的距離（歐式距離、余弦距離等）來體現(xiàn)詞與詞的相似性如何訓練這樣的詞向量沒有直接的模型可訓練得到可通過訓練語言模型的同時，得到詞向量語言模型判斷一句話是不是正常人說出來的，用數(shù)學符號描述為給定一個字符串w1,w2,.,wt,計算它是自然語言的概率，一個很簡單的推論是例如，有個句子大家,喜歡,吃,蘋果 P(大家，喜歡，吃，蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(蘋果|大家,喜歡,吃) 簡單表示為計算問題),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwpTiiiTContextwpwwwpsp121)|(),.,()()|(iiContextwp語言模型現(xiàn)有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語義強化 .word2vec原理兩種模型，兩種方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative SamplingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當前詞語（向量） w(t-2),w(t-1),w(t+1),w(t+2):當前詞語的上下文 SUM:上下文的累加和CBOW模型+Hierarchical Softmax方法（續(xù)）CBOW模型+Hierarchical Softmax方法（續(xù)）為什么建哈夫曼樹？非葉子結點為LR分類器葉子結點對應詞典中的一個詞目標：)|(iiContextwpCBOW模型+Hierarchical Softmax方法（續(xù)）句子：我,喜歡,觀看,巴西,足球,世界杯 w=足球CBOW模型+Hierarchical Softmax方法（續(xù)）正類概率: 負類概率: 足球葉子節(jié)點經(jīng)過4次二分類，每次分類結果對應的概率為由Context(足球)預測足球出現(xiàn)的概率CBOW模型+Hierarchical Softmax方法（續(xù)）wljwjwwjXdpwContextwp21),|()(|( 對于詞典中的每個詞w有，結點個數(shù) 其中，或者表示為對于由S個句子組成的語料庫C有取對數(shù)似然函數(shù). 1),(1; 0),(),|(111wjwjTxwjwjTxwjwwjdXdXXdpwjwjdwjTwdwjTwwjwwjXXXdp)(1 )(),|(1111CsswljwjwwjCsswwXdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121CsswljwjTwwjwjTwwjCsswljwjwwjwwXdXdXdpXLwl參數(shù)1參數(shù)2CBOW模型+Hierarchical Softmax方法（續(xù)）)(1log()(log)1 (),(11wjTwwjwjTwwjXdXdjwfwj 1 梯度下降法進行求解令 f(w,j)關于和的梯度分別為更新公式wXwwjTwwjwjXXdjwf)(1 ),(11wjwjTwwjwXdXjwf11)(1 ),(wjwjwjjwf111),(:wljwwContextwXjwfwVwV2)(,),()(: )(word2vec實戰(zhàn)（一）訓練數(shù)據(jù)集：經(jīng)過分詞后的新聞數(shù)據(jù)，大小184MB 查看中國，釣魚島，旅游，蘋果幾個詞語的相似詞語如下所示word2vec實戰(zhàn)（一）向量加減法中國+北京-日本，中國+北京-法國，家庭+孩子-學校word2vec應用（一）機器翻譯語言詞語的關系集合被表征為向量集合向量空間內，不同語言享有許多共性實現(xiàn)一個向量空間到另一個向量空間的映射和轉換圖為英語和西班語的五個詞在向量空間中的位置（已經(jīng)過降維）對英語和西班語之間的翻譯準確率高達90%word2vec應用（三）給廣告主推薦用戶 T媒體網(wǎng)站用戶瀏覽網(wǎng)頁的記錄 pageH是匹克體育用品公司在T上的官網(wǎng) page2,page3,page5和pageH是比較相似的頁面可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個幾個頁面的用戶進行廣告投放word2vec應用（三）相似的頁面計算過程word2vec應用（三）續(xù) 對ctr預估模型的幫助新廣告上線存在冷啟動問題通過比較相似的廣告的點擊率來預估這個廣告的點擊率由上個例子可得到每個頁面的向量，然后通過Kmeans進行聚類，得到比較相似頁面的簇？向頁面向量添加其它的特征，例如廣告主所屬的行業(yè)和地域等假設頁面p1的向量是(0.3,-0.5,0.1），加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0)，1和0分別表示行業(yè)和地域的特征值這樣得到的聚類效果相對更好參考文獻1 .csdn/mytestmy/article/details/26969149 深度學習word2vec筆記之算法篇 2 .csdn/itplus/article/details/37969979 word2vec 中的數(shù)學原理詳解（四）基于 Hierarchical Softmax 的模型 3 zhihu/question/21661274/answer/19331979 楊超在知乎上的問答Word2Vec的一些理解4 xiaoquanzi/?p=156 hisen博客的博文5 .csdn/mytestmy/article/details/38612907 深度學習word2vec筆記之應用篇 6 tech.youdao/?p=915 Deep Learning實戰(zhàn)之word2vec，網(wǎng)易有道的pdf7 .csdn/lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.13licstar/archives/328 Deep Learning in NLP （一）詞向量和語言模型thank you !Q&A謝謝

注意事項

本文（深度學習之word2vec課件共23頁）為本站會員（文***）主動上傳，裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對上載內容本身不做任何修改或編輯。若此文所含內容侵犯了您的版權或隱私，請立即通知裝配圖網(wǎng)（點擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因為網(wǎng)速或其他原因下載失敗請重新下載，重復下載不扣分。

深度學習之word2vec課件 共23頁

深度學習之word2vec課件 共23頁

深度學習之word2vec課件共23頁

深度學習之word2vec課件共23頁