深度學習之word2vec課件 共23頁
深度學習之word2vec學習、分享與交流報告人:黃宇鵬目錄 基本概念 模型與方法 實戰(zhàn)與應用詞向量 自然語言中的詞語在機器學習中表示符號 One-hot Representation例如: “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實現(xiàn)時就可以用0,1,2,3,.來表示詞語進行計算,這樣“話筒”就為3,“麥克”為8. 存在兩個問題 維度比較大,尤其是用于 Deep Learning 的一些算法時 詞匯鴻溝:任意兩個詞之間都是孤立的,不能體現(xiàn)詞和詞之間的關系詞向量 Distributional Representation 詞表示為: 0.792, 0.177, 0.107, 0.109, 0.542, .,常見維度50或者100 解決“詞匯鴻溝”問題 可以通過計算向量之間的距離(歐式距離、余弦距離等)來體現(xiàn)詞與詞的相似性 如何訓練這樣的詞向量 沒有直接的模型可訓練得到 可通過訓練語言模型的同時,得到詞向量語言模型 判斷一句話是不是正常人說出來的,用數(shù)學符號描述為 給定一個字符串w1,w2,.,wt,計算它是自然語言的概率 ,一個很簡單的推論是 例如,有個句子大家,喜歡,吃,蘋果 P(大家,喜歡,吃,蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(蘋果|大家,喜歡,吃) 簡單表示為 計算 問題),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwpTiiiTContextwpwwwpsp121)|(),.,()()|(iiContextwp語言模型 現(xiàn)有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語義強化 .word2vec原理 兩種模型,兩種方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative SamplingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當前詞語(向量) w(t-2),w(t-1),w(t+1),w(t+2):當前詞語的上下文 SUM:上下文的累加和CBOW模型+Hierarchical Softmax方法(續(xù))CBOW模型+Hierarchical Softmax方法(續(xù))為什么建哈夫曼樹?非葉子結點為LR分類器葉子結點對應詞典中的一個詞目標:)|(iiContextwpCBOW模型+Hierarchical Softmax方法(續(xù)) 句子:我,喜歡,觀看,巴西,足球,世界杯 w=足球CBOW模型+Hierarchical Softmax方法(續(xù)) 正類概率: 負類概率: 足球 葉子節(jié)點經(jīng)過4次二分類,每次分類結果對應的概率為 由Context(足球)預測足球出現(xiàn)的概率CBOW模型+Hierarchical Softmax方法(續(xù))wljwjwwjXdpwContextwp21),|()(|( 對于詞典中的每個詞w有, 結點個數(shù) 其中, 或者表示為 對于由S個句子組成的語料庫C有 取對數(shù)似然函數(shù). 1),(1; 0),(),|(111wjwjTxwjwjTxwjwwjdXdXXdpwjwjdwjTwdwjTwwjwwjXXXdp)(1 )(),|(1111CsswljwjwwjCsswwXdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121CsswljwjTwwjwjTwwjCsswljwjwwjwwXdXdXdpXLwl參數(shù)1參數(shù)2CBOW模型+Hierarchical Softmax方法(續(xù)))(1log()(log)1 (),(11wjTwwjwjTwwjXdXdjwfwj 1 梯度下降法進行求解 令 f(w,j)關于 和 的梯度分別為 更新公式wXwwjTwwjwjXXdjwf)(1 ),(11wjwjTwwjwXdXjwf11)(1 ),(wjwjwjjwf111),(:wljwwContextwXjwfwVwV2)(,),()(: )(word2vec實戰(zhàn)(一) 訓練數(shù)據(jù)集:經(jīng)過分詞后的新聞數(shù)據(jù),大小184MB 查看中國,釣魚島,旅游,蘋果幾個詞語的相似詞語如下所示word2vec實戰(zhàn)(一) 向量加減法 中國+北京-日本,中國+北京-法國,家庭+孩子-學校word2vec應用(一) 機器翻譯 語言詞語的關系集合被表征為向量集合 向量空間內,不同語言享有許多共性 實現(xiàn)一個向量空間到另一個向量空間的映射和轉換 圖為英語和西班語的五個詞在向量空間中的位置(已經(jīng)過降維) 對英語和西班語之間的翻譯準確率高達90%word2vec應用(三) 給廣告主推薦用戶 T媒體網(wǎng)站用戶瀏覽網(wǎng)頁的記錄 pageH是匹克體育用品公司在T上的官網(wǎng) page2,page3,page5和pageH是比較相似的頁面 可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個幾個頁面的用戶進行廣告投放word2vec應用(三) 相似的頁面計算過程word2vec應用(三)續(xù) 對ctr預估模型的幫助 新廣告上線存在冷啟動問題 通過比較相似的廣告的點擊率來預估這個廣告的點擊率 由上個例子可得到每個頁面的向量,然后通過Kmeans進行聚類,得到比較相似頁面的簇? 向頁面向量添加其它的特征,例如廣告主所屬的行業(yè)和地域等 假設頁面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值 這樣得到的聚類效果相對更好參考文獻1 .csdn/mytestmy/article/details/26969149 深度學習word2vec筆記之算法篇 2 .csdn/itplus/article/details/37969979 word2vec 中的數(shù)學原理詳解(四)基于 Hierarchical Softmax 的模型 3 zhihu/question/21661274/answer/19331979 楊超在知乎上的問答Word2Vec的一些理解4 xiaoquanzi/?p=156 hisen博客的博文5 .csdn/mytestmy/article/details/38612907 深度學習word2vec筆記之應用篇 6 tech.youdao/?p=915 Deep Learning實戰(zhàn)之word2vec,網(wǎng)易有道的pdf7 .csdn/lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.13licstar/archives/328 Deep Learning in NLP (一)詞向量和語言模型thank you !Q&A謝謝