欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

分析LDA在推薦系統(tǒng)上的引用

本篇內(nèi)容介紹了“分析LDA在推薦系統(tǒng)上的引用”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供扶溝網(wǎng)站建設(shè)、扶溝做網(wǎng)站、扶溝網(wǎng)站設(shè)計(jì)、扶溝網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、扶溝企業(yè)網(wǎng)站模板建站服務(wù),十載扶溝做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

 導(dǎo)讀

LDA是文檔分類上的經(jīng)典算法,如何應(yīng)用到推薦系統(tǒng)上,大家可以看看。

Latent Dirichlet  Allocation(LDA)是一種無監(jiān)督發(fā)現(xiàn)語料庫底層主題的主題建模算法。它已被廣泛應(yīng)用于各種領(lǐng)域,特別是在自然語言處理和推薦系統(tǒng)中。

概要介紹

LDA是語料庫/文檔的生成概率模型。它基于“詞袋”假設(shè),即詞語和文檔是可互換的。也就是說,忽略了文檔中文字的順序,或者忽略了文檔的順序。其基本思想是每個(gè)文檔都是由不同的主題組合而成,而每個(gè)主題的是通過單詞的分布來描述。

分析LDA在推薦系統(tǒng)上的引用

每個(gè)文檔都由一個(gè)主題分布組成

分析LDA在推薦系統(tǒng)上的引用

每個(gè)主題都用單詞的分布來表示

LDA假設(shè)單個(gè)文檔的生成都是通過從每個(gè)文檔中抽取主題,然后從每個(gè)抽取的主題中抽取單詞來生成的。為了獲得單詞和主題的適當(dāng)分布,我們可以使用Gibbs  Sampling、Maximum a Posteriori (MAP)或expect Maximization (EM)來訓(xùn)練LDA。

Plate表示法

為了更深入一點(diǎn),讓我們討論一下LDA的符號表示法。在貝葉斯推理中,Plate表示法是一種圖形化的表示隨機(jī)變量抽樣的重復(fù)過程的方法。每個(gè)plate可以看作是一個(gè)“循環(huán)”,其中plate右下角的變量表示循環(huán)的迭代次數(shù)。下面是LDA的Plate表示法。

分析LDA在推薦系統(tǒng)上的引用

LDA plate 表示法

在上面的圖中有兩個(gè)組件。上面的plate,有K個(gè)主題,這些主題的詞的狄利克雷分布由超參數(shù)β控制。同樣,下面的表格描述了有M個(gè)文檔,每個(gè)文檔包含N個(gè)單詞?;疑膱A圈w是觀察到的單詞,圓圈代表不同的潛在變量。z指的是與w相關(guān)聯(lián)的主題,θ是文檔主題的狄利克雷分布,由另一個(gè)超參數(shù)?控制。

生成過程

現(xiàn)在我們大致了解了如何通過plate表示法來生成文檔。讓我們用數(shù)學(xué)來表示它。

  1. 從狄利克雷分布(θ_i ~ Dir(?),i從1到M)中采樣θ

  2. 從另一個(gè)狄利克雷分布(φ_k ~ Dir(β) k從1到K)中采樣φ

  3. 從z_ij ~ Multinomial(θ_i) 采樣,從w_ij ~ Multinomial(φ_z_ij) 中采樣,i從1到M,j從1到N

以《紐約時(shí)報(bào)》為例。首先,對于每個(gè)新聞文章,我們對整個(gè)文檔的主題分布θ_i_進(jìn)行采樣。對每個(gè)主題中詞的分布φ_k_進(jìn)行采樣。然后,對于每個(gè)文檔中的詞j,我們從給定的主題分布Multinomial(θ_i)中得到一個(gè)主題z_ij,然后從給定的詞的分布Multinomial(φ_z_ij)中的到w_ij,并基于w_ij采樣得到一個(gè)單詞。這個(gè)過程通過下面的圖來表示。

分析LDA在推薦系統(tǒng)上的引用

生成過程的可視化

狄利克雷分布

我們一直把狄利克雷作為黑盒子,卻沒有給出任何解釋。讓我們簡要地討論一下狄利克雷分布背后的直覺。一個(gè)k維狄利克雷分布由一個(gè)k維參數(shù)向量控制。下面我們展示一個(gè)狄利克雷分布的三維例子。基本思想是,alpha值越大,分布被推到中心的概率越大。這種分布使得確定與主題/文檔相關(guān)聯(lián)的單詞/主題的部分具有很高的靈活性,因?yàn)橐恍┲黝}/文檔可能與一組很大的單詞/主題相關(guān)聯(lián),而其他的可能不相關(guān)聯(lián)。

分析LDA在推薦系統(tǒng)上的引用

狄利克雷分布

學(xué)習(xí)

學(xué)習(xí)LDA模型的問題稱為“推理”問題。給定觀測變量w,以及超參數(shù)?和β,我們?nèi)绾喂烙?jì)潛變量的后驗(yàn)概率。

分析LDA在推薦系統(tǒng)上的引用

然而,分母中計(jì)算的積分在計(jì)算上是很麻煩的。

分析LDA在推薦系統(tǒng)上的引用

因此,必須使用近似推理。常用的方法是吉布斯抽樣和變分推論。在這篇文章中,我們將重點(diǎn)討論前者。

吉布斯抽樣

利用吉布斯采樣,我們可以避免直接計(jì)算棘手的積分。基本的想法是,我們想從p (w  |?,β)中采樣來估計(jì)這個(gè)分布,但我們不能直接這樣做。相反,Gibbs抽樣允許我們迭代地計(jì)算一個(gè)潛在變量的后驗(yàn)值,同時(shí)固定所有其他變量。通過這種方式,我們可以獲得后驗(yàn)分布p(θ,  z, φ| w, ?, β)。

對于每次迭代,我們交替采樣w,?,β,并固定所有其他變量。算法如下面的偽代碼所示:

For i from 1 to MaxIter:

  1. Sample θ_i} ~p(θz= z_{i-1, φ = φ_{i-1}w, ?, β)

  2. Sample z_i} ~p(zθ =θ_{i, φ = φ_{i-1}w, ?, β)

  3. Sample φ_i} ~p(φθ = θ_{i, z= z_{i}w, ?, β)

由于來自早期迭代的樣本不穩(wěn)定,我們將丟棄樣本的第一個(gè)B次迭代,稱為“老化”。

LDA在推薦系統(tǒng)上的應(yīng)用

LDA通常用于兩種情況下的推薦系統(tǒng):

  1. 協(xié)同過濾(CF)

  2. 基于內(nèi)容的推薦

協(xié)同過濾

當(dāng)LDA應(yīng)用于基于物品的CF時(shí),物品和用戶類似于我們一直在討論的文檔和單詞(基于用戶的CF正好相反)。換句話說,每個(gè)物品都與用戶組(主題)上的分布相關(guān)聯(lián),每個(gè)用戶組都是用戶的分布。使用LDA,我們可以發(fā)現(xiàn)用戶和物品之間的隱藏關(guān)系。

基于內(nèi)容的推薦

第二個(gè)應(yīng)用是基于內(nèi)容的推薦,非常簡單。我們不只是利用普通的TF-IDF來提取每個(gè)物品的文本數(shù)據(jù)的特征向量,而且還通過LDA來對這些文本數(shù)據(jù)的主題進(jìn)行建模。下面提供了用于訓(xùn)練LDA和推斷給定文檔主題的示例代碼。

from gensim.test.utils import common_textsfrom gensim.corpora.dictionary import Dictionaryfrom gensim.models import LdaModel# Create a corpus from a list of textscommon_dictionary = Dictionary(common_texts)common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]# Train the model on the corpus.lda = LdaModel(common_corpus, num_topics=10)

訓(xùn)練LDA

# infer the topic distribution of the second corpus.lda[common_corpus[1]]'''output[(0, 0.014287902), (1, 0.014287437), (2, 0.014287902), (3, 0.014285716), (4, 0.014285716), (5, 0.014285714), (6, 0.014285716), (7, 0.014285716), (8, 0.014289378), (9, 0.87141883)]'''

推斷主題的分布向量

“分析LDA在推薦系統(tǒng)上的引用”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

本文名稱:分析LDA在推薦系統(tǒng)上的引用
瀏覽路徑:http://aaarwkj.com/article14/peihge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)網(wǎng)站制作、ChatGPT關(guān)鍵詞優(yōu)化、企業(yè)建站移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)
超碰国产熟女一区二区三区 | 久久国内午夜福利直播| 亚洲欧美综合伊人看片综合| 人妻露脸国语对白字幕| 久久人体午夜激情视频| 国产白浆一区二区视频| 国产成人综合亚洲欧美在线| 国产原创av超爽剧情系列| 国产青草视频免观看视频| av资源在线观看少妇丰满| 最新日本欧美一区二区| 亚洲精品偷拍在线观看| 国产一区二区黄色网页| 九九re久久这里有精品| 中文字幕一区二区av| 日韩视频专区一区二区| 日本女优中文字幕久久| 亚洲一区二区三区av蜜桃| 国产麻豆91在线视频| 91精品国产高清91久久久久久| 亚洲av毛片在线免费| 色婷婷av一区二区三区张| 亚洲男人的天堂久久精品| 99精品热视频在线观看| 丰满人妻中出av在线| 蜜桃视频手机在线观看| 亚洲国产精品视频中文字幕| 欧美午夜国产在线观看| 日本东京热二三四区不卡免费的| 亚洲男人天堂日本一区| 国产精品一区在线播放| 免费在线观看福利av| 欧美日韩精品视频在线| 好吊毛片一区二区三区| 午夜毛片免费在线播放| 涩涩涩丁香色婷五月网| 国产成人公开免费视频| 女同一区二区三区在线| 亚洲成人影院中文字幕| 黄色录像黄色片黄色片| 成人黄色av网站在线观看|