2022-07-16 分類(lèi): 網(wǎng)站建設(shè)
時(shí)逢年假,把自己對(duì)部分場(chǎng)景以及推薦系統(tǒng)的理解整理出來(lái),大多只是提出疑問(wèn)與簡(jiǎn)單思考。
一、什么才是好的推薦系統(tǒng)
推薦系統(tǒng)要平衡好幾方的關(guān)系
推薦系統(tǒng)三方關(guān)系
用戶(hù):接收到有用的、有趣的內(nèi)容; 站方:在不斷的好文推薦中,讓用戶(hù)參與其中,升級(jí)消費(fèi)觀念,最終達(dá)到轉(zhuǎn)化率效果; 內(nèi)容提供者:內(nèi)容的參與度提升,曝光度增加,鼓勵(lì)用戶(hù)不斷產(chǎn)生內(nèi)容;
在這三方參與者之間,其實(shí)普通用戶(hù)才是關(guān)鍵。如果用戶(hù)在閱讀過(guò)程中,無(wú)法接收到有用、有趣的內(nèi)容,那站方、內(nèi)容提供者的愿景更是無(wú)從實(shí)現(xiàn)。什么樣的內(nèi)容才是有用的信息?什么樣的推薦系統(tǒng)才是好的推薦系統(tǒng)?從算法角度講,“精準(zhǔn)”是推薦系統(tǒng)的衡量標(biāo)準(zhǔn),即關(guān)聯(lián)相似度。
可是事實(shí)真的是這樣嗎? 提出幾個(gè)場(chǎng)景:
用戶(hù)收藏了一篇關(guān)于“家裝”內(nèi)容的文章,就根據(jù)相似度理論不斷推送同類(lèi)文章。
一周內(nèi)用戶(hù)“好價(jià)”內(nèi)多次搜索、瀏覽同一關(guān)鍵詞,第二周停止搜,用戶(hù)是不是已經(jīng)完成購(gòu)買(mǎi)這一產(chǎn)品了?
用戶(hù)在好價(jià)內(nèi)搜索“軟毛牙刷”,那好文系統(tǒng)應(yīng)該推送的是“牙刷測(cè)評(píng)”還是關(guān)聯(lián)”口腔健康“商品的文章呢? ……
推薦系統(tǒng)不僅僅應(yīng)該只追求“精準(zhǔn)”,因?yàn)檫@可能造成兩項(xiàng)誤區(qū):
重復(fù)推送,用戶(hù)可能已經(jīng)購(gòu)買(mǎi)過(guò)類(lèi)似商品或者根本對(duì)這類(lèi)文章失去了興趣
用戶(hù)本來(lái)就打算購(gòu)買(mǎi)的商品,單一推薦并不能夠增加潛在的消費(fèi)升級(jí),反而是相似度更小的衍生產(chǎn)品文章,會(huì)讓用戶(hù)感到新意,同時(shí)提高KOI
所以,對(duì)于我們的好文推薦系統(tǒng)體系,要完成的不僅僅應(yīng)該是“精準(zhǔn)”,而是在準(zhǔn)確識(shí)別預(yù)測(cè)用戶(hù)行為的同時(shí),幫助擴(kuò)展用戶(hù)的視野,幫助用戶(hù)發(fā)展他們可能感興趣,自己卻并沒(méi)有發(fā)現(xiàn)的內(nèi)容。
也就是說(shuō),好文推薦系統(tǒng)的場(chǎng)景是極為重要的,應(yīng)該有懂推薦系統(tǒng)和業(yè)務(wù)流程的產(chǎn)品經(jīng)理同時(shí)加入到推薦系統(tǒng)團(tuán)隊(duì)
二、理解用戶(hù)的行為
分析前,我們首先要關(guān)注用戶(hù)行為和數(shù)據(jù):
用戶(hù)數(shù)據(jù)來(lái)源
以上全部數(shù)據(jù)都會(huì)是判斷用戶(hù)行為的來(lái)源。那如果訓(xùn)練一個(gè)二進(jìn)制分類(lèi)器,首要任務(wù)是定義正負(fù)樣本,為樣本定義正負(fù)標(biāo)簽絕不是普通任務(wù),聯(lián)系場(chǎng)景考慮,有什么可能存在的坑?
思路有限,我們就單從好價(jià)瀏覽內(nèi)容時(shí)用戶(hù)數(shù)據(jù)入手 先畫(huà)一個(gè)行為漏斗:
行為漏斗
最簡(jiǎn)單的思路是:按照行為漏斗的深度對(duì)樣本行為設(shè)立不同權(quán)重,判斷用戶(hù)行為偏好,然后進(jìn)行推薦,可現(xiàn)實(shí)場(chǎng)景確實(shí)是這樣嗎?
簡(jiǎn)單提幾個(gè)問(wèn)題: 1、什么樣的數(shù)據(jù)可以看作正樣本? 2、點(diǎn)擊行為都是正樣本嗎? 3、點(diǎn)“值”是什么想法?“不值”呢? 4、評(píng)論行為證明什么?用戶(hù)是在提出問(wèn)題還是回答問(wèn)題? 5、買(mǎi)過(guò)的商品還需要再推送嗎? ……
討論這幾個(gè)問(wèn)題的基礎(chǔ)要回到推薦系統(tǒng)的第一步:理解/獲取用戶(hù)需求 那用戶(hù)真的需要什么?怎么理解他的行為?
對(duì)剛才的問(wèn)題一個(gè)個(gè)來(lái)討論:(不以詳盡性為目的,只做討論)
1、什么樣的數(shù)據(jù)可以看作正樣本?
行為漏斗中只有“收藏、分享”這兩個(gè)動(dòng)作能被完全看作為正樣本,分享的行為成本還要高于收藏,但是收藏對(duì)于推薦系統(tǒng)識(shí)別是有很大幫助的,這證明用戶(hù)對(duì)于這類(lèi)商品是有興趣的,有潛在的購(gòu)買(mǎi)需求,這符合我們推薦的基本場(chǎng)景。
2、點(diǎn)擊行為都是正樣本嗎?
所有的不點(diǎn)擊動(dòng)作都可以看作負(fù)樣本,但是對(duì)于點(diǎn)擊動(dòng)作也應(yīng)該分情況討論。比如:
3、點(diǎn)“值”是什么想法?“不值”呢?
交互動(dòng)作很大一部分發(fā)生在“值/不值”上,但是這個(gè)行為是一個(gè)很復(fù)雜的動(dòng)作,例如:
不同頻次的“點(diǎn)值/不值”動(dòng)作,很值得我們討論。因?yàn)辄c(diǎn)值行為是值得買(mǎi)平臺(tái)內(nèi)中為數(shù)不多的評(píng)分反饋,更可能反應(yīng)了用戶(hù)深層次的行為驅(qū)動(dòng),他真的想要什么?喜歡什么?行為永遠(yuǎn)比言語(yǔ)更能反應(yīng)用戶(hù)的內(nèi)心。
4、評(píng)論行為證明什么?用戶(hù)是在提出問(wèn)題還是回答問(wèn)題?
之前的討論里用數(shù)據(jù)分析過(guò)評(píng)論區(qū)中的內(nèi)容,但是我們分析的是:用戶(hù)在討論什么?需要什么?而今天創(chuàng)新互聯(lián)除了這個(gè)結(jié)果以外,我們還需要討論一點(diǎn):這些用戶(hù)是誰(shuí)?提問(wèn)者?回答者?他是不是已經(jīng)購(gòu)買(mǎi)過(guò)這個(gè)商品了?我們應(yīng)該更偏向?qū)τ谔釂?wèn)者推送相關(guān)內(nèi)容,因?yàn)樗麄兪歉鼭撛诘馁?gòu)買(mǎi)者, 對(duì)于專(zhuān)家用戶(hù),可能他已經(jīng)對(duì)類(lèi)似內(nèi)容失去興趣了。
5、買(mǎi)過(guò)的商品還需要再推送嗎?
不能夠確定值得買(mǎi)平臺(tái)有沒(méi)有用戶(hù)購(gòu)買(mǎi)數(shù)據(jù)(例如海淘網(wǎng)站返利成功數(shù)據(jù)),如果存在這個(gè)數(shù)據(jù)庫(kù)的話,這完全能夠用戶(hù)是否購(gòu)買(mǎi)過(guò)這個(gè)產(chǎn)品。如果沒(méi)有的話,只能從用戶(hù)深層的行為來(lái)判斷他是不是購(gòu)買(mǎi)過(guò)這個(gè)產(chǎn)品了。
三、推薦場(chǎng)景思考
當(dāng)理解用戶(hù)行為之后,開(kāi)始推薦系統(tǒng)第二步:滿(mǎn)足用戶(hù)需求,用算法做推薦。
大部分電商網(wǎng)站現(xiàn)在都采取了較為成熟完善的協(xié)同過(guò)濾算法,作為推薦系統(tǒng)的主體。同時(shí)也采用了多種推薦系統(tǒng)算法加權(quán)累加,例如:FFM、SVM、LFM等。我個(gè)人建議以CF item based為主,一是因?yàn)樗惴ǔ墒欤阌趯?shí)現(xiàn),二是user 數(shù)目遠(yuǎn)大于 item 數(shù)目,user based 很難以對(duì)用戶(hù)進(jìn)行歸類(lèi)。
做相似度分析第一步:Item畫(huà)像設(shè)計(jì),其遵循的原則為提煉出那些易于區(qū)分不同Item的顯著性特征或標(biāo)簽。這一步需要做詳盡性分析,不做討論。
轉(zhuǎn)而思考計(jì)算相似度時(shí), 除了在本身item標(biāo)簽內(nèi)容中計(jì)算相似距離,我們還需要考慮什么場(chǎng)景?什么特殊因子?
1、冷啟動(dòng)場(chǎng)景:
通常在新用戶(hù)進(jìn)入系統(tǒng)時(shí),沒(méi)有數(shù)據(jù)來(lái)源導(dǎo)致冷啟動(dòng)問(wèn)題,大多數(shù)網(wǎng)站采取主動(dòng)選擇標(biāo)簽功能,進(jìn)行標(biāo)簽相關(guān)內(nèi)容推送:
2、推薦不是“推送”,不同用戶(hù)的首頁(yè)流推薦
首頁(yè)的好文推薦是產(chǎn)品引流最重要的窗口,可是過(guò)度推送好文會(huì)影響部分產(chǎn)品用戶(hù)的用戶(hù)體驗(yàn),從而影響轉(zhuǎn)化率。如果根據(jù)不同用戶(hù)使用場(chǎng)景決定首頁(yè)流中好文的推送條數(shù),可能效果會(huì)好一些。例如用戶(hù)停留時(shí)間和用戶(hù)日均瀏覽數(shù)來(lái)作為不同參數(shù),確定權(quán)重W ,計(jì)算評(píng)分R
根據(jù)評(píng)分 R 的不同,來(lái)確定首頁(yè)流的推薦數(shù)目。
3、多次重復(fù)推送同一品類(lèi)文章:多樣性問(wèn)題
用戶(hù)在內(nèi)容平臺(tái)所希望收獲的文章一定是多樣的,如果在較長(zhǎng)時(shí)間跨度里推薦系統(tǒng)只能覆蓋單一興趣點(diǎn),那這個(gè)推薦列表在長(zhǎng)期評(píng)估時(shí)一定是無(wú)法讓用戶(hù)滿(mǎn)意的。
那也就是說(shuō),我們?cè)谕扑]系數(shù)時(shí),必要考慮一個(gè)因子來(lái)控制多樣性問(wèn)題,如果當(dāng)系統(tǒng)想推薦文章i時(shí),我們就要對(duì)已經(jīng)在文章列表R(u)內(nèi)任意文章 j ,計(jì)算相似度,引入
如果系統(tǒng)的推薦分布頻次,可以和用戶(hù)點(diǎn)擊頻次掛鉤,那結(jié)果就完全符合多樣性要求了。
4、熱門(mén)內(nèi)容更熱,冷門(mén)內(nèi)容依然無(wú)人問(wèn)津:馬太效應(yīng)
馬太效應(yīng)在UGC平臺(tái)是常見(jiàn)的,通常體現(xiàn)在用戶(hù)瀏覽參與集中于的熱門(mén)文章中,大部分內(nèi)容的參與度極低,也可以稱(chēng)為覆蓋率問(wèn)題。覆蓋率可以描述一個(gè)推薦系統(tǒng)對(duì)于文章推薦效果長(zhǎng)尾能力的發(fā)掘,指推薦文章占全部?jī)?nèi)容的占比,可以用信息熵度量。
作為整個(gè)UGC平臺(tái)的管理方,站方有責(zé)任讓所有優(yōu)質(zhì)的UGC內(nèi)容受到關(guān)注,而并非只有熱門(mén)內(nèi)容,只有克服馬太效應(yīng),這樣才能夠讓發(fā)帖用戶(hù)感受到更多的關(guān)注度,鼓勵(lì)激發(fā)更多的優(yōu)質(zhì)內(nèi)容。
加入一個(gè)因子懲罰熱門(mén)權(quán)重
5、產(chǎn)品鏈層次因素
回想在本文開(kāi)篇處提出的問(wèn)題:用戶(hù)在好價(jià)內(nèi)搜索“軟毛牙刷”,那好文系統(tǒng)應(yīng)該推送的是“牙刷測(cè)評(píng)”還是關(guān)聯(lián)”口腔健康“商品的文章呢?
宏觀來(lái)看,所有品類(lèi)的商品都存在產(chǎn)品鏈上下層的關(guān)系。買(mǎi)了iphone X的人可能對(duì)于手機(jī)殼感興趣,想買(mǎi)普通牙刷的人可能就是漱口水、電動(dòng)牙刷的潛在消費(fèi)者。沒(méi)有一項(xiàng)產(chǎn)品是單獨(dú)存在的,既然我們要做的是提高用戶(hù)消費(fèi)觀念,那推薦系統(tǒng)是不是該偏向推送更深層次的內(nèi)容,加大權(quán)重。
6、買(mǎi)過(guò)的產(chǎn)品還要推送嗎?
當(dāng)我們已知用戶(hù)購(gòu)買(mǎi)過(guò)產(chǎn)品后,我們是否應(yīng)該再次推送相關(guān)內(nèi)容呢? 這個(gè)時(shí)候我們需要判斷商品的消耗性、周期性、以及是否高話題性。這都關(guān)乎著是否再次推送內(nèi)容,什么時(shí)候再推送內(nèi)容。但是具體情況太多,就不做算法推導(dǎo)了。
說(shuō)一個(gè)很有趣的現(xiàn)象,淘寶的推薦系統(tǒng)工程師做過(guò)實(shí)驗(yàn),點(diǎn)擊率高的推薦項(xiàng)目是用戶(hù)剛剛搜過(guò),剛剛完成購(gòu)買(mǎi)的商品。但是重復(fù)推送內(nèi)容,這是一個(gè)好的推薦系統(tǒng)該做的嗎?團(tuán)隊(duì)目的到底是什么:推薦系統(tǒng)點(diǎn)擊率高?提供用戶(hù)感興趣的內(nèi)容?KpI ?不同目的可能導(dǎo)致結(jié)果相差萬(wàn)千。
7、實(shí)時(shí)性
實(shí)時(shí)性主要是要求推薦系統(tǒng)在分鐘級(jí)/秒級(jí)完成數(shù)據(jù)分析,作出預(yù)判,并且對(duì)其作出操作。這個(gè)問(wèn)題主要面對(duì)的是技術(shù)性問(wèn)題,因?yàn)樵S多網(wǎng)站的推薦系統(tǒng)都是以天為單位進(jìn)行日志讀取操作,再完成推薦動(dòng)作。而如果要完成實(shí)時(shí)操作,就只能簡(jiǎn)化推薦系統(tǒng)算法,例如 對(duì)于User-Item行為矩陣進(jìn)行擴(kuò)充動(dòng)作簡(jiǎn)化預(yù)測(cè)過(guò)程。
需要根據(jù)場(chǎng)景采納不同的推薦模式,好文內(nèi)容可能更適合離線式方法。
后記
其實(shí)基于值得買(mǎi)推薦系統(tǒng),XgBoost 與Factorization Machine (最新的FFM)都可能有不錯(cuò)的效果,但是本文討論以場(chǎng)景為出發(fā)點(diǎn),不討論算法具體內(nèi)容,而且業(yè)界大多數(shù)都認(rèn)可一個(gè)觀點(diǎn),即在推薦系統(tǒng)中:UI > 數(shù)據(jù) > 算法,如果讓用戶(hù)接納,并覺(jué)得懂得其心,這才是最關(guān)鍵的一點(diǎn)。
pS:寫(xiě)文章時(shí)正逢年節(jié),喝酒誤事,思路斷斷續(xù)續(xù)。前后內(nèi)容繁雜,一人之力遠(yuǎn)無(wú)法考慮周全,只做簡(jiǎn)單思考,學(xué)習(xí)總結(jié)之用。
始發(fā)于簡(jiǎn)書(shū):周CC君
<scriptdocument.writeln('
分享文章:什么值得買(mǎi)推薦系統(tǒng)思考
新聞來(lái)源:http://aaarwkj.com/news36/179636.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化、網(wǎng)站收錄、品牌網(wǎng)站建設(shè)、虛擬主機(jī)、服務(wù)器托管、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容