導(dǎo)言
過去幾十年間,人類的計算能力獲得了巨大提升;隨著數(shù)據(jù)不斷積累,算法日益先進,我們已經(jīng)步入了人工智能時代。確實,人工智能概念很難理解,技術(shù)更是了不起,背后的數(shù)據(jù)和算法非常龐大復(fù)雜。很多人都在疑惑,現(xiàn)在或未來AI將會有哪些實際應(yīng)用呢?
其實,關(guān)于AI的實際應(yīng)用以及所帶來的商業(yè)價值并沒有那么的“玄幻”,很多時候就已經(jīng)在我們的身邊。接下來,【AI論文解讀】專欄將會通過相關(guān)AI論文的解讀,由深入淺地為大家揭秘,AI技術(shù)是如何對電商領(lǐng)域進行賦能,以及相關(guān)的落地與實踐。
人工智能技術(shù)在電商領(lǐng)域,有著豐富的應(yīng)用場景。應(yīng)用場景是數(shù)據(jù)入口,數(shù)據(jù)通過技術(shù)得到提煉,反過來又作用于技術(shù),二者相輔相成。
京東基于自然語言理解與知識圖譜技術(shù),開發(fā)了商品營銷內(nèi)容AI寫作服務(wù)。并將此項技術(shù)應(yīng)用到了京東商城【發(fā)現(xiàn)好貨】頻道中。
京東【發(fā)現(xiàn)好貨】頻道
通過AI創(chuàng)作的數(shù)十萬商品營銷圖文素材,不僅填補了商品更新與達人寫作內(nèi)容更新之間的巨大缺口,也提升了內(nèi)容頻道的內(nèi)容豐富性。
同時,AI生成內(nèi)容在曝光點擊率、進商詳轉(zhuǎn)化率等方面其實都表現(xiàn)出了優(yōu)于人工創(chuàng)作營銷的內(nèi)容。
接下來讓我們讓我通過解讀入選 AAAI 2020 的論文來一起來看看,如何通過AI來實現(xiàn)針對不同群體采用不同營銷策略及不同風(fēng)格的營銷文案從而提高營銷轉(zhuǎn)化率的。
自動文本摘要(簡稱“自動文摘”)是自然語言處理領(lǐng)域中的一個傳統(tǒng)任務(wù),其提出于 20 世紀 50 年代。自動文摘任務(wù)的目標是對于給定的文本,獲得一段包含了其中最重要信息的簡化文本。常用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘通過提取給定文本中已存在的關(guān)鍵詞、短語或句子組成摘要;生成式自動文摘通過對給定文本建立抽象的語意表示,利用自然語言生成技術(shù),生成摘要。
本文所介紹的是基于關(guān)鍵詞指導(dǎo)的生成式句子摘要方法,該方法融合了抽取式自動文摘和生成式自動文摘,在Gigaword句子摘要數(shù)據(jù)集上與對比模型相比,取得了更好的性能。
論文鏈接: http:// 2234BB08E365EEC
生成式句子摘要(Abstractive Sentence Summarization)任務(wù)的輸入是一個較長的句子,輸出是該輸入句子的簡化短句。
我們注意到,輸入句子中的一些重要詞語(即關(guān)鍵詞)為摘要的生成提供了指導(dǎo)線索。另一方面,當人們在為輸入句子創(chuàng)作摘要時,也往往會先找出輸入句子中的關(guān)鍵詞,然后組織語言將這些關(guān)鍵詞串接起來。最終,生成內(nèi)容不僅會涵蓋這些關(guān)鍵詞,還會確保其流暢性和語法正確性。我們認為,相較于純粹的抽取式自動文摘和生成式自動文摘,基于關(guān)鍵詞指導(dǎo)的生成式自動文摘更接近于人們創(chuàng)作摘要時的習(xí)慣。
圖1:輸入句和參考摘要之間的重疊關(guān)鍵詞(用紅色標記)涵蓋了輸入句的重要信息,我們可以根據(jù)從輸入語句中提取的關(guān)鍵字生成摘要
我們舉一個簡單的句子摘要的例子。如圖1所示,我們可以大致將輸入句子和參考摘要的重疊的詞(停用詞除外)作為關(guān)鍵詞,這些重疊的詞語覆蓋了輸入句子的要點。例如,我們通過關(guān)鍵詞“世界各國領(lǐng)導(dǎo)人”“關(guān)閉”和“切爾諾貝利” ,可以獲取輸入句子的主旨信息,即“世界各國領(lǐng)導(dǎo)人呼吁關(guān)閉切爾諾貝利”,這與實際的參考摘要 “世界各國領(lǐng)導(dǎo)人敦促支持切爾諾貝利核電站關(guān)閉計劃”是相吻合的。這種現(xiàn)象在句子摘要任務(wù)中很常見:在Gigaword句子摘要數(shù)據(jù)集上,參考摘要中的詞語超過半數(shù)會出現(xiàn)在輸入句子中。
句子摘要任務(wù)的輸入為一個較長的句子,輸出是一個簡短的文本摘要。我們的動機是,輸入文本中的關(guān)鍵詞可以為自動文摘系統(tǒng)提供重要的指導(dǎo)信息。首先,我們將輸入文本和參考摘要之間重疊的詞(停用詞除外)作為Ground-Truth關(guān)鍵詞,通過多任務(wù)學(xué)習(xí)的方式,共享同一個編碼器對輸入文本進行編碼,訓(xùn)練關(guān)鍵詞提取模型和摘要生成模型,其中關(guān)鍵詞提取模型是基于編碼器隱層狀態(tài)的序列標注模型,摘要生成模型是基于關(guān)鍵詞指導(dǎo)的端到端模型。關(guān)鍵詞提取模型和摘要生成模型均訓(xùn)練收斂后,我們利用訓(xùn)練好的關(guān)鍵詞提取模型對訓(xùn)練集中的文本抽取關(guān)鍵詞,利用抽取到的關(guān)鍵詞對摘要生成模型進行微調(diào)。測試時,我們先利用關(guān)鍵詞提取模型對測試集中的文本抽取關(guān)鍵詞,最終利用抽取到的關(guān)鍵詞和原始測試文本生成摘要。
1、多任務(wù)學(xué)習(xí)
文本摘要任務(wù)和關(guān)鍵詞提取任務(wù)在某種意義上非常相似,都是為了提取輸入文本中的關(guān)鍵信息。不同點在于其輸出的形式:文本摘要任務(wù)輸出的是一段完整的文本,而關(guān)鍵詞提取任務(wù)輸出的是關(guān)鍵詞的集合。我們認為這兩個任務(wù)均需要編碼器能夠識別出輸入文本中的重要信息的能力。因此,我們利用多任務(wù)學(xué)習(xí)框架,共享這兩個任務(wù)編碼器,提升編碼器的性能。
2、基于關(guān)鍵詞指導(dǎo)的摘要生成模型
我們受Zhou等人工作[1]的啟發(fā),提出了一種基于關(guān)鍵詞指導(dǎo)的選擇性編碼。具體來說,由于關(guān)鍵詞含有較為重要的信息,通過關(guān)鍵詞的指導(dǎo),我們構(gòu)建一個選擇門網(wǎng)絡(luò),其對輸入文本的隱層語義信息進行二次編碼,構(gòu)造出一個新的隱層?;谶@個新的隱層進行后續(xù)的解碼。
我們的解碼器基于Pointer-Generator網(wǎng)絡(luò)[2],即融合了復(fù)制機制的端到端模型。對于Generator模塊,我們提出直連、門融合和層次化融合的方式對原始輸入文本和關(guān)鍵詞的上下文信息進行融合;對于Pointer模塊,我們的模型可以選擇性地將原始輸入和關(guān)鍵詞中的文本復(fù)制到輸出摘要中。
1、數(shù)據(jù)集
在本次實驗中,我們選擇在Gigaword數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集包含約380萬個訓(xùn)練句子摘要對。我們使用了8000對作為驗證集,2000對作為測試集。
2、實驗結(jié)果
表1顯示了我們提出的模型比沒有關(guān)鍵詞指導(dǎo)的模型表現(xiàn)更好。我們測試了不同的選擇性編碼機制,分別是輸入文本的自選擇,關(guān)鍵詞選擇和互選擇,實驗結(jié)果顯示互選擇的效果最佳;對于Generator模塊,我們發(fā)現(xiàn)層次化融合的方式要優(yōu)于其他兩種融合方式;我們的雙向Pointer模塊比原始的僅能從輸入文本中復(fù)制的模型表現(xiàn)更好。
表1
本文致力于生成式句子摘要的任務(wù),即如何將一個長句子轉(zhuǎn)換成一個簡短的摘要。我們提出的模型可以利用關(guān)鍵詞作為指導(dǎo),生成更加優(yōu)質(zhì)的摘要,獲得了比對比模型更好的效果。
1)通過采用了多任務(wù)學(xué)習(xí)框架來提取關(guān)鍵詞和生成摘要;
2)通過基于關(guān)鍵字的選擇性編碼策略,在編碼過程中獲取重要的信息;
3)通過雙重注意力機制,動態(tài)地融合了原始輸入句子和關(guān)鍵詞的信息;
4)通過雙重復(fù)制機制,將原始輸入句子和關(guān)鍵詞中的單詞復(fù)制到輸出摘要中。
在標準句子摘要數(shù)據(jù)集上,我們驗證了關(guān)鍵詞對句子摘要任務(wù)的有效性。
注釋:
[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.
[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.
在上一篇專欄文章中,我們?yōu)榇蠹以敿毥榻B了京東商城是如何在現(xiàn)有基礎(chǔ)上進行更進一步的技術(shù)探究與創(chuàng)新,從而有效提升電商的營銷轉(zhuǎn)化率的。詳情可點擊下方進行查看????????????
京東商城背后的AI技術(shù)能力揭秘 - 基于關(guān)鍵詞自動生成摘要
京 東 AI 研 究 院
京東AI研究院專注于持續(xù)性的算法創(chuàng)新,多數(shù)研究將由京東實際的業(yè)務(wù)場景需求為驅(qū)動。研究院的聚焦領(lǐng)域為:計算機視覺、自然語言理解、對話、語音、語義、機器學(xué)習(xí)等實驗室,已逐步在北京、南京、成都、硅谷等全球各地設(shè)立職場。
本文題目:京東商城背后AI技術(shù)揭秘(一)——基于關(guān)鍵詞自動生成摘要-創(chuàng)新互聯(lián)
網(wǎng)站URL:http://aaarwkj.com/article24/ccdhje.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護、品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)、電子商務(wù)、網(wǎng)站收錄、企業(yè)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容