欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

怎么用pythonpkuseg生成云詞

本篇內(nèi)容主要講解“怎么用python pkuseg生成云詞”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用python pkuseg生成云詞”吧!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了陸港免費建站歡迎大家使用!

安裝 pkuseg

pip3 install pkuseg

第一步是將演講內(nèi)容下載下來,保存到一個txt文件中,然后將內(nèi)容加載到內(nèi)存

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

我統(tǒng)計了一下,文字總數(shù)是32546個。

接下來我們用pkuseg對內(nèi)容進行分詞處理,并統(tǒng)計出現(xiàn)頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))

輸出結(jié)果:

怎么用python pkuseg生成云詞


什么鬼,這都是些啥玩意,別急,其實啊,分詞領(lǐng)域還有一個概念叫做停用詞,所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標(biāo)點符合等等。因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我們就要把這些停用詞過去掉,我們?nèi)ゾW(wǎng)上找個停用詞庫。

第二版代碼:

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)

stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
   stopwords = f.read()

new_text = []

for w in text:
   if w not in stopwords:
       new_text.append(w)

counter = Counter(new_text)
pprint.pprint(counter.most_common(20))

打印的結(jié)果:

[('微信', 163),
('用戶', 112),
('產(chǎn)品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('視頻', 40),
('希望', 39),
('時間', 39),
('游戲', 36),
('閱讀', 33),
('內(nèi)容', 32),
('平臺', 31),
('文章', 30),
('信息', 29),
('團隊', 27),
('AI', 27),
('APP', 26)]

看起來比第一次好多了,因為停用詞都過濾掉了,跟采銅那張圖片有點像了,不過他挑出來的詞可能是從另外一個維度來的,畢竟人家是搞心理學(xué)的。但是我們選出來的前20個高頻詞還是不準(zhǔn)確,有些不應(yīng)該分詞的也被拆分了,例如朋友圈,公眾號,小程序等詞,我們認(rèn)為這是一個整體。

對于這些專有名詞,我們只需要指定一個用戶詞典, 分詞時用戶詞典中的詞固定不分開,重新進行分詞。

lexicon = ['小程序', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加載模型,給定用戶詞典
text = seg.cut(content)

最后出來的結(jié)果前50個高頻詞是這樣的

163 微信
112 用戶
89 產(chǎn)品
72 朋友圈
56 工具
55 社交
53 小程序
40 視頻
39 希望
39 時間
36 游戲
33 閱讀
32 內(nèi)容
31 朋友
31 平臺
30 文章
29 信息
27 團隊
27 AI
26 APP
25 公眾號
25 服務(wù)
24 好友
22 照片
21 時代
21 記錄
20 手機
20 推薦
20 企業(yè)
19 原動力
18 功能
18 真實
18 生活
17 流量
16 電腦
15 空間
15 發(fā)現(xiàn)
15 創(chuàng)意
15 體現(xiàn)
15 公司
15 價值
14 版本
14 分享
14 未來
13 互聯(lián)網(wǎng)
13 發(fā)布
13 能力
13 討論
13 動態(tài)
12 設(shè)計

張小龍講得最多的詞就是用戶、朋友、原動力、價值、分享、創(chuàng)意、發(fā)現(xiàn)等這些詞,用戶出現(xiàn)112次,希望39次,朋友31次,這些詞正是互聯(lián)網(wǎng)的精神,如果我們把這些做成詞云的話,可能效果會更好

怎么用python pkuseg生成云詞

到此,相信大家對“怎么用python pkuseg生成云詞”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

網(wǎng)站標(biāo)題:怎么用pythonpkuseg生成云詞
文章來源:http://aaarwkj.com/article38/iggpsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)靜態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、網(wǎng)站改版、外貿(mào)網(wǎng)站建設(shè)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計
中文字幕在线精品乱码麻豆| 国产精品自偷自偷自偷| 婷婷五激情五月激情片| 蜜桃少妇人妻一区二区视频| 91无人区一区二区三乱码| 免费人成网站视频在线观看不卡| 免费无码不卡av一区二区| 91国产在线视频免费观看| 97国产成人精品视频免费| 国产日韩亚洲欧美色片| 麻豆视传媒短视频网站| 中文字幕亚洲天堂久久| 欧美日韩国产这里只有精品| 国产亚洲无线码一区二区| 国产三级精品av在线| 亚洲国产精品伦理在线看| 久久久亚洲福利精品午夜| av影片在线观看不卡| 精品一区二区三区高清 | 五月婷婷丁香综合中文字幕| 欧美av精品一区二区三区| 亚洲成人av福利网站| 风韵犹存丰满大屁股熟妇| 一本久久精品午夜福利| a一级成人插少妇的逼| 午夜香蕉av一区二区三区| 亚洲一区二区在线视频在线观看| 少妇高潮喷水下面的水| 欧美三级视频一区二区三区| 国产无遮挡又黄又爽网站| 手机在线观看午夜小视频| 亚洲久久精品中文字幕| 国产日韩欧美 一区二区三区| 激情亚洲不卡一区二区| 国产日韩一区二区三区电影| 91在线看片国产免费观看| 天天日夜夜操人人干人人插 | 人人妻人人澡人人爽人人老司机| 久久亚洲中文字幕精品熟女| 欧美日韩国产精品高清| 国产欧美一区二区三区久久|