欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

怎么用pythonpkuseg生成云詞

本篇內(nèi)容主要講解“怎么用python pkuseg生成云詞”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用python pkuseg生成云詞”吧!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了陸港免費建站歡迎大家使用!

安裝 pkuseg

pip3 install pkuseg

第一步是將演講內(nèi)容下載下來,保存到一個txt文件中,然后將內(nèi)容加載到內(nèi)存

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

我統(tǒng)計了一下,文字總數(shù)是32546個。

接下來我們用pkuseg對內(nèi)容進行分詞處理,并統(tǒng)計出現(xiàn)頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))

輸出結(jié)果:

怎么用python pkuseg生成云詞


什么鬼,這都是些啥玩意,別急,其實啊,分詞領(lǐng)域還有一個概念叫做停用詞,所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標(biāo)點符合等等。因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我們就要把這些停用詞過去掉,我們?nèi)ゾW(wǎng)上找個停用詞庫。

第二版代碼:

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)

stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
   stopwords = f.read()

new_text = []

for w in text:
   if w not in stopwords:
       new_text.append(w)

counter = Counter(new_text)
pprint.pprint(counter.most_common(20))

打印的結(jié)果:

[('微信', 163),
('用戶', 112),
('產(chǎn)品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('視頻', 40),
('希望', 39),
('時間', 39),
('游戲', 36),
('閱讀', 33),
('內(nèi)容', 32),
('平臺', 31),
('文章', 30),
('信息', 29),
('團隊', 27),
('AI', 27),
('APP', 26)]

看起來比第一次好多了,因為停用詞都過濾掉了,跟采銅那張圖片有點像了,不過他挑出來的詞可能是從另外一個維度來的,畢竟人家是搞心理學(xué)的。但是我們選出來的前20個高頻詞還是不準(zhǔn)確,有些不應(yīng)該分詞的也被拆分了,例如朋友圈,公眾號,小程序等詞,我們認(rèn)為這是一個整體。

對于這些專有名詞,我們只需要指定一個用戶詞典, 分詞時用戶詞典中的詞固定不分開,重新進行分詞。

lexicon = ['小程序', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加載模型,給定用戶詞典
text = seg.cut(content)

最后出來的結(jié)果前50個高頻詞是這樣的

163 微信
112 用戶
89 產(chǎn)品
72 朋友圈
56 工具
55 社交
53 小程序
40 視頻
39 希望
39 時間
36 游戲
33 閱讀
32 內(nèi)容
31 朋友
31 平臺
30 文章
29 信息
27 團隊
27 AI
26 APP
25 公眾號
25 服務(wù)
24 好友
22 照片
21 時代
21 記錄
20 手機
20 推薦
20 企業(yè)
19 原動力
18 功能
18 真實
18 生活
17 流量
16 電腦
15 空間
15 發(fā)現(xiàn)
15 創(chuàng)意
15 體現(xiàn)
15 公司
15 價值
14 版本
14 分享
14 未來
13 互聯(lián)網(wǎng)
13 發(fā)布
13 能力
13 討論
13 動態(tài)
12 設(shè)計

張小龍講得最多的詞就是用戶、朋友、原動力、價值、分享、創(chuàng)意、發(fā)現(xiàn)等這些詞,用戶出現(xiàn)112次,希望39次,朋友31次,這些詞正是互聯(lián)網(wǎng)的精神,如果我們把這些做成詞云的話,可能效果會更好

怎么用python pkuseg生成云詞

到此,相信大家對“怎么用python pkuseg生成云詞”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

網(wǎng)站標(biāo)題:怎么用pythonpkuseg生成云詞
文章來源:http://aaarwkj.com/article38/iggpsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)靜態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、網(wǎng)站改版、外貿(mào)網(wǎng)站建設(shè)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計
久久99久久久久久精品| 精品在线中文字幕不卡| 日本韩国国语对白一区二区三区| 国产日本欧美一区二区三区| 日韩精品一区二区三区欲色av| 性生活自制视频网站麻豆| 日本高清有码中文字幕| 美女诱惑福利视频久久久| 成人爱爱视频在线免费观看| 国产精品黄黄久久久免费| 美味人妻手机在线观看| 亚洲风情亚av在线播放| 日本一区二区三区高清在线| 中文字幕亚洲入口久久| 亚洲国产精品一区二区| 亚洲成人精品免费观看| 九九热这里只有免费精品| 97视频在线观看网站| 男人天堂在线视频网站| 国产av日韩精品一区二区三区 | 欧美日韩亚洲精品一区二区三区| 俄罗斯少妇毛茸茸的高潮| 天堂社区人妻在线亚洲| 国产精品天天影视久久| 免费看真人性生活视频| 开心久久婷婷综合中文字幕| 午夜伦理视频免费观看| 日韩成人免费观看视频| 依依成人影院在线观看av| 亚洲欧美av中文日韩二区| 亚洲一区二区色黄大片| 91色九色吧在线观看| 久久精品国产亚洲av波多| 亚洲欧美一区二区色慰| 精品人妻一区二区三区蜜桃电 | 中文字幕乱码一区二区欧美| 91亚洲熟妇国产熟妇肥婆| 国产亚洲欧美精品在线观看| 很黄很刺激的视频中文字幕| 最新日韩欧美不卡一二三区| 亚洲av欧美日韩国产|