欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

怎么用pythonpkuseg生成云詞

本篇內(nèi)容主要講解“怎么用python pkuseg生成云詞”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用python pkuseg生成云詞”吧!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了陸港免費建站歡迎大家使用!

安裝 pkuseg

pip3 install pkuseg

第一步是將演講內(nèi)容下載下來,保存到一個txt文件中,然后將內(nèi)容加載到內(nèi)存

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

我統(tǒng)計了一下,文字總數(shù)是32546個。

接下來我們用pkuseg對內(nèi)容進行分詞處理,并統(tǒng)計出現(xiàn)頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))

輸出結(jié)果:

怎么用python pkuseg生成云詞


什么鬼,這都是些啥玩意,別急,其實啊,分詞領(lǐng)域還有一個概念叫做停用詞,所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標(biāo)點符合等等。因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我們就要把這些停用詞過去掉,我們?nèi)ゾW(wǎng)上找個停用詞庫。

第二版代碼:

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)

stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
   stopwords = f.read()

new_text = []

for w in text:
   if w not in stopwords:
       new_text.append(w)

counter = Counter(new_text)
pprint.pprint(counter.most_common(20))

打印的結(jié)果:

[('微信', 163),
('用戶', 112),
('產(chǎn)品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('視頻', 40),
('希望', 39),
('時間', 39),
('游戲', 36),
('閱讀', 33),
('內(nèi)容', 32),
('平臺', 31),
('文章', 30),
('信息', 29),
('團隊', 27),
('AI', 27),
('APP', 26)]

看起來比第一次好多了,因為停用詞都過濾掉了,跟采銅那張圖片有點像了,不過他挑出來的詞可能是從另外一個維度來的,畢竟人家是搞心理學(xué)的。但是我們選出來的前20個高頻詞還是不準(zhǔn)確,有些不應(yīng)該分詞的也被拆分了,例如朋友圈,公眾號,小程序等詞,我們認(rèn)為這是一個整體。

對于這些專有名詞,我們只需要指定一個用戶詞典, 分詞時用戶詞典中的詞固定不分開,重新進行分詞。

lexicon = ['小程序', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加載模型,給定用戶詞典
text = seg.cut(content)

最后出來的結(jié)果前50個高頻詞是這樣的

163 微信
112 用戶
89 產(chǎn)品
72 朋友圈
56 工具
55 社交
53 小程序
40 視頻
39 希望
39 時間
36 游戲
33 閱讀
32 內(nèi)容
31 朋友
31 平臺
30 文章
29 信息
27 團隊
27 AI
26 APP
25 公眾號
25 服務(wù)
24 好友
22 照片
21 時代
21 記錄
20 手機
20 推薦
20 企業(yè)
19 原動力
18 功能
18 真實
18 生活
17 流量
16 電腦
15 空間
15 發(fā)現(xiàn)
15 創(chuàng)意
15 體現(xiàn)
15 公司
15 價值
14 版本
14 分享
14 未來
13 互聯(lián)網(wǎng)
13 發(fā)布
13 能力
13 討論
13 動態(tài)
12 設(shè)計

張小龍講得最多的詞就是用戶、朋友、原動力、價值、分享、創(chuàng)意、發(fā)現(xiàn)等這些詞,用戶出現(xiàn)112次,希望39次,朋友31次,這些詞正是互聯(lián)網(wǎng)的精神,如果我們把這些做成詞云的話,可能效果會更好

怎么用python pkuseg生成云詞

到此,相信大家對“怎么用python pkuseg生成云詞”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

網(wǎng)站標(biāo)題:怎么用pythonpkuseg生成云詞
文章來源:http://aaarwkj.com/article38/iggpsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)靜態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、網(wǎng)站改版、外貿(mào)網(wǎng)站建設(shè)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計
夜夜操狠狠操天天摸| 精品国产av一区蜜臀av| 91九色在线精品一区| 久久一二三四区中文字幕| 亚洲精品中文字幕乱码| 色婷婷综合中文久久一本| 国产精品 亚洲精品| 亚洲午夜精品毛片成人| 97人妻人人澡人人爽| 精品亚洲av一区二区三区| 国产精品一区二区三区在线| 成人精品国产亚洲av| 亚洲一区二区三区熟妇| av在线成人国产精品欧美| 91成人伦理在线观看| 亚洲欧美日韩另类精品一区二区三区| 日韩三级成人在线视频| 老牛av一区二区三区| av基地蜜桃蜜桃蜜桃| 亚洲国产精品中文字幕久久| 久久精品少妇人妻视频| 亚洲国产精品青青草| 精品免费av在线播放| 激情自拍偷拍合集一部| 国产成人精品高清国产三级| 国产精品毛片一区二区三| 偷拍偷窥女厕一区二区视频| 日日插天天干夜夜操| 亚洲女人淫片在线观看| 久久国产精品一区二区三区| 丰满少妇诱惑在线观看| 国产精品一区二区av麻豆| 国产成人色污在线观看| 亚洲久久精品中文字幕| 麻豆国产传媒片在线看| 欧美日韩欧美国产精品| 精品视频一区二区三区中文字幕| 欧美高清一区二区三区精品| 日本一本高清免费不卡| 高清区一区二区在线播放| 中国亚洲黄色录像免费看|