欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Python———爬蟲學(xué)習(xí)總結(jié)-創(chuàng)新互聯(lián)

首先這次學(xué)習(xí)的是利用寫Python腳本對網(wǎng)頁信息的獲取,并且把他保存到我們的數(shù)據(jù)庫里最后形成一個Excel表格

創(chuàng)新互聯(lián)憑借在網(wǎng)站建設(shè)、網(wǎng)站推廣領(lǐng)域領(lǐng)先的技術(shù)能力和多年的行業(yè)經(jīng)驗,為客戶提供超值的營銷型網(wǎng)站建設(shè)服務(wù),我們始終認為:好的營銷型網(wǎng)站就是好的業(yè)務(wù)員。我們已成功為企業(yè)單位、個人等客戶提供了成都做網(wǎng)站、成都網(wǎng)站制作、成都外貿(mào)網(wǎng)站建設(shè)服務(wù),以良好的商業(yè)信譽,完善的服務(wù)及深厚的技術(shù)力量處于同行領(lǐng)先地位。

下載第三方模塊和源碼安裝MongoDB

剛開始我們需要做一些準備:
先安裝第三方模塊

Python———爬蟲學(xué)習(xí)總結(jié)

Python———爬蟲學(xué)習(xí)總結(jié)

https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz

Python———爬蟲學(xué)習(xí)總結(jié)


思路如下:

1.訪問網(wǎng)站,拿到html網(wǎng)頁

headers獲取:
Python———爬蟲學(xué)習(xí)總結(jié)

腳本1:

運行前打開mongod :

             ./mongod &

Python———爬蟲學(xué)習(xí)總結(jié)

2.提取html里面我們想要的內(nèi)容

腳本2:
Python———爬蟲學(xué)習(xí)總結(jié)

Python———爬蟲學(xué)習(xí)總結(jié)

Long Jump 和 View Graph 是根據(jù)他們可以定位到我們想獲取的信息的標簽上

這個腳本寫完不需要運行,他的url是由第三個腳本導(dǎo)入的

3.把我們爬到的內(nèi)容存到數(shù)據(jù)庫中

腳本3:

Python———爬蟲學(xué)習(xí)總結(jié)

運行前都要檢查MongoD是否運行,運行后可進入數(shù)據(jù)庫去看我們存入的信息
在MongoDB的bin下

./mongo

use iaaf

db.athletes.find()

4.轉(zhuǎn)成Excel表格

腳本4:

Python———爬蟲學(xué)習(xí)總結(jié)

Python———爬蟲學(xué)習(xí)總結(jié)

5.requests,pymongo,bs4的用法總結(jié)

requests是一個很實用的Python HTTP客戶端庫,編寫爬蟲和測試服務(wù)器響應(yīng)數(shù)據(jù)時經(jīng)常會用到??梢哉f,Requests 完全滿足如今網(wǎng)絡(luò)的需求

1.作用:發(fā)送請求獲取響應(yīng)為什么使用requesst?
1)requests底層實現(xiàn)的是urllib2)requests在python2和python3中通用,方法完全一樣
3)requests簡單易用(python特性)
4)requests能夠幫助我們解壓響應(yīng)內(nèi)容(自動解壓完善請求頭,自動獲取cookie)

  1. 發(fā)送簡單的get請求、獲取響應(yīng)response = requests.get(url)

pymongo是python操作 mongodb的工具包

bs4概念:

bs4庫是解析、遍歷、維護、"標簽樹"的功能庫
通俗一點說就是:bs4庫把HTML源代碼重新進行了格式化,
從而方便我們對其中的節(jié)點、標簽、屬性等進行操作
2.BS4的4中對象
①Tag對象:是html中的一個標簽,用BeautifulSoup就能解析出來Tag的具體內(nèi)容,具體
的格式為‘soup.name‘,其中name是html下的標簽。
②BeautifulSoup對象:整個html文本對象,可當(dāng)作Tag對象
③NavigableString對象:標簽內(nèi)的文本對象
④Comment對象:是一個特殊的NavigableString對象,如果html標簽內(nèi)存在注釋,那么它可以過濾掉注釋符號保留注釋文本
最常用的還是BeautifulSoup對象和Tag對象

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁題目:Python———爬蟲學(xué)習(xí)總結(jié)-創(chuàng)新互聯(lián)
當(dāng)前路徑:http://aaarwkj.com/article16/ihhgg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、企業(yè)網(wǎng)站制作、定制網(wǎng)站、動態(tài)網(wǎng)站、移動網(wǎng)站建設(shè)網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)
久久精品一区二区熟女| 亚洲欧美日韩一区中文字幕| 欧美成人极品一区二区三区| 蜜臀av中文字幕亚洲| 自拍偷拍欧美日韩第一页| 亚洲欧美激情专区在线| 国产中文精品字幕a区| 日韩精品国产自拍在线| 日韩欧美人妻一二三四区| 91这里只有精品在线观看| 亚洲国产精品一区二区av| 日本午夜理论视频在线播放| 国产精品久久久久久爽| 扒开少妇毛茸茸的大荫萍蒂| 婷婷六月亚洲中文字幕| 欧美欧美欧美欧美在线| 欧美一区二区三区四区久久| 亚洲欧美日韩国产99| 一区二区三区乱码av| 高颜值紧身牛仔裤国产精品| 国产精品伦理一区二区三区| 色婷婷精品一区二区三区| 亚洲成人黄色片在线观看| 国产黄片自拍视频免费看| 国产三级国产精品国产| 人人妻人人澡人人爽老妇| av在线手机中文字幕| 国产精品传媒在线观看网站| 日韩中字在线一区二区| 欧美香蕉在线观看视频| 亚洲综合色视频在线播放| 蜜桃精品人妻一区二区三区| 国产精品色呦呦一区二区| 久久午夜av一区二区| 国产精品视频一区二区三区网站| 91中文在线视频播放| 亚洲精品在线一二三区| 日韩av在线高清播放| 九九在线精品视频免费| 说中文字幕的黄色大网站| 少妇高潮一区二区三区99|