這篇文章將為大家詳細(xì)講解有關(guān)python爬蟲實(shí)戰(zhàn)之爬取房天下新房數(shù)據(jù)的示例,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站制作、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的湘潭網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
本示例主要用到requests庫(kù)和bs4庫(kù),requests庫(kù)用來(lái)獲取網(wǎng)頁(yè)內(nèi)容,bs4庫(kù)則是解析網(wǎng)頁(yè)內(nèi)容,獲取有用數(shù)據(jù)。
代碼中url可切換當(dāng)?shù)胤刻煜戮W(wǎng)址。
代碼如下
# -*- coding:utf-8 -*- # author:zhoulong ''' 房天下天水新房信息 ''' import requests from bs4 import BeautifulSoup import numpy as np import re URL = 'http://newhouse.tianshui.fang.com/house/s/b91/' HTML = requests.get(URL) SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030') last_page = SOUP.select('.last') page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])#根據(jù)尾頁(yè)劃分頁(yè)碼 url_demo = 'http://newhouse.tianshui.fang.com/house/s/b9{}/'#i+1,name.text.strip(), #房?jī)r(jià)價(jià)格 house_price_list=[] for i in range(1,(page_number+1)): url = url_demo.format(i) html = requests.get(url) soup = BeautifulSoup(html.content,'html.parser',from_encoding='gb18030') names = soup.select('.nlcd_name a')#class定位組合查找 adresses = soup.select('.address a')#查找地址 all_type = soup.findAll(name="span", attrs={"class": re.compile(r"forSale|inSale|outSale|zusale|zushou")})#出售 all_money = soup.findAll(name="div", attrs={"class": re.compile(r"nhouse_price|kanesf")})#價(jià)格 for i,name in enumerate(names): print(i+1,' name:'+name.text.strip(),' address:'+''.join(re.split(r'\s+', adresses[i].text.replace('\n','').replace('',''))), all_type[i].text,' house_price: '+all_money[i].text.replace('\n','')) house_price_list.append(re.findall('\d+',all_money[i].text.replace('\n',''))) house_price_list=[int(i[0]) for i in house_price_list if i] print('*'*80) print('* '+' 房?jī)r(jià)均價(jià):'+str(np.mean(house_price_list))+' '*60+'*') print('* '+' 房?jī)r(jià)最高價(jià):'+str(np.max(house_price_list))+' '*60+'*') print('* '+' 房?jī)r(jià)最低價(jià):'+str(np.min(house_price_list))+' '*61+'*') print('*'*80)
執(zhí)行結(jié)果
關(guān)于python爬蟲實(shí)戰(zhàn)之爬取房天下新房數(shù)據(jù)的示例就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
當(dāng)前文章:python爬蟲實(shí)戰(zhàn)之爬取房天下新房數(shù)據(jù)的示例
鏈接地址:http://aaarwkj.com/article24/gjceje.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航、網(wǎng)頁(yè)設(shè)計(jì)公司、網(wǎng)站設(shè)計(jì)、軟件開(kāi)發(fā)、網(wǎng)站營(yíng)銷、網(wǎng)站設(shè)計(jì)公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)