欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

收藏!盤點很實用的數(shù)據(jù)科學Python庫

2021-03-02    分類: 網(wǎng)站建設

數(shù)據(jù)科學是一門研究數(shù)據(jù)并從中挖掘信息的學科。它不要求自創(chuàng)或學習新的算法,只需要知道怎么樣研究數(shù)據(jù)并解決問題。這一過程的關鍵點之一就在于使用合適的庫。本文概述了數(shù)據(jù)科學中常用的、并且有一定重要性的庫。在進入正題之前,本文先介紹了解決數(shù)據(jù)科學問題的5個基本步驟。這些步驟是筆者自己總結撰寫的,并無對錯之分。步驟的正確與否取決于數(shù)據(jù)的研究方法。

數(shù)據(jù)科學的五個重要步驟包括:

1.獲取數(shù)據(jù)

2.清理數(shù)據(jù)

3.探索數(shù)據(jù)

4.構建數(shù)據(jù)

5.呈現(xiàn)數(shù)據(jù)

這五個步驟只是經驗之談,并不是什么標準答案。但是如果仔細思考,就會發(fā)現(xiàn)這五個步驟是非常合理的。

收藏!盤點最實用的數(shù)據(jù)科學Python庫

1. 獲取數(shù)據(jù)

獲取數(shù)據(jù)是解決數(shù)據(jù)科學問題的關鍵一步。你需要提出一個問題并最終解決它。這取決于你是如何以及從何處獲取數(shù)據(jù)的。獲取數(shù)據(jù)較好的方法就是從Kaggle上下載或從網(wǎng)絡上抓取。

當然,你也可以采用適當?shù)姆椒ê凸ぞ邚木W(wǎng)絡上抓取數(shù)據(jù)。

網(wǎng)絡數(shù)據(jù)抓取最重要、最常用的庫包括:

1.Beautiful Soup

2.Requests

3.Pandas

Beautiful Soup是一個可從HTML和XML文件中提取數(shù)據(jù)的Python庫。推薦讀者閱讀Beautiful Soup庫官方文檔。

如果已經安裝Python,只需輸入以下命令,即可安裝Beautiful Soup。文中所涉及的庫全部給出了安裝方法。但是我更推薦讀者使用Google Colab,便于練習代碼。在Google Colab中,無需手動安裝,只需要輸入“importlibrary_name”,Colab就會自動安裝。

pip install beautifulsoup4

導入Beautiful Soup庫:

from bs4 import BeautifulSoupSoup = BeautifulSoup(page_name.text, ‘html.parser’)

Python的Requests庫采用更加簡單易用的方式發(fā)送HTTP請求。Requests庫中有很多種方法,其中最常用的是request.get()。在URL轉發(fā)成功或失敗的情況下,request.get()都能夠返回URL轉發(fā)狀態(tài)。推薦讀者閱讀Requests庫官方文檔了解更多信息(https://realpython.com/python-requests/?source=post_page-----a58e90f1b4ba----------------------)。

安裝Requets:

pip install requests

導入Requests庫:

import requestspaga_name = requests.get('url_name')

Pandas是一種方便易用的高性能數(shù)據(jù)結構,同時也是Python編程語言分析工具。Pandas提供了一種能夠清晰、簡潔地存儲數(shù)據(jù)的數(shù)據(jù)框架。Pandas庫官方文檔如下:https://pandas.pydata.org/pandas-docs/stable/?source=post_page-----a58e90f1b4ba----------------------

安裝Pandas:

pip install pandas

導入Pandas庫:

import pandas as pd

2. 清理數(shù)據(jù)

清理數(shù)據(jù)有許多重要的步驟,往往包括清除重復行、清除異常值、查找缺失值和空值,以及將對象值轉換成空值并繪制成圖表等。

數(shù)據(jù)清理常用的庫包括:

1.Pandas

2.NumPy

Pandas可以說是數(shù)據(jù)科學中的“萬金油”——到處都可用。關于Pandas的介紹詳見上文,此處不再贅述。

NumPy即Numeric Python,是一個支持科學計算的Python庫。眾所周知,Python本身并不支持矩陣數(shù)據(jù)結構,而Python中的NumPy庫則支持創(chuàng)建和運行矩陣計算。NumPy庫官方文檔如下:https://numpy.org/devdocs/?source=post_page-----a58e90f1b4ba----------------------

運行以下命令下載NumPy(確保已經安裝了Python):

python -m pip install --user numpy scipy matplotlib ipython jupyter pandas sympy nose

導入NumPy庫:

import numpy as np

3. 探索數(shù)據(jù)

探索性數(shù)據(jù)分析(Exploratory Data Analysis, EDA)是用于增強信息索引理解的工具,通過有規(guī)律地刪減和用圖表繪制索引基本特征實現(xiàn)。使用EDA能夠幫助用戶更加深入、清晰地探索數(shù)據(jù),展現(xiàn)重要信息采集的發(fā)布或情況。

運行EDA常用的庫包括:

1.Pandas

2.Seaborn

3.Matplotlib.pyplot

Pandas:詳見上文。

Seaborn是一個Python數(shù)據(jù)可視化庫,為繪制數(shù)據(jù)圖表提供了一個高級接口。安裝新版本的Seaborn:

pip install seaborn

使用Seaborn,可以輕松繪制條形圖、散點圖、熱力圖等圖表。導入Seaborn:

import seaborn as sns

Matplotlib是一個Python 2D圖形繪圖庫,能夠在多種環(huán)境中繪制圖表,可替代Seaborn。事實上,Seaborn是基于Matplotlib開發(fā)的。

安裝Matplotlib:

python -m pip install -U matplotlib

推薦閱讀Matplotlib官方文檔:https://matplotlib.org/users/index.html?source=post_page-----a58e90f1b4ba----------------------

導入Matplotlib.pyplot庫:

import matplotlib.pyplot as plt

4. 構建模型

構建模型是數(shù)據(jù)科學中的關鍵一步。由于這一步要求根據(jù)要解決的問題和所獲取的數(shù)據(jù)來構建機器學習模型,所以和其他步驟相比難度更大。在這一步中,問題陳述是至關重要的一點,因為它會影響對問題的定義和提出的解決方法。網(wǎng)絡上大部分公開的數(shù)據(jù)集都是基于某一個問題收集的,因此解決問題的能力就尤為重要。而且,由于沒有某個特定的算法最適合自己,你需要在多種算法中進行選擇,考慮數(shù)據(jù)適合用回歸、分類、聚類還是降維算法。

選擇算法經常是一件讓人頭疼的事。讀者可以使用SciKit learn算法選擇路徑圖來記錄追蹤哪個算法的性能最優(yōu)。下圖展示了一張SciKit learn的路徑圖:

收藏!盤點最實用的數(shù)據(jù)科學Python庫

不難猜出,建模時最常用的庫是:

1.SciKit learn

SciKit learn是Python中一個便于使用的構建機器學習模型的庫。它是基于NumPy、SciPy和Matplotlib開發(fā)的。SciKit learn庫官方文檔如下:https://scikit-learn.org/stable/?source=post_page-----a58e90f1b4ba----------------------

導入scikit learn:

import sklearn

安裝scikit learn:

pip install -U scikit-learn

5. 呈現(xiàn)數(shù)據(jù)

這是數(shù)據(jù)科學的最后一步,也是很多人不想做的一步——畢竟沒有人想要公開發(fā)表他們的數(shù)據(jù)發(fā)現(xiàn)。呈現(xiàn)數(shù)據(jù)也是有法可循的,并且這個方法極為重要,因為無論如何,成果最終還是要向人們展示的。而且由于人們并不關心所使用的的算法,他們只關心結果,所以展示還要做到簡潔明了。為了展現(xiàn)數(shù)據(jù)成果,推薦讀者安裝Jupyter notebook:https://jupyter.org/install.html?source=post_page-----a58e90f1b4ba----------------------

同時,安裝如下指令給notebook配備展示選項:

pip install RISE

閱讀文章:http://www.blog.pythonlibrary.org/2018/09/25/creating-presentations-with-jupyter-notebook/,了解更多如何使用notebook做出精彩展示的教程。務必遵循教程的步驟。讀者還可以觀看Youtube的視頻進行學習:

以上就是本文全部內容。本文從最基礎的內容開始介紹,讀完全文,讀者已經知道了在數(shù)據(jù)科學中如何、在何時、以及在哪一步使用Python庫。

當前標題:收藏!盤點很實用的數(shù)據(jù)科學Python庫
文章路徑:http://aaarwkj.com/news28/103728.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、App設計、品牌網(wǎng)站制作、面包屑導航、移動網(wǎng)站建設、服務器托管

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設
亚洲男人的天堂社区av| 男人的天堂av最新版本| 日本在线最新视频一区二区三区| 亚洲精品欧美综合二区| 青青草原一区在线观看| 国内外成人皇色视频| 久久精品熟女亚洲av韩国| 91欧美精品在线视频| 青青草原一区在线观看| 国产蜜臀视频在线播放| 亚洲黄色av网址在线观看| 精品人妻系列一区二区| 人妻操人人妻中出av| 麻豆一精品传二传媒短视频| 欧美福利区免费观看视频| 伊人激情久久综合中文字幕| 99精品人妻一区二区三区| 亚洲图文一区二区三区四区| 在线观看国产小视频不卡| 日本人妻系列中文字幕| 女同久久精品国产精品天堂99| 日韩欧美国产精品一区| 成熟性性生活免费视频| 亚洲欧美一区日韩尤物| 亚洲性图中文字幕在线| 免费亚洲老熟熟女熟女熟女| 亚洲精品乱码国产妇女毛片| 欧美日韩精品一区二区三| 精品人妻一区二区三区蜜桃电| 国产乱肥老妇国产一区二| 91日本在线免费观看视频| 国产怡红院在线视频观看| 国产三级在线播放完整| 一区二区三区视频在线国产| 我要看亚洲黄色片一级 | 亚洲国产女人精品久久久| 午夜亚洲大片在线观看| 国产av麻豆全部免费| 亚洲综合中文字幕经典av在线 | 国产又大又长又粗又硬又猛| 日韩精品在线观看一二三区|