欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

SparkMagic能做什么

本篇內(nèi)容介紹了“SparkMagic能做什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

為石獅等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及石獅網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站、石獅網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!

適用于Jupyter NoteBook的SparkMagic

Sparkmagic是一個(gè)通過(guò)Livy REST API與Jupyter  Notebook中的遠(yuǎn)程Spark群集進(jìn)行交互工作的項(xiàng)目。它提供了一組Jupyter  Notebook單元魔術(shù)和內(nèi)核,可將Jupyter變成用于遠(yuǎn)程集群的集成Spark環(huán)境。

SparkMagic能夠:

  • 以多種語(yǔ)言運(yùn)行Spark代碼

  • 提供可視化的SQL查詢

  • 輕松訪問(wèn)Spark應(yīng)用程序日志和信息

  • 針對(duì)任何遠(yuǎn)程Spark集群自動(dòng)創(chuàng)建帶有SparkContext和HiveContext的SparkSession

  • 將Spark查詢的輸出捕獲為本地Pandas數(shù)據(jù)框架,以輕松與其他Python庫(kù)進(jìn)行交互(例如matplotlib)

  • 發(fā)送本地文件或Pandas數(shù)據(jù)幀到遠(yuǎn)程集群(例如,將經(jīng)過(guò)預(yù)訓(xùn)練的本地ML模型直接發(fā)送到Spark集群)

可以使用以下Dockerfile來(lái)構(gòu)建具有SparkMagic支持的Jupyter Notebook:

FROM jupyter/all-spark-notebook:7a0c7325e470USER$NB_USER RUN pip install --upgrade pip RUN pip install --upgrade --ignore-installed setuptools RUN pip install pandas --upgrade RUN pip install sparkmagic RUN mkdir /home/$NB_USER/.sparkmagic RUN wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.json RUN mv example_config.json /home/$NB_USER/.sparkmagic/config.json RUN sed -i 's/localhost:8998/host.docker.internal:9999/g'/home/$NB_USER/.sparkmagic/config.json RUN jupyter nbextension enable --py --sys-prefix widgetsnbextension RUN jupyter-kernelspec install --user --name SparkMagic $(pip show sparkmagic |grep Location | cut -d" " -f2)/sparkmagic/kernels/sparkkernel RUN jupyter-kernelspec install --user --name PySparkMagic $(pip show sparkmagic| grep Location | cut -d" " -f2)/sparkmagic/kernels/pysparkkernel RUN jupyter serverextension enable --py sparkmagic USER root RUN chown $NB_USER /home/$NB_USER/.sparkmagic/config.json CMD ["start-notebook.sh","--NotebookApp.iopub_data_rate_limit=1000000000"] USER $NB_USER

生成圖像并用以下代碼標(biāo)記:

docker build -t sparkmagic

并在Spark Magic支持下啟動(dòng)本地Jupyter容器,以安裝當(dāng)前工作目錄:

docker run -ti --name\"${PWD##*/}-pyspark\" -p 8888:8888 --rm -m 4GB --mounttype=bind,source=\"${PWD}\",target=/home/jovyan/work sparkmagic

為了能夠連接到遠(yuǎn)程Spark集群上的Livy REST API,必須在本地計(jì)算機(jī)上使用ssh端口轉(zhuǎn)發(fā)。獲取你的遠(yuǎn)程集群的IP地址并運(yùn)行:

ssh -L 0.0.0.0:9999:localhost:8998REMOTE_CLUSTER_IP

首先,使用啟用了SparkMagic的PySpark內(nèi)核創(chuàng)建一個(gè)新的Notebook,如下所示:

SparkMagic能做什么

在啟用了SparkMagic的Notebook中,你可以使用一系列單元魔術(shù)來(lái)在本地筆記本電腦以及作為集成環(huán)境的遠(yuǎn)程Spark集群中使用。%%  help魔術(shù)輸出所有可用的魔術(shù)命令:

SparkMagic能做什么

可以使用%%configuremagic配置遠(yuǎn)程Spark應(yīng)用程序:

SparkMagic能做什么

如圖所示,SparkMagic自動(dòng)啟動(dòng)了一個(gè)遠(yuǎn)程PySpark會(huì)話,并提供了一些有用的鏈接以連接到Spark UI和日志。

Notebook集成了2種環(huán)境:

  • %%local,可在筆記本電腦和jupyter docker映像提供的anaconda環(huán)境中本地執(zhí)行單元

  • %%spark,通過(guò)遠(yuǎn)程Spark集群上的PySpark REPL,再通過(guò)Livy REST API遠(yuǎn)程執(zhí)行單元

首先將以下code cell遠(yuǎn)程導(dǎo)入SparkSql數(shù)據(jù)類型;其次,它使用遠(yuǎn)程SparkSession將Enigma-JHU  Covid-19數(shù)據(jù)集加載到我們的遠(yuǎn)程Spark集群中。可以在Notebook中看到remote .show()命令的輸出:

SparkMagic能做什么

但這就是魔術(shù)開始的地方。可以將數(shù)據(jù)框注冊(cè)為Hive表,并使用%%sql魔術(shù)對(duì)遠(yuǎn)程群集上的數(shù)據(jù)執(zhí)行Hive查詢,并在本地Notebook中自動(dòng)顯示結(jié)果。這不是什么高難度的事,但對(duì)于數(shù)據(jù)分析人員和數(shù)據(jù)科學(xué)項(xiàng)目早期的快速數(shù)據(jù)探索而言,這非常方便。

SparkMagic能做什么

SparkMagic真正有用之處在于實(shí)現(xiàn)本地Notebook和遠(yuǎn)程群集之間無(wú)縫傳遞數(shù)據(jù)。數(shù)據(jù)科學(xué)家的日常挑戰(zhàn)是在與臨時(shí)集群合作以與其公司的數(shù)據(jù)湖進(jìn)行交互的同時(shí),創(chuàng)建并保持其Python環(huán)境。

在下例中,我們可以看到如何將seaborn導(dǎo)入為本地庫(kù),并使用它來(lái)繪制covid_data pandas數(shù)據(jù)框。

這些數(shù)據(jù)從何而來(lái)?它是由遠(yuǎn)程Spark集群創(chuàng)建并發(fā)送的。神奇的%%spark-o允許我們定義一個(gè)遠(yuǎn)程變量,以在單元執(zhí)行時(shí)轉(zhuǎn)移到本地筆記本上下文。我們的變量covid_data是一個(gè)遠(yuǎn)程集群上的SparkSQL  Data Frame,和一個(gè)本地JupyterNotebook中的PandasDataFrame。

SparkMagic能做什么

使用Pandas在Jupyter  Notebook中聚合遠(yuǎn)程集群中的大數(shù)據(jù)以在本地工作的能力對(duì)于數(shù)據(jù)探索非常有幫助。例如,使用Spark將直方圖的數(shù)據(jù)預(yù)匯總為bins,以使用預(yù)匯總的計(jì)數(shù)和簡(jiǎn)單的條形圖在Jupyter中繪制直方圖。

另一個(gè)有用的功能是能夠使用魔術(shù)%%spark-o covid_data -m sample -r 0.5來(lái)采樣遠(yuǎn)程Spark  DataFrame。集成環(huán)境還允許你使用神奇的%%send_to_spark將本地?cái)?shù)據(jù)發(fā)送到遠(yuǎn)程Spark集群。

PandasDataFrames和字符串支持的兩種數(shù)據(jù)類型。要將其他更多或更復(fù)雜的東西(例如,經(jīng)過(guò)訓(xùn)練的scikit模型用于評(píng)分)發(fā)送到遠(yuǎn)程Spark集群,可以使用序列化創(chuàng)建用于傳輸?shù)淖址硎拘问剑?/p>

import pickle import gzip import base64serialised_model = base64.b64encode(     gzip.compress(        pickle.dumps(trained_scikit_model)     ) ).decode()

但正如你所見(jiàn),這種短暫的PySpark集群模式有一大詬病:使用Python軟件包引導(dǎo)EMR集群,且這個(gè)問(wèn)題不會(huì)隨著部署生產(chǎn)工作負(fù)載而消失。

“SparkMagic能做什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

網(wǎng)站題目:SparkMagic能做什么
鏈接地址:http://aaarwkj.com/article18/peeodp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、網(wǎng)站制作品牌網(wǎng)站設(shè)計(jì)、移動(dòng)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷型網(wǎng)站建設(shè)
精品人妻一区二区四区| 中文字幕在线一级色视频| 精品人妻一区二区三区免费视频| 四虎在线观看免费资源| 日韩欧美亚洲天堂视频| 欧美午夜国产在线观看| 韩国电视剧大全免费国语观看| 亚洲成综合人在线播放| 亚洲成在人线天堂网站| 人妻少妇亚洲中文字幕| 另类欧美亚洲中文在线综合| 日韩夫妻性生活免费视频| 国产日韩精品综合一区| 看看永久成人免费视频| 午夜福利院在线观看免费| 久久久久久狠狠亚洲综合| 久久产精品一区二区三区日韩| 亚洲国产精品97视频| 中文字幕在线一级色视频| 色婷婷综合激情一区二区| 中文字幕一区二区三区久久| 蜜桃精品国产一区二区三区| 日产极品一区二区三区| 国产高清视频不卡在线| 亚洲一区二区精品偷拍| 婷婷亚洲悠悠色悠在线| av中文字幕在线激情| 欧美一日韩一级片免费看| av全欧国男人在线天堂| 97视频网站在线观看| 99麻豆久久久精品国产| 国产免费高清视频成人| 精品久久久久久久久极品| 午夜福利一区二区在线| 四虎官网免费在线观看| 亚洲av成人av天堂| 亚洲一区二区三区熟妇| 高潮的毛片激情久久精品| 国产91在线拍揄自揄| 精品人妻一区二区三区蜜桃电| 亚洲成人久久久av一区|