欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

從底層到應(yīng)用,那些數(shù)據(jù)人的必備技能

根據(jù)數(shù)據(jù)應(yīng)用的不同階段,我將從數(shù)據(jù)底層到最后應(yīng)用,來談?wù)勀切?shù)據(jù)人的必備技能。

創(chuàng)新互聯(lián)建站是專業(yè)的南崗網(wǎng)站建設(shè)公司,南崗接單;提供網(wǎng)站設(shè)計制作、成都網(wǎng)站制作,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行南崗網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊,希望更多企業(yè)前來合作!

1、大數(shù)據(jù)平臺

目前很火,數(shù)據(jù)源頭,各種炫酷新技術(shù),搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺都是用Java開發(fā)的。

目前很多企業(yè)都把數(shù)據(jù)采集下來了,對于傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)是完全夠用的,可是對于用戶行為和點(diǎn)擊行為這些數(shù)據(jù)或者很多非結(jié)構(gòu)化的數(shù)據(jù),文本、圖像和文本類的,由于數(shù)據(jù)量太大,很多公司都不知道怎么進(jìn)行存儲。

這里面要解決的是實(shí)時、近實(shí)時和離線的大數(shù)據(jù)框架如何搭建,各數(shù)據(jù)流之間如何耦合和解耦,如何進(jìn)行容災(zāi)、平臺穩(wěn)定、可用是需要重點(diǎn)考慮的。

我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因?yàn)榇髷?shù)據(jù)概念炒作的這么厲害,很多企業(yè)都被忽悠說,我們也來開始進(jìn)入大數(shù)據(jù)行業(yè)吧。進(jìn)入的前提之一就是需要把數(shù)據(jù)存儲下來,特別是很多用戶行為方面的數(shù)據(jù),對于業(yè)務(wù)的提升比較明顯的,如果你能很好的刻畫用戶,那么對你的產(chǎn)品設(shè)計、市場營銷、開發(fā)市場都是有幫助的?,F(xiàn)階段,很多公司都要做第一步:存儲更多的數(shù)據(jù)。這也是這塊人員流動性比較高的原因,都被高薪挖走了。

和傳統(tǒng)的SQL不同的是,針對大數(shù)據(jù)量的非結(jié)構(gòu)式數(shù)據(jù),我們所想的就是:用最廉價的成本存儲數(shù)據(jù)同時能夠達(dá)到容災(zāi)、擴(kuò)展性高、高性能、跨域,從目前來看,分布式已經(jīng)被證明是個很好的一個方式。

另外,云端會是個很好的方向,不是每個公司都養(yǎng)得起這么多這么貴的大數(shù)據(jù)平臺開發(fā)人員和運(yùn)維人員OPS,從事這個行業(yè)的我們要有很好的危機(jī)意識,及時貢獻(xiàn)出自己的價值,積極主動的學(xué)習(xí)新技術(shù)、否則就可能被淘汰了。

此外,花點(diǎn)錢把數(shù)據(jù)托管給云服務(wù)提供商是對于創(chuàng)業(yè)公司或者一些傳統(tǒng)的企業(yè)來說是個很好的思路,這樣能夠最快速的確定數(shù)據(jù)對你的價值是什么,而不用采購這么多的服務(wù)器、雇傭這么多的運(yùn)維人員和網(wǎng)站開發(fā)人員。

說了以上這些,主要是想給未來會從事這塊的人或者想存儲數(shù)據(jù)的公司一點(diǎn)方向。我自己不做這塊,體會不深,大家看看就行。

這塊工作最被吐槽的一點(diǎn)就是:Hive速度好慢,SQL查詢好慢,集群怎么又掛掉了,hadoop版本升級后,怎么數(shù)據(jù)跑出來不對了等等。

因此,在這個領(lǐng)域內(nèi)工作,需要有強(qiáng)大的攻堅能力,并且還需要有快速定位和解決bug的能力,因?yàn)橛泻芏喙ぞ叨际情_源的。因?yàn)槭情_源的,所以你們懂得,各種坑爹,甚至出現(xiàn)無法向下兼容的情況,所以需要強(qiáng)大的Java開發(fā)能力。

如果想在這塊做的很好,還需要有整個系統(tǒng)架構(gòu)的設(shè)計能力、比較的強(qiáng)的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區(qū),這樣就可以隨時follow最新的潮流和技術(shù)。

2、數(shù)據(jù)倉庫-ETL

確實(shí)做倉庫的人很辛苦,單單Oncall就會讓人望而卻步。有很多數(shù)據(jù)庫工程師,晚上睡覺的時候經(jīng)常被Oncall電話吵醒,因?yàn)閿?shù)據(jù)流程出問題,需要第一時間去排查,是哪個數(shù)據(jù)源出問題,并且要立即解決,否則整個數(shù)據(jù)流程都會受到影響。

如果數(shù)據(jù)流程受到了影響,你就可能會被大領(lǐng)導(dǎo)一言不合叫到辦公室說:我要的數(shù)據(jù)怎么還沒有準(zhǔn)備好,我的業(yè)務(wù)報表今天怎么沒有發(fā)出來。

通過上面這個情景,我們可以知道:這是個很重要的崗位,因?yàn)閿?shù)據(jù)流程很重要,決定了數(shù)據(jù)從源頭雜亂無章的狀況,通過ETL之后變成了整齊的數(shù)據(jù),這些整齊一致性的數(shù)據(jù)可以讓你很方便地把各業(yè)務(wù)的統(tǒng)計結(jié)果計算出來,并且能夠統(tǒng)一口徑。要不然就會變成有幾個部門,就有幾種統(tǒng)計結(jié)果,到時候A部門說業(yè)務(wù)增長了5%,B部門說業(yè)務(wù)漲了10%,OMG,到底信誰。

至少在以下幾點(diǎn)上,我覺得數(shù)據(jù)倉庫人員應(yīng)該要做好:

a、數(shù)據(jù)字典的完整性,用的人都希望能夠清晰的知道這個字段的邏輯是什么。字段要保持很好的一致性,不要同樣一個字段在不同表里有不同的定義。

b、核心流程的穩(wěn)定性,不要讓每天訂單主表能夠使用的時間很不穩(wěn)定,有的時候很早,有的時候要中午才出來,如果不穩(wěn)定就會導(dǎo)致使用數(shù)據(jù)的人對你很沒有信心。

c、倉庫版本迭代不要過于頻繁,要保持不同版本之間的兼容性。不要做好了倉庫1.0,很快就把原來的推倒重來,變成了2.0。在數(shù)據(jù)倉庫中需要考慮到延續(xù)性,主表的變動不要太頻繁,否則使用的人會非常痛苦,好不容易才用習(xí)慣了1.0的表結(jié)構(gòu),沒辦法這么快進(jìn)行切換。簡單地說,要能向下兼容。

d、保持各業(yè)務(wù)邏輯的統(tǒng)一性,不要出現(xiàn)同樣的業(yè)務(wù)邏輯,同一個組別的人統(tǒng)計出來的結(jié)果不同。原因在于共同的邏輯沒有落地成通用的東西,所以導(dǎo)致每個人寫法不同。這點(diǎn)其實(shí)需要特別注意。

針對以上,這個崗位的技能要求是:不要成為僅僅會寫SQL的人,現(xiàn)在工具都很發(fā)達(dá),如果你的技能很單一的話,那么可替代指數(shù)是非常高的,并且你自身也沒有什么成就感。這里并不是說會寫SQL的人很low,只是說應(yīng)該多學(xué)一些技能,否則會很危險。

倉庫人員應(yīng)該要常常思考,如何進(jìn)行架構(gòu)設(shè)計是最合理的,你要考慮是否需要字段冗余、行存儲還是列存儲、字段如何擴(kuò)展最有效,熱數(shù)據(jù)和冷數(shù)據(jù)如何拆分等,所以需要有架構(gòu)思維。

技能上,除了SQL熟練之外,還需要知道如何寫Transform,MapReduce,因?yàn)橛泻芏鄻I(yè)務(wù)邏輯用SQL實(shí)現(xiàn)起來非常復(fù)雜,但是如果你會其他腳本語言,那么就能給你提供便利,讓你的效率提升很多。另外好的倉庫人員需要寫Java或者Scala,通過寫UDTF或者UDAF來提升你的效率是很有必要的。

數(shù)據(jù)倉庫人員也應(yīng)該常??紤]自動化和工具化方面的事情,需要很好的工具或者模塊的抽象能力,動手實(shí)現(xiàn)自動化的工具來提高整個組織效能。針對經(jīng)常碰到的數(shù)據(jù)傾斜問題,需要很快定位問題并進(jìn)行優(yōu)化。

說完了數(shù)據(jù)存儲這塊,接下來是數(shù)據(jù)應(yīng)用的幾個關(guān)鍵職位,在此之前,我想說數(shù)據(jù)應(yīng)用的一個最關(guān)鍵的前提是:數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量!!在每次闡述你的觀點(diǎn)、分析結(jié)論或者用算法的時候,都需要先檢查,源頭數(shù)據(jù)正確性,否則任何結(jié)論都是偽命題。

3、數(shù)據(jù)可視化

這是個很炫的工作,最好是能懂點(diǎn)前端,比如js。數(shù)據(jù)可視化人員需要有很好的分析思維,不能為了炫技而忽視對業(yè)務(wù)的幫助程度。因?yàn)槲覍@個崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個崗位需要有分析的能力,才能把可視化做好。

另外一方面來說,做數(shù)據(jù)應(yīng)用的人都應(yīng)該懂點(diǎn)數(shù)據(jù)可視化,要知道觀點(diǎn)表達(dá)的素材順序是:圖片>表格>文字,一個能夠用圖片來闡述的機(jī)會千萬別用文字來描述,因?yàn)檫@樣更易于讓別人理解。要知道,給大領(lǐng)導(dǎo)講解事情的時候,需要把大領(lǐng)導(dǎo)設(shè)想成是個“數(shù)據(jù)白癡”,這樣才能把一件事情說的比較生動。

4、數(shù)據(jù)分析師

現(xiàn)在對數(shù)據(jù)分析的需求是很大的,因?yàn)榇蠹叶枷胫f:數(shù)據(jù)有了,但是能做些什么呢?這就需要有數(shù)據(jù)分析師,對數(shù)據(jù)進(jìn)行分析和挖掘,然后做數(shù)據(jù)應(yīng)用。

對數(shù)據(jù)分析師吐槽最多的是:你分析出來的不就是正常的業(yè)務(wù)邏輯嗎,還需要你分析什么?或者是你分析的結(jié)論不對,跟我們的業(yè)務(wù)邏輯不符合。特別是:ABTest的結(jié)果和當(dāng)初設(shè)定的預(yù)期不相符合的時候,分析師會常常被拉過去說:分析一下,為什么我的AB實(shí)驗(yàn)結(jié)果不顯著,里面肯定有原因的。

很多時候,寶寶的心里苦啊,你說這個轉(zhuǎn)化率下降了,從數(shù)據(jù)上可以看出哪個細(xì)分渠道下降了,至于為什么客戶不下單,我們得去用戶去,很多時候,數(shù)據(jù)上也體現(xiàn)不出來為什么,只能告訴你現(xiàn)狀是什么。

如果你一直在寫分析報告,給結(jié)論中,持續(xù)周而復(fù)始,沒有直接在業(yè)務(wù)中體現(xiàn)成績的時候,數(shù)據(jù)分析師們該醒醒了,你該想想這個是你要的崗位嗎?

對于數(shù)據(jù)分析師的定位:個人認(rèn)為,成為優(yōu)秀的數(shù)據(jù)分析師是非常難的,現(xiàn)在市面上也沒有多少優(yōu)秀的分析師。數(shù)據(jù)分析師的技能要求,除了會數(shù)據(jù)分析、提煉結(jié)論、洞察數(shù)據(jù)背后的原因之外,還需要了解業(yè)務(wù),懂算法。

只有這樣,當(dāng)面對一個業(yè)務(wù)問題時,數(shù)據(jù)分析師們才可以針對問題抽絲剝繭,層層遞進(jìn)去解決問題,再根據(jù)定位的問題進(jìn)行策略的應(yīng)對,比如是先做上策略進(jìn)行測試還是應(yīng)用算法進(jìn)行優(yōu)化,用算法用在哪個場景上,能不能用算法來解決問題。

一個優(yōu)秀的數(shù)據(jù)分析師,是個精通業(yè)務(wù)和算法的全能數(shù)據(jù)科學(xué)家,不是那個只會聽從業(yè)務(wù)的需求而進(jìn)行拉數(shù)據(jù)、做報表、只做分析的閑雜人等。我們都說分析要給出結(jié)論,優(yōu)秀分析師的結(jié)論就是一個能解決問題的一攬子策略和應(yīng)對措施,同時很多需求是分析師去主動發(fā)現(xiàn)并通過數(shù)據(jù)來挖掘出來的。

從上述描述中,可以看到對數(shù)據(jù)分析師的要求是:會寫sql拉數(shù)據(jù),精通業(yè)務(wù)、會數(shù)據(jù)洞察、精通算法,主動性強(qiáng),要求還是很高的。

如果你一直只是忙于應(yīng)付日常分析需求,熱衷于寫華麗的報告,那么你要記得,你很危險,因?yàn)闀幸欢讶嗽谀抢镔|(zhì)疑你存在的價值,特別是小公司。因?yàn)閿?shù)據(jù)人員的薪資是個不小的支出。

大部分不落地的分析都是偽分析,有一些探索性的可行性研究可以不考慮落地,但是其他的特定業(yè)務(wù)需求的分析都需要考慮落地,然后通過實(shí)踐來反推你的作用,如此反復(fù),才能慢慢的給你價值的肯定,同時提升你的分析技能,也只有這樣才能證明你作為分析師、數(shù)據(jù)落地者的價值。

5、數(shù)據(jù)挖掘/算法

這塊的話,經(jīng)過這三年的摸爬滾打,感觸蠻多的。體會比較深的吐槽主要有以下幾點(diǎn):

一個規(guī)則搞定了,還用什么算法。

·你的準(zhǔn)確率怎么這么低?!

·你的準(zhǔn)確率可以到99%嗎?

·你的推薦有價值嗎?你不推薦客人也會下那個產(chǎn)品的訂單的。

·幫我做個大數(shù)據(jù)預(yù)測他想要什么?

很多時候,不同的場景對準(zhǔn)確率的要求是不同的,所以在一定合理的場景下和業(yè)務(wù)進(jìn)行據(jù)理力爭是必要,不要害怕讓業(yè)務(wù)吐槽,更多的時候管理好他們的預(yù)期。

有些場景下,推薦的價值在于『長期復(fù)購率』,所以不要每次都盯著ABTest的轉(zhuǎn)化率來說事,讓客人的費(fèi)力度降低也是很有前途和前景的。一個智能的產(chǎn)品會讓客人用起來愛不釋手,雖然在這一次的轉(zhuǎn)化中沒有明顯的差別,但是觀察長期復(fù)購率才能體現(xiàn)價值。特別是要區(qū)分:高頻和低頻產(chǎn)品。頻次比較低的產(chǎn)品就特別難體現(xiàn)出短期價值。

對于這個崗位的技能要求來說,沒有要求你一定要從零開始實(shí)現(xiàn)所有的算法,現(xiàn)在有很多現(xiàn)成的算法包進(jìn)行調(diào)用。最基本的要求是,你要知道每個場景會用到哪個算法,比如分類場景,常用的分類算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個算法的有效優(yōu)化參數(shù)是什么、模型效果不好的時候怎么優(yōu)化。還需要有算法的實(shí)現(xiàn)能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。

另外針對有監(jiān)督式學(xué)習(xí)算法,算法工程師最好有很好的業(yè)務(wù)sense,這樣在feature設(shè)計的時候才能更有針對性,設(shè)計的feature才有可能有很好的先驗(yàn)性。

6、深度學(xué)習(xí)(NLP,CNN,語音識別)

這塊我沒具體商用過,只是動手實(shí)踐過。個人感覺商業(yè)化是重點(diǎn)吧,特別是大家都在觀望說你的chatbot很有用啊,可是siri做了這么久,最后反響也一般。

現(xiàn)在客服機(jī)器人又很火,大家又在一通吐槽說,這個上下文理解的太差了,機(jī)器人的語義識別做的怎么這么差。誰做誰知道,對于中文的語義識別,難度比國外的難多了,因?yàn)橹形牡囊环N否定說法有太多種變體,你不知道我們會說哪種。

另外,常常有人吐槽說,你這個CNN這么復(fù)雜,我線上需要滿足100ms內(nèi)返回,搞的這么復(fù)雜,實(shí)時調(diào)用怎么整,肯定來不及了,最后只能考慮offline預(yù)測了。常常說這話的人,是不會自己寫底層代碼的,很多時候我覺得:不是你沒有解決問題的辦法,而是你沒有去思考怎么解決問題,心智決定了你的產(chǎn)出。

整體來說,這塊對個人的綜合素質(zhì)要求是很高的。如果你只是想簡單利用現(xiàn)成的Model,提取中間層的特征,然后再套用其他的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測的話,倒也能很好的解決一些現(xiàn)實(shí)中的公司應(yīng)用,比如yelp的圖片分類。

不過,嚴(yán)格來說,這個不算是做深度學(xué)習(xí)的人,因?yàn)檎嬲鍰L的人,是需要自己動手建模型,調(diào)參數(shù),改symbol的,所以他們的編程能力是很強(qiáng)的,這點(diǎn)上,我一直都高山仰止。特別是一些創(chuàng)業(yè)公司,對于這個崗位的編程能力要求很高。如果你面試創(chuàng)業(yè)公司后沒有下文了那就表示:你很優(yōu)秀,但是不一定適合我們公司,因?yàn)槲覀円业木幊棠芰軓?qiáng)的人。

這塊我不專業(yè),所以就點(diǎn)到為止,不說太多。個人認(rèn)為,在這塊上需要有比較強(qiáng)的算法改造和優(yōu)化能力,盡量的提高算法預(yù)測的速度,同時不斷的提高算法的外延性提高精度,目前整個行業(yè)也都是朝著好的方向在發(fā)展。如果有很多人看到這塊行業(yè)開出來的高工資,記得和招聘上的要求核對一下,自己哪塊技能需要補(bǔ)充。這樣你才能成為人中之鳳。

對于未來,一片光明,對于未來,甚是期待,對于未來,一切可能。

做個總結(jié):

以上說了這么多,嘮叨了這么多,其實(shí)核心就是:如何用數(shù)據(jù)創(chuàng)造價值,如果你沒有用數(shù)據(jù)創(chuàng)造價值的能力,那么就只能等著被數(shù)據(jù)淹沒,被數(shù)據(jù)拍死在職場上,早早到達(dá)職業(yè)的天花板。

體現(xiàn)數(shù)據(jù)價值的層面上,越往數(shù)據(jù)應(yīng)用層靠攏,對數(shù)據(jù)產(chǎn)生價值的要求就越高,從事這塊領(lǐng)域的人要常常自省是否有好的商業(yè)Sense,畢竟在工業(yè)界,沒人關(guān)心你是否比傳統(tǒng)的baseline提高了一個百分點(diǎn),他們關(guān)心的是你提高了一個百分點(diǎn)之后,對公司的價值是什么。

而越往底層那塊,倒也沒有強(qiáng)制要求和業(yè)績綁定在一起,更多的是從流程上進(jìn)行約定,對于這塊的價值體現(xiàn),主要從技術(shù)層面上的創(chuàng)新為主,你如果解決了現(xiàn)存架構(gòu)的問題,那么你就可以成為一個大牛,所以多學(xué)學(xué)編程吧,別太約束自己,故步自封。

網(wǎng)站題目:從底層到應(yīng)用,那些數(shù)據(jù)人的必備技能
網(wǎng)站URL:http://aaarwkj.com/article6/sopdog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營銷、云服務(wù)器、網(wǎng)頁設(shè)計公司、手機(jī)網(wǎng)站建設(shè)網(wǎng)站收錄、虛擬主機(jī)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化
亚洲免费黄色大片网站| 日韩最新视频一区二区三| 国语少妇高潮对白在线| 91白丝视频在线观看| 日本中文字幕三级专区| 2021亚洲精品午夜精品国产| 国产一区二区三区在线看片| 欧美黄色日本一区二区| 女人天堂网av免费看| 中文字幕人妻出轨一区二区| 免费无遮挡午夜视频网站| 国产三级精品在线免费| 亚州精品乱码久久电影| 深夜av免费在线观看| 一本久道久久综合久久鬼色| 久久午夜人妻一区二区| 午夜福利视频一区久久久| 麻豆av久久一区二区| 91久久精品国产一区| 国产av超爽剧情系列| 日韩国产欧美亚洲一区| av中文字幕国产精品| 人妻内射一区二区在线视| 亚洲欧美日韩另类在线视频| 日韩精品女性三级视频| 区二区三区毛片乱码免费| 老熟妇奂伦一区二区三区| 日韩中文字幕乱码一区| 亚洲香蕉视频免费在线观看| 少妇欧美日韩精品在线观看 | 青青草原一区二区三区| 亚洲欧美日韩制服另类| 国产自拍免费在线观看视频| 中文字幕久精品视频免费| 国产精品青青草原在线| 好吊妞在线新免费视频| 涩久久悠悠一区二区三区| 国产美女亚洲精品久久久| 中文字幕亚洲精品熟女少妇| 白白色最新福利在线视频观看| 国产成人激情自拍视频在线观看|