科技

進階指南:如何從資料分析師轉型為資料科學家?

大資料文摘出品

來源:Medium

編譯:李雷、橡樹_Hiangsug

文章解釋了轉型為資料科學家的原因,整理了資料科學家應該掌握的技能,著重介紹了從資料分析師轉型為資料科學家的具體方法。

如何從資料分析師華麗轉型,成為一名資料科學家?好比“把大象裝進冰箱”,成為“資料科學家”僅需簡單三步:

1. 進入LinkedIn登入你的賬號。

2. 點選“編輯個人資料”。

3. 將 “資料分析師”這個詞替換為“資料科學家”。

搞定,就是這麼簡單!

理想很豐滿,現實很骨感。在現實生活中,我們必須承認:培養資料洞察能力絕非易事。

入門資料科學早已有許多優秀的博文可供參考,比如以下兩篇:《成為Jet.com資料分析師的自學之路》和《入門資料科學需掌握的基礎知識》,但是為資料分析師提供轉型為資料科學家的方法的文章卻少之又少。

《成為Jet.com資料分析師的自學之路》:

https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325

《入門資料科學需掌握的基礎知識》:

https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868

在我開始介紹這條轉型之路前,我還是想先花些功夫詳細描述一下這兩種職業身份的具體職責。

資料分析師的主要工作是對資料進行收集和處理,並通過統計演算法分析已處理的結構化資料,從而為資料賦能,改良決策。

資料科學家也會進行類似的工作,但對其提出了更高的要求。除上述職責外,一個優秀的資料科學家需要同時具備處理大量非結構化資料的能力,甚至擁有對資料進行實時處理的能力。

他們不僅可以洞悉資料背後的價值,還會對資料進行更深度的清洗和處理,並且用各種各樣的高階演算法對資料進行更深層的分析。除此之外,他們還具有很強的敘事能力和資料視覺化能力。

我經常會接觸到許多才華橫溢的分析師,他們急切地想要在資料科學界大展拳腳,卻總是找不合適的機會,甚至不知從何入手——而這正是我寫下這篇文章的主要原因。

為什麼要成為資料科學家?

影響力:成為一名資料科學家意味著你將有機會發現和創造巨大的商業價值,發表更高層的決策意見,甚至幫助企業尋找未來的發展方向。

成就感:資料科學是一個飛速發展的領域,其中有許多有趣的問題亟待解決。作為一名資料科學家,你可以建立影象識別系統,開發文字分類器,識別社交媒體上的惡意評價,投身解決一系列尚未攻克的難題。

前沿性:曾有人預言,人工智慧將最終取代人類工作。與其等著自己的工作被人工智慧取代,不如主動出擊,追上這一時代的浪潮。

薪酬待遇:也許資料科學家的薪酬還不足以讓你享受開遊艇喝香檳的奢靡生活,但相較於其他工作已經相當可觀。業界對資料科學家的需求量依舊較大,優秀的資料科學家仍屬高薪稀缺人才。直白來講,為了更好的明天,努力成為一名優秀的資料科學家吧!

資料科學——學得多,做得多,但賺得也多!

友情提示:量力而行,切忌盲從,不要被金錢和誘惑矇蔽了雙眼,畢竟貪得無厭沒有好結果(“華爾街之狼”的下場很慘)。

我是否擁有成為資料科學家的資質?

儘管培養處理棘手的資料結構和(或)大型資料的能力需要數年的經驗積累,但別灰心,實際上大多數分析師在一定程度上已經打下了成為資料科學家的基礎。換句話說,只要肯下功夫,轉型為資料科學家沒有想象中那麼困難。

那麼,成為一名合格的資料科學家到底需要掌握哪些技能?

一個複雜的資料科學專案可能由眾多子專案構成,且專案流程又複雜多變,所以我們恐怕沒有辦法找到這個問題的標準答案。單就近幾年資料科學的發展來看,成為一名資料科學家至少需要了解以下幾個方面的技能分支:

資料科學語言:Python / R。關係型資料庫 :MySQL,Postgress。非關係型資料庫:MongoDB。機器學習模型:迴歸演算法(Regression)、提升決策樹(Boosted Trees)、支援向量機(SVM)、神經網路(NNs)等。影象處理:Neo4J,GraphX分散式計算:Hadoop,Spark雲端計算 :GCP / AWS / AzureAPI 互動:OAuth,Rest資料視覺化和Web應用:D3,RShiny專業領域:自然語言處理(NLP),光學字元識別(OCR)和計算機視覺(CV)

Boosted Trees模型在近幾年的資料科學競賽中大放異彩。

RShiny資料儀表盤是一個優秀的互動工具,可供使用者更加直觀地對資料進行探索。

掌握這些技能需要很長時間(可能比完成學位課程的時間還要長),即使是為我們熟知的“牛人”們仍在不斷地學習。但是,我們大可不必擔心自己能力有限,學習知識需要一步步的積累,掌握技能需要一步步的打磨。每天進步一點,總有一天我們將擁有足夠豐富的知識儲備和高水平的技能迎接未來的挑戰。

智力水平的高低無法決定我們是否可以獲得成功,堅定的決心和頑強的意志才是通往成功的關鍵所在。

我具體應該怎麼做?

在開始行動前,我們需要掌握一些基本的技能:

樹立正確的信念。或許在十年前,找到一門合適的資料軟體課程可能需要花費數週之久,但時代已變,線上學習材料觸手可及,資源匱乏再也不是逃避學習的藉口。我們必須保持持續學習的能力,不斷為自己充電,磨練自己的技術。

學習一門程式語言並提升你的數學能力。大多數人都是從學習Python和(或)R開始資料科學之路的,而且Coursera和Udemy等網站上提供了大量相關的免費課程資源。Python使用者喜歡通過Anaconda和Jupyter程式設計,而R使用者則較多地使用R Studio。就數學計算能力而言,吳恩達(Andrew Ng)的機器學習課程和斯坦福大學的神經網路課都很適合於轉型人士學習。

動手解決問題。你可以嘗試在工作中找到所遇到的實際問題,與業務專家和資料工程師展開合作,親自動手解決這些問題——這是最好的端到端開發模式。

參加Kaggle比賽。還有什麼比與數千人同臺競賽更能提升建模技巧呢?Kaggle上的比賽要求十分清晰,提供的資料都已經過清洗,非常值得一試。剛開始不要太在意比賽的排名,以嘗試的心態開始你的第一場比賽——每一次嘗試都是新的開始。

緊隨領軍人物的動態。有些人喜歡把為這一領域做出傑出貢獻的人比作“資料科學界的搖滾巨星”,他們的言行和工作非常值得你花時間去了解和學習——時常重新整理Geoffrey Hinton,Andrew Ng,Yann LeCun,Rachel Thomas和Jeremy Howard等人的動態,你肯定會有所收穫。

高效地工作。在一定工作積累後,嘗試藉助工具提升你的工作效率——使用GitHub等版本控制工具維護和儲存你的程式碼,用Docker對你的程式碼進行封裝與釋出。

有效地溝通。學會“推銷”自己的工作。高管們總是喜歡“華麗”的專案展示,所以當你在做重要的工作報告時要努力“博眼球”,突出工作的亮點。

Twitter也是另一種獲取資訊的媒介,Rachel Thomas等人的動態十分值得關注。

為自己鋪路

即使你掌握了世界上所有的技能,如果你的公司無法提供合適的開發工具,配置相應的開發環境,你也很難施展拳腳。

現實生活中總會有一些不可控的因素阻礙我們前進的腳步,與其浪費時間糾結於此,我們更加應該關注那些我們可以改變的因素並積極做出行動。

加入新的團隊,這是最簡單可行的轉型方法。大多數中到大型的公司都至少會有一個小型資料科學團隊——別猶豫,加入他們!

與專業人士合作,如果你無法“跳槽”,那麼就請想方設法找到在你認識範圍內知識最淵博的資料科學家並與之合作。

舉例來說,你可以在現有的工作中找到可自動化完成的業務流程,然後帶著這一問題找到這方面的專家。但這時千萬不要直接把任務“甩”給這些專家,嘗試與他們合作,加入到問題的解決過程中來。

搭建資料科學的內部環境,並不是所有的公司都確定它們是否需要資料科學的幫助,或者他們並不知道如何引入資料科學作為分析工具。

傳統的分析系統已經讓他們忙得不可開交,且開發新資料分析系統所帶來的安全和審計任務都相當耗時,因此他們只接受效益明顯的商業應用方案——這就是你大顯身手的機會,用你的知識儲備為公司搭建資料科學發展環境,引入合適的資料科學工具,培養內部人員的資料思維,為資料科學團隊儲備力量。

開發一個明確的業務用例,你可以重新審視業務流程,思考如何將資料科學應用到這些業務中,想辦法將資料科學與業務完美融合,藉助業務應用的成功案例為資料科學的後續發展鋪路。

與有更多技能的人合作,加入多元化的團隊不僅可以幫助你更容易獲得更大的成就,你還可以在合作過程中學習到其他成員掌握的知識和擁有的技能。

尾記

種一棵樹最好的時間是十年前,其次是現在。珍惜這次機會,馬上開始你的學習之路,從實際問題入手,步步攻克一系列難關。開弓沒有回頭箭,你必須不斷努力,將全部的信心和熱情投入到工作中,你會驚訝地發現原來自己也可以獲得如此高的成就!

相關報道:

https://towardsdatascience.com/from-data-analyst-to-data-scientist-f67a724ea265

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題