典型的大數(shù)據(jù)分析包含以下幾個步驟:
(1)明確分析目的和思路
明確數(shù)據(jù)分析目的以及確定分析思路,是確保數(shù)據(jù)分析過程有效進行的先決條件,它可以為數(shù)據(jù)的收集、處理及分析提供清晰的指引方向。
目的是整個分析流程的起點。目的不明確則會導致方向性的錯誤。即思考:為什么要開展數(shù)據(jù)分析,通過這次數(shù)據(jù)分析要解決什么問題?
當明確目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干個不同的分析要點,即如何具體開展數(shù)據(jù)分析,需要從哪幾個角度進行分析,采用哪些分析指標。只有明確了分析目的,分析框架才能跟著確定下來,最后還要確保分析框架的體系化,使分析更具有說服力。
體系化也就是邏輯化,簡單來說就是先分析什么,后分析什么,使得各個分析點之間具有邏輯聯(lián)系。避免不知從哪方面入手以及分析的內(nèi)容和指標被質疑是否合理、完整。所以體系化就是為了讓你的分析框架具有說服力。
要想使分析框架體系化,就需要一些營銷、管理等理論為指導,結合著實際的業(yè)務情況進行構建,這樣才能保證分析維度的完整性,分析結果的有效性以及正確性。比如以用戶行為理論為指導,搭建的互聯(lián)網(wǎng)網(wǎng)站分析指標框架如下:
把跟數(shù)據(jù)分析相關的營銷、管理等理論統(tǒng)稱為數(shù)據(jù)分析方法論。比如用戶行為理論、PEST分析法、5W2H分析法等等。
(2)數(shù)據(jù)收集
數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析框架,收集相關數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。這里所說的數(shù)據(jù)包括第一手數(shù)據(jù)與第二手數(shù)據(jù),第一手數(shù)據(jù)主要指可直接獲取的數(shù)據(jù),第二手數(shù)據(jù)主要指經(jīng)過加工整理后得到的數(shù)據(jù)。一般數(shù)據(jù)來源主要有以下幾種方式:
數(shù)據(jù)庫:每個公司都有自己的業(yè)務數(shù)據(jù)庫,存放從公司成立以來產(chǎn)生的相關業(yè)務數(shù)據(jù)。這個業(yè)務數(shù)據(jù)庫就是一個龐大的數(shù)據(jù)資源,需要有效地利用起來。
公開出版物:可以用于收集數(shù)據(jù)的公開出版物包括《中國統(tǒng)計年鑒》《中國社會統(tǒng)計年鑒》《中國人口統(tǒng)計年鑒》《世界經(jīng)濟年鑒》《世界發(fā)展報告》等統(tǒng)計年鑒或報告。
互聯(lián)網(wǎng):隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡上發(fā)布的數(shù)據(jù)越來越多,特別是搜索引擎可以幫助我們快速找到所需要的數(shù)據(jù),例如國家及地方統(tǒng)計局網(wǎng)站、行業(yè)組織網(wǎng)站、政府機構網(wǎng)站、傳播媒體網(wǎng)站、大型綜合門戶網(wǎng)站等上面都可能有我們需要的數(shù)據(jù)。
市場調查:進行數(shù)據(jù)分析時,需要了解用戶的想法與需求,但是通過以上三種方式獲得此類數(shù)據(jù)會比較困難,因此可以嘗試使用市場調查的方法收集用戶的想法和需求數(shù)據(jù)。
(3)數(shù)據(jù)處理
數(shù)據(jù)處理是指對收集到的數(shù)據(jù)進行加工整理,形成適合數(shù)據(jù)分析的樣式,它是數(shù)據(jù)分析前必不可少的階段。數(shù)據(jù)處理的基本目的是從大量的、雜亂無章、難以理解的數(shù)據(jù)中,抽取并推導出對解決問題有價值、有意義的數(shù)據(jù)。
數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉化、數(shù)據(jù)提取、數(shù)據(jù)計算等處理方法。一般拿到手的數(shù)據(jù)都需要進行一定的處理才能用于后續(xù)的數(shù)據(jù)分析工作,即使再“干凈”’的原始數(shù)據(jù)也需要先進行一定的處理才能使用。
數(shù)據(jù)處理是數(shù)據(jù)分析的基礎。通過數(shù)據(jù)處理,將收集到的原始數(shù)據(jù)轉換為可以分析的形式,并且保證數(shù)據(jù)的一致性和有效性。
(4)數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當?shù)姆治龇椒肮ぞ?,對處理過的數(shù)據(jù)進行分析,提取有價值的信息,形成有效結論的過程。由于數(shù)據(jù)分析多是通過軟件來完成的,這就要求數(shù)據(jù)分析師不僅要掌握各種數(shù)據(jù)分析方法,還要熟悉數(shù)據(jù)分析軟件的操作。
數(shù)據(jù)挖掘其實是一種高級的數(shù)據(jù)分析方法,就是從大量的數(shù)據(jù)中挖掘出有用的信息,它是根據(jù)用戶的特定要求,從浩如煙海的數(shù)據(jù)中找出所需的信息,以滿足用戶的特定需求。數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。一般來說,數(shù)據(jù)挖掘側重解決四類數(shù)據(jù)分析問題:分類、聚類、關聯(lián)和預測,重點在尋找模式和規(guī)律。數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質是一樣的,都是從數(shù)據(jù)里面發(fā)現(xiàn)關于業(yè)務的知識。
(5)數(shù)據(jù)展現(xiàn)
一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的,我們常說用圖表說話就是這個意思。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、散點圖、雷達圖等,當然可以對這些圖表進一步整理加工,使之變?yōu)槲覀兯枰膱D形,例如金字塔圖、矩陣圖、漏斗圖等。
大多數(shù)情況下,人們更愿意接受圖形這種數(shù)據(jù)展現(xiàn)方式,因為它能更加有效、直觀地傳遞出分析所要表達的觀點。記位,一般情況不,能用圖說明問題的就不用表格,能用表格說明問題的就不要用文字。
(6)報告撰寫
數(shù)據(jù)分析報告其實是對整個數(shù)據(jù)分析過程的一個總結與呈現(xiàn)。通過報告,把數(shù)據(jù)分析的起因、過程、結果及建議完整地呈現(xiàn)出來,供決策者參考。
一份好的數(shù)據(jù)分析報告,首先需要有一個好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動活潑 ,提供視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結論,從而產(chǎn)生思考。
另外,數(shù)據(jù)分析報告需要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為我們最初就是為尋找或者求證一個結論才進行分析的,所以千萬不要舍本求末。
最后,好的分析報告一定要有建議或解決方案。作為決策者,需要的不僅僅是找出問題,更重要的是建議或解決方案,以便他們做決策時作參考。所以,數(shù)據(jù)分析師不僅需要掌握數(shù)據(jù)分析方法,而且還要了解和熟悉業(yè)務,這樣才能根據(jù)發(fā)現(xiàn)的業(yè)務問題,提出具有可行性的建議或解決方案。
(7)大數(shù)據(jù)部門的組織結構
猜你喜歡:
大數(shù)據(jù)有什么價值?研究大數(shù)據(jù)有什么意義?
大數(shù)據(jù)的兩種計算框架優(yōu)劣對比,哪個更適合開發(fā)?
大數(shù)據(jù)能干什么?淺談大數(shù)據(jù)的應用場景
沒有接觸過編程可以學大數(shù)據(jù)嗎?
傳智教育python+大數(shù)據(jù)開發(fā)課程