分析大數(shù)據(jù),R語(yǔ)言和Linux系統(tǒng)比較有幫助,運(yùn)用到的方法原理可以翻翻大學(xué)的統(tǒng)計(jì)學(xué),不需要完全理解,重在應(yīng)用。
分析簡(jiǎn)單數(shù)據(jù),Excel就可以了。Excel本意就是智能,功能很強(qiáng),容易上手。我沒有見過(guò)有人說(shuō)自己精通Excel的,最多是熟悉Excel。Excel的函數(shù)可以幫助你處理大部分?jǐn)?shù)據(jù)。
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購(gòu)物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過(guò)后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí),往往會(huì)順便為自己購(gòu)買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場(chǎng)只能買到兩件商品之一,則他很有可能會(huì)放棄購(gòu)物而到另一家商店, 直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場(chǎng)嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購(gòu)物;而沃爾瑪超市也可以讓這些客戶一次購(gòu)買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來(lái)。
當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國(guó)學(xué)者Agrawal提出通過(guò)分析購(gòu)物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購(gòu)買行為。艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提 出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Aprior算法。沃爾瑪從上個(gè)世紀(jì) 90 年代嘗試將 Aprior 算 法引入到 POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
數(shù)據(jù)分析落實(shí)到實(shí)處,一般就是圍繞用戶漏斗展開的。也就是人們常說(shuō)的訪問(wèn)-激活-留存-交易-推薦。
這核心的5步會(huì)有不同維度的細(xì)分。
獲客:來(lái)源、渠道、關(guān)鍵字、著陸頁(yè)、地域、設(shè)備、訪問(wèn)時(shí)間、跳出率、訪問(wèn)深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數(shù)據(jù),可以通過(guò)ptengine通過(guò)漏斗細(xì)分得到可視化圖表。一般來(lái)講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數(shù)據(jù)和當(dāng)年第一周)即可獲得數(shù)據(jù)的變化情況。
以上,其實(shí)不用很專業(yè)也能做好數(shù)據(jù)分析,獲取數(shù)據(jù)并不難,難的是你能洞察數(shù)據(jù)背后的意義。
使用R語(yǔ)言的時(shí)候,如果是少量數(shù)據(jù),不妨使用c()或其他函數(shù)進(jìn)行創(chuàng)建;但是對(duì)于大量數(shù)據(jù),最好還是先通過(guò)其他更方便的軟件創(chuàng)建數(shù)據(jù)文件,然后使用R讀入這個(gè)文件。
.csv是非常好的數(shù)據(jù)文件格式,跨平臺(tái)支持非常好。我在Excel或者SPSS中創(chuàng)建的數(shù)據(jù),只要存為csv格式,就可以使用幾乎任何數(shù)據(jù)處理軟件對(duì)這些數(shù)據(jù)進(jìn)行處理了。使用通用格式在多人合作、不同版本兼容等常見行為中,優(yōu)勢(shì)十分明顯。另外,之所以使用不同的數(shù)據(jù)處理軟件,第一,可以取長(zhǎng)補(bǔ)短。比如有些工作SPSS很復(fù)雜的,可以用R語(yǔ)言幾行命令搞定。第二,可以進(jìn)行軟件間處理結(jié)果對(duì)照,發(fā)現(xiàn)問(wèn)題。
R語(yǔ)言中讀取外部文件的最基本函數(shù)是read.table(),還有用來(lái)讀csv的read.csv(), .csv是非常好的數(shù)據(jù)文件格式,跨平臺(tái)支持非常好。
輸入help(read.table)命令,就看到了關(guān)于數(shù)據(jù)輸入函數(shù)的說(shuō)明。
框內(nèi)的數(shù)字是行變量和列變量之間的相關(guān)系數(shù)R,相關(guān)系數(shù)R絕對(duì)值越大,顏色越深(紅正,藍(lán)負(fù))。統(tǒng)計(jì)學(xué)中,P值越小相關(guān)性越顯著,一般來(lái)說(shuō) 一個(gè)*代表顯著相關(guān)(P值為0.01,選取不同參數(shù)可能不一樣)、兩個(gè)**代表極顯著相關(guān)(P值為0.001)、三個(gè)***代表極極顯著相關(guān)(P值為0.0001). 圖中還可以看出,相關(guān)系數(shù)R的絕對(duì)值0.67(變量P50與T之間)以上的都顯著相關(guān),至少一個(gè)*。符合一般關(guān)于相關(guān)系數(shù)R值的顯著性統(tǒng)計(jì)。
處理工程數(shù)據(jù)一般有三種方法:數(shù)據(jù)程序化處理、數(shù)據(jù)文件化處理、數(shù)據(jù)庫(kù)處理。
數(shù)據(jù)程序化處理的優(yōu)點(diǎn)是:充分將數(shù)據(jù)與程序結(jié)合在了一起。其缺點(diǎn)是數(shù)據(jù)無(wú)法共享,增加了程序的長(zhǎng)度。
數(shù)據(jù)文件化處理的優(yōu)點(diǎn)是:數(shù)據(jù)與程序作了初步的分離,實(shí)現(xiàn)了有條件的共享。其缺點(diǎn)有四點(diǎn):①文件只能表示事物而不能表示事物之間的聯(lián)系;②文件較長(zhǎng);③數(shù)據(jù)與應(yīng)用程序之間仍有依賴關(guān)系;④安全性和保密性較差。
數(shù)據(jù)庫(kù)處理的優(yōu)點(diǎn)是:①數(shù)據(jù)共享,②數(shù)據(jù)集中,安全性和保密性好。③數(shù)據(jù)結(jié)構(gòu)化,既表示了事物,又表示了事物之間的聯(lián)系。
其缺點(diǎn)是:數(shù)據(jù)與應(yīng)用程序無(wú)關(guān)聯(lián)。
如果說(shuō)數(shù)據(jù)挖掘是一門手藝,那么R語(yǔ)言就是工匠手里一種工具,要做出一件價(jià)值連城的藝術(shù)品需要先“利其器”,但更關(guān)鍵的是工匠能夠“集百家之長(zhǎng),成一家之言“自成一派的創(chuàng)造力。
正所謂”操千曲而后曉聲,觀千劍而后識(shí)器"。建議初學(xué)者先了解一些機(jī)器學(xué)習(xí)的基礎(chǔ)理論以及典型的應(yīng)用領(lǐng)域?qū)嵗?,定下自己想要研究的方向后與行業(yè)相結(jié)合,然后再學(xué)習(xí)工具的使用。
R語(yǔ)言經(jīng)典圖書推薦:
《R in Action-Data Analysis and Graphics with R》鏈接:R語(yǔ)言實(shí)戰(zhàn) (豆瓣)
這本書從實(shí)用的統(tǒng)計(jì)研究角度,每一章節(jié)結(jié)合實(shí)際的例子講解了R在創(chuàng)建數(shù)據(jù)集、繪制圖形、數(shù)據(jù)管理、以及模型構(gòu)建的使用方法,堪稱經(jīng)典。前兩部分屬于R基本功能介紹,第三部分以后才是精髓開始(包括了回歸分析、方差分析、功效分析、廣義線性模型、主成分和因子分析等統(tǒng)計(jì)方法詳細(xì)的實(shí)例分析)。
《數(shù)據(jù)之魅-基于開源工具的數(shù)據(jù)分析》鏈接:數(shù)據(jù)之魅 (豆瓣)
作者是華盛頓大學(xué)理論物理學(xué)博士。這本書是數(shù)據(jù)分析系列著作的經(jīng)典之一,包含大量的R語(yǔ)言模擬過(guò)程及結(jié)果展示,例舉了很多數(shù)據(jù)分析實(shí)例和代碼。吃透以后就能夠?qū)φ麄€(gè)數(shù)據(jù)挖掘的流程有一個(gè)全方位的了解。
轉(zhuǎn)載
數(shù)據(jù)分析師的工作一定要好好把握。關(guān)于數(shù)據(jù)分析師的思路和方法,小編覺得是這樣的:
首先,你要明白什么是數(shù)據(jù)分析;
第二你要知道數(shù)據(jù)分析的目的;
第三、清楚數(shù)據(jù)分析的分類以及作用:現(xiàn)狀分析、原因分析、預(yù)測(cè)分析第四,如何進(jìn)行數(shù)據(jù)分析:
1.明確目的和思路
2.數(shù)據(jù)收集
3.數(shù)據(jù)處理
4.數(shù)據(jù)分析
數(shù)據(jù)處理好之后,就要進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)分析是用適當(dāng)?shù)姆治龇椒肮ぞ撸瑢?duì)處理過(guò)的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論的過(guò)程。
常用的數(shù)據(jù)分析工具,掌握Excel的數(shù)據(jù)透視表,就能解決大多數(shù)的問(wèn)題。需要的話,可以再有針對(duì)性的學(xué)習(xí)SPSS、SAS等。
數(shù)據(jù)挖掘是一種高級(jí)的數(shù)據(jù)分析方法,你需要掌握數(shù)據(jù)挖掘基礎(chǔ)理論,數(shù)據(jù)庫(kù)操作Phython,R語(yǔ)言, Java 等編程語(yǔ)言的使用以及高級(jí)的數(shù)據(jù)可視化技術(shù)。要側(cè)重解決四類數(shù)據(jù)分析問(wèn)題:分類、聚類、關(guān)聯(lián)和預(yù)測(cè),重點(diǎn)在尋找模式與規(guī)律。
5.數(shù)據(jù)展現(xiàn)
一般情況下,數(shù)據(jù)是通過(guò)表格和圖形的方式來(lái)呈現(xiàn)的。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點(diǎn)圖、雷達(dá)圖等。進(jìn)一步加工整理變成我們需要的圖形,如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。
圖表制作的五個(gè)步驟:
確定要表達(dá)主題;確定哪種圖表最適合;選擇數(shù)據(jù)制作圖表;檢查是否真實(shí);反映數(shù)據(jù)檢查是否表達(dá)觀點(diǎn)
6.報(bào)告撰寫
數(shù)據(jù)分析的四大誤區(qū)
1.目的不明確,為了做而作,導(dǎo)致分析效果不明確;
2.對(duì)與行業(yè)、公司業(yè)務(wù)還有其他考慮因素認(rèn)知不清楚,分析結(jié)果偏離實(shí)際。
3.為了方法而方法,為了工具而工具,只要能解決問(wèn)題的方法和工具就是好的方法和工具;
4.數(shù)據(jù)本身是客觀的,但被解讀出來(lái)的數(shù)據(jù)是主觀的。同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結(jié)論,所以一定不能提前帶著觀點(diǎn)去分析。
每個(gè)人都有自己的工作特點(diǎn)和方法傾向,不過(guò)對(duì)于數(shù)據(jù)分析這種很有邏輯的工作,邏輯思路一定要處理清楚,該遵從的客觀標(biāo)準(zhǔn)還是要嚴(yán)格遵守,而且數(shù)據(jù)分析只有產(chǎn)生了價(jià)值,你做的這份工作才算真在發(fā)揮了作用。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁(yè)面生成時(shí)間:2.813秒