收集方法
1、調查法
調查方法一般分為普查和抽樣調查兩大類。
2、觀察法
主要包括兩個方面:一是對人的行為的觀察,二是對客觀事物的觀察。觀察法應用很廣泛,常和詢問法、搜集實物結合使用,以提高所收集信息的可靠性。
3、實驗方法
實驗方法能通過實驗過程獲取其他手段難以獲得的信息或結論。
實驗方法也有多種形式,如實驗室實驗、現場實驗、計算機模擬實驗、計算機網絡環(huán)境下人機結合實驗等?,F代管理科學中新興的管理實驗,現代經濟學中正在形成的實驗經濟學中的經濟實驗,實質上就是通過實驗獲取與管理或經濟相關的信息。
4、文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過程。文獻檢索分為手工檢索和計算機檢索。
5、網絡信息收集
網絡信息是指通過計算機網絡發(fā)布、傳遞和存儲的各種信息。收集網絡信息的最終目標是給廣大用戶提供網絡信息資源服務,整個過程經過網絡信息搜索、整合、保存和服務四個步驟,
參考資料來源:搜狗百科-信息收集
業(yè)務上
1.業(yè)務為核心,數據為王
了解整個產業(yè)鏈的結構
制定好業(yè)務的發(fā)展規(guī)劃
了解衡量的核心指標
有了數據必須和業(yè)務結合才有效果
需要懂業(yè)務的整體概況,摸清楚所在產業(yè)鏈的整個結構,對行業(yè)的上游和下游的經營情況有大致的了解。然后根據業(yè)務當前的需要,指定發(fā)展計劃,從而歸類出需要整理的數據。最后一步詳細的列出數據核心指標(KPI),并且對幾個核心指標進行更細致的拆解,當然具體結合你的業(yè)務屬性來處理,找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業(yè)務現況的全面掌握非常關鍵。
2.思考指標現狀,發(fā)現多維規(guī)律
熟悉產品框架,全面定義每個指標的運營現狀對
比同行業(yè)指標,挖掘隱藏的提升空間
拆解關鍵指標,合理設置運營方法來觀察效果
爭對核心用戶,單獨進行產品用研與需求挖掘
業(yè)務的分析大多是定性的,需要培養(yǎng)一種客觀的感覺意識。定性的分析則需要借助技術、工具、機器。而感覺的培養(yǎng),由于每個人的思維、感知都不同,只能把控大體的方向,很多數據元素之間的關系還是需要通過數據可視化技術來實現。
3.規(guī)律驗證,經驗總結
發(fā)現了規(guī)律之后不能立刻上線,需要在測試機上對模型進行驗證。
技能上
1.Excel是否精鉆?
除了常用的Excel函數(sum、average、if、countifs、sumifs、offset、match、index等)之外,Excel圖表(餅圖、線圖、柱形圖、雷達圖等)和簡單分析技能也是經常用的,可以幫助你快速分析業(yè)務走勢和異常情況;另外,Excel里面的函數結合透視表以及VBA功能是完善報表開發(fā)的利器,讓你一鍵輕松搞定報表。
2.你需要更懂數據庫
常用的數據庫如MySQL,Sql Server、Oracle、DB2、MongoDB等;除去SQL語句的熟練使用,對于數據庫的存儲讀取過程也要熟練掌握。在對于大數據量處理時,如何想辦法加快程序的運行速度、減少網絡流量、提高數據庫的安全性是非常有必要的。
3.掌握數據整理、可視化和報表制作
數據整理,是將原始數據轉換成方便實用的格式,Excel在協(xié)同工作上并不是一個好工具,報表FineReport比較推薦。項目部署的Tableau、FineBI、Qlikview一類BI工具,有沒有好好培訓學習,這些便捷的工具都能淡化數據分析時一些重復性操作,把精力更多留于分析。
試讀結束,如需閱讀或下載,請點擊購買>
原發(fā)布者:陽夏秋天
數據中心數據管理方案1、公司現有數據現狀現公司主要的大數據容量的主要為公司的航片數據和衛(wèi)片數據、警用調查成果的照片數據,以及用來做調查的大比例尺地形圖數據,目前公司勘測、數據、軟件部門加起來大概50T的容量??紤]到以后的擴展和數據備份,數據中心此次預計100T的容量進行數據管理。針對這種大容量數據管理有三種解決方案:1、支持大容量的存儲+磁帶庫備份2、多個NAS級存儲3、購買大量1T和2T的硬盤(一份存儲+一份備份)+行之有效的數據進出及保存制度。前段時間與公司領導從管理的方便性、投入的成本等各方面考慮討論的結果來看,決定采用第三種解決方案——用大容量硬盤進行管理。2、硬盤購買的數量及總價存儲100T左右的數據,可以采購1T或2T的硬盤進行存儲(1T的硬盤相對比較穩(wěn)定)。選購硬盤時需考慮到硬盤的轉速、硬盤的緩存容量、硬盤的平均尋道時間、硬盤的功耗以及硬盤的價格。單碟容量是目前硬盤發(fā)展的重點,幾乎就是決定硬盤檔次的標準,目前盤片數量最多為5張,在盤片數無法增加的情況下,提升單碟容量是提升硬盤容量的唯一辦法。所以,我們在購買硬盤的時候,選擇采用垂直記錄技術的產品,在性能方面表現更出色。緩存就作為硬盤中的一個緩沖的區(qū)域,調節(jié)兩者之間的數據傳輸,緩存的大小直接影響到硬盤的性能,緩存區(qū)域越大數據的穩(wěn)定性就越好,自然數據等待時間也就越短,一般反應到實際操作中就是運行速度越快。轉速是影響硬盤性能的主要因素,目前主流硬盤都采用了
業(yè)務上1.業(yè)務為核心,數據為王了解整個產業(yè)鏈的結構制定好業(yè)務的發(fā)展規(guī)劃了解衡量的核心指標有了數據必須和業(yè)務結合才有效果需要懂業(yè)務的整體概況,摸清楚所在產業(yè)鏈的整個結構,對行業(yè)的上游和下游的經營情況有大致的了解。
然后根據業(yè)務當前的需要,指定發(fā)展計劃,從而歸類出需要整理的數據。最后一步詳細的列出數據核心指標(KPI),并且對幾個核心指標進行更細致的拆解,當然具體結合你的業(yè)務屬性來處理,找出那些對指標影響幅度較大的影響因子。
前期資料的收集以及業(yè)務現況的全面掌握非常關鍵。2.思考指標現狀,發(fā)現多維規(guī)律熟悉產品框架,全面定義每個指標的運營現狀對比同行業(yè)指標,挖掘隱藏的提升空間拆解關鍵指標,合理設置運營方法來觀察效果爭對核心用戶,單獨進行產品用研與需求挖掘業(yè)務的分析大多是定性的,需要培養(yǎng)一種客觀的感覺意識。
定性的分析則需要借助技術、工具、機器。而感覺的培養(yǎng),由于每個人的思維、感知都不同,只能把控大體的方向,很多數據元素之間的關系還是需要通過數據可視化技術來實現。
3.規(guī)律驗證,經驗總結發(fā)現了規(guī)律之后不能立刻上線,需要在測試機上對模型進行驗證。技能上1.Excel是否精鉆?除了常用的Excel函數(sum、average、if、countifs、sumifs、offset、match、index等)之外,Excel圖表(餅圖、線圖、柱形圖、雷達圖等)和簡單分析技能也是經常用的,可以幫助你快速分析業(yè)務走勢和異常情況;另外,Excel里面的函數結合透視表以及VBA功能是完善報表開發(fā)的利器,讓你一鍵輕松搞定報表。
2.你需要更懂數據庫常用的數據庫如MySQL,Sql Server、Oracle、DB2、MongoDB等;除去SQL語句的熟練使用,對于數據庫的存儲讀取過程也要熟練掌握。在對于大數據量處理時,如何想辦法加快程序的運行速度、減少網絡流量、提高數據庫的安全性是非常有必要的。
3.掌握數據整理、可視化和報表制作數據整理,是將原始數據轉換成方便實用的格式,Excel在協(xié)同工作上并不是一個好工具,報表FineReport比較推薦。項目部署的Tableau、FineBI、Qlikview一類BI工具,有沒有好好培訓學習,這些便捷的工具都能淡化數據分析時一些重復性操作,把精力更多留于分析。
如何提高數據分析能力? (2012-02-19 16:19:19)轉載▼
標簽: 數據分析 數據挖掘 雜談
作為一個合格的咨詢師,除了快速的學習能力和敏捷的分析能力,強大的數據分析能力也是必不可少的。筆者根據自己的經驗,總結出以下幾個對提高數據分析能力有幫助的方法,以供參考。一、熟悉公司業(yè)務 首先要熟悉公司業(yè)務及流程。若脫離行業(yè)認知和公司業(yè)務背景,分析的結果只會是脫了線的風箏,沒有太大的實用價值。數據分析的最終目的是作為一種分析方法來為整個項目服務。二、明確分析目的 常常會有人問這些數據可以做什么分析?這是典型的“為了分析而分析”。數據分析的前提是先明確分析目的,這樣的分析才有意義;三、運用營銷、管理等理論 營銷、管理等理論是數據分析的指導思想,使分析思路系統(tǒng)化。例如4P理論等,從哪幾個維度去分析?考慮哪幾個方面?只有這樣做才能使數據分析變得有血有肉有脈絡,真正做到理論指導實踐;四、掌握有效數據分析方法 了解數據分析流程,掌握數據分析基本原理與方法,并靈活運用到實踐工作中,不論簡單還是復雜的分析方法,只要能解決問題的方法就是好方法;五、玩轉數據分析工具 數據分析工具,建議先玩轉excel數據透視表,有興趣、實踐、需要的話,再學習SPSS、SAS等統(tǒng)計分析工具。同樣,只要能解決問題的工具就是好工具;六、學會用圖表說話,玩轉PPT等工具 學會如何用圖表有效展現分析結果,PPT有助于數據分析結果展現,達人必備;水晶易表亦對分析結果的展現有很大幫助,選擇性使用;思維導圖可幫助理清分析思路,根據需要選用。光做數據分析是不夠的,真正要做的是將數據分析結果清晰地展現給其他人看;七、勤思考、多動手、多總結 需要經常發(fā)問為什么是這樣的、為什么不是那樣的。只有這樣勤于思考才有突破點; 光靠腦袋想是不夠的,需要多動手實踐,不要怕錯,大不了錯了重來,數據分析就是一個不斷假設、驗證的過程; 不斷總結分析方法、分析思路、分析流程,在總結中前行;八、關注行業(yè)動態(tài) 關注數據分析行業(yè)動態(tài),積極地學習他人的數據分析經驗;九、收藏幾本分析秘籍 可在家中收藏一些使用的分析工具書,以便隨時查閱,如《用圖表說話》、《excel圖表之道》等; 數據分析不僅是個工具,而且是門藝術,希望能與大家共勉,提高自己的數據分析能力。
參照這個來提升自己。希望對你有所幫助
我以前收藏的,挺不錯:
1、存儲
將硬盤分成NTFS格式,NTFS比FAT32快,并看你的數據文件大小,1G以上你可以采用多數據庫文件,這樣可以將存取負載分散到多個物理硬盤或磁盤陣列上。
2、tempdb
tempdb也應該被單獨的物理硬盤或磁盤陣列上,建議放在RAID 0上,這樣它的性能最高,不要對它設置最大值讓它自動增長
3、日志文件
日志文件也應該和數據文件分開在不同的理硬盤或磁盤陣列上,這樣也可以提高硬盤I/O性能。
4、分區(qū)視圖
就是將你的數據水平分割在集群服務器上,它適合大規(guī)模OLTP,SQL群集上,如果你數據庫不是訪問特別大不建議使用。
5、簇索引
你的表一定有個簇索引,在使用簇索引查詢的時候,區(qū)塊查詢是最快的,如用between,應為他是物理連續(xù)的,你應該盡量減少對它的updaet,應為這可以使它物理不連續(xù)。
6、非簇索引
非簇索引與物理順序無關,設計它時必須有高度的可選擇性,可以提高查詢速度,但對表update的時候這些非簇索引會影響速度,且占用空間大,如果你愿意用空間和修改時間換取速度可以考慮。
7、索引視圖
如果在視圖上建立索引,那視圖的結果集就會被存儲起來,對與特定的查詢性能可以提高很多,但同樣對update語句時它也會嚴重減低性能,一般用在數據相對穩(wěn)定的數據倉庫中。
8、維護索引
你在將索引建好后,定期維護是很重要的,用dbcc showcontig來觀察頁密度、掃描密度等等,及時用dbcc indexdefrag來整理表或視圖的索引,在必要的時候用dbcc dbreindex來重建索引可以受到良好的效果。
不論你是用幾個表1、2、3點都可以提高一定的性能,5、6、8點你是必須做的,至于4、7點看你的需求。
表格的應用 由于工作原因,經常接觸到表格。
我們發(fā)現,表格不但廣泛的運用在各類數據收集和分析,同時通過表格這樣一種二維矩陣來整理和陳列信息時(即便最后的展示方式并非一個典型的表格樣式),能夠很好的表達信息之間的邏輯關系,易于幫助理解橫縱信息之間的關系。在實際的網頁設計應用中,表格橫縱相互獨立又相互關聯的模式尤其適用于:1.組織和展示大量的信息 表格簡單的結構不但能包含大量的信息,且同時保證信息的可讀性,便于讀者快速掃描信息、從大量的條目中找到所需的信息。
2.展示對比性信息 通過合理的布局,表格能清晰的展示出同類對比信息,便于讀者分辨不同條目信息之間的關聯和區(qū)別,從而關注到關鍵、問題條目??偟膩碚f,一個構造清晰的表格布局,將大大提升讀者對信息的接收速度和理解程度。
例如下圖中蘋果官網對不同型號mac book的信息陳列方式,就采用了表格的結構,清晰的展示了4款不同的macbook,及各自的性能、售價等屬性,同時讀者第一眼就可以掃描到并理解表格結構,橫向是4款macbook的排列,縱向分別列出了各自的屬性,然后進一步就可以根據自己的興趣點就4款macbook的不同屬性進行對比,信息完整且便于掃描。如上所述,表格常用來展示大量的、對比性的信息,因此提高表格的可讀性、便于用戶快速掃描,是表格設計的關鍵。
本文僅就筆者閱讀過的幾篇關于表格設計的文章結合工作中的一些拙見,整理成文,分享如下。表格的要素 研究如何提高表格可讀性之前,我們先簡要闡述下表格的組成要素,這里我們暫且這么總結:表格 = 標題 + 表頭 + 行標簽 + 單元格數據(信息),如下圖 表格標題是對表格整體的描述,應包含表格數據的來源及屬性,使讀者對表格內容有所認識,例如數據收集的日期、地區(qū)及其表格數據的其他屬性。
行標簽和列標簽(表頭) 是對本行/本列數據的描述,可以理解為是表格的骨架,是用戶快速掃描并接收表格布局的關鍵要素。單元格數據(單元格信息)這里就不在多說,是表格的主體內容。
提高表格可讀性的一些技巧 1. 根據表格的用途,設計表格的布局 如下圖,兩張表格中所包含的數據完全相同,是關于10座山峰的高度和人類登頂年份數據。不同的是他們的成列方式:表1a根據山峰的高度排序陳列,而表1b則根據人類登頂山峰的年份排序陳列,一眼之下,這兩張表無設計優(yōu)劣高下之分,決定使用兩站表中的哪一張的根據是這組數據的用途,如果這張表是用于向讀者展示世界上的TOP 10山峰,則山峰的高度則是重點信息,a表的展示方式會更加合適;反之,如果這張表意在展示10大高峰中,哪座山峰是人類最先登頂的,人類先后登頂的時間順序是讀者的主要興趣點,則表b就更加適用。
2. 減少讀者計算 其實類似上一點,表格的指標也不是永遠固定的,而是從讀者閱讀表格的目的出發(fā),調整所需展示的指標。在原始數據的基礎上給出差值、總計等分析性的數據,可以直達用戶閱讀的目標,而盡量減少用戶心算或者線下處理的過程。
例如下圖展示了2010年與2009年兩年的公司財政報表,查看兩年的具體數據當然必要,但深入分析,讀者之所以要并列查看兩年的數據,目的在于對比兩年的數據變化,因此將指標變化情況列出能幫助用戶更快的達成目標。3.精簡指標,創(chuàng)造信息層級 盡量減少或壓縮指標數量,避免出現用戶不需要的數據,默認只展示用戶所必須的信息,用戶需要的非重點輔助信息可以通過提供深入細節(jié)的入口(彈窗、下拉)等形式來解決,僅在用戶需要時進行提供。
創(chuàng)造信息層級,避免無主次的鋪出所有信息,干擾用戶快速掃描定位目標條目。例如易迅的“我的訂單”列表中,就將用戶的信息、訂單狀態(tài)跟蹤信息進行了默認隱藏,同時通過鏈接色很好的提示了進一步細節(jié)信息的入口,在用戶需要時,可以方便的查閱。
4.不留空白單元格 當表格單元格中沒有相應數據時,要避免直接留出空白單元格??瞻讍卧袢菀自斐勺x者的困惑甚至誤解,讀者會搞不清楚到底是沒有數據,還是根本沒有值?正確做法,沒有數據的顯示0,給沒有值的單元格劃線或者打叉。
如下圖:5.斑馬條的運用 橫向或縱向的斑馬線以及懸停高亮底色能夠很好的引導用戶的視線,避免在閱讀時出現錯行、迷失的情況:斑馬線會使得行與行的界限更為分明,尤其對數據列較多時的橫向引導得到加強,這樣看行內的內容時不容易錯行,而懸停變色行主要是配合操作交互,明確區(qū)分出光標所在的行。6.高亮重點信息,提高閱讀速度 通過合理的使用icon、背景色等視覺元素高亮重點信息,能夠提高用戶的閱讀速度,幫助讀者更快定位重點信息,例如下表中利用紅綠的上下箭頭很好的向用戶表達了年度財務的變化情況。
7.對齊,便于用戶快速瀏覽 對比的數據如果有了明確的對齊方式,會大大提升數據的瀏覽效率,增加對比的效果。通常,我們將數據右對齊,便于對比:通過數字位數的長短即可對比數字的量級和大??;文字左對齊,符合人們閱讀從左到右的習慣;而對一些固定長度的狀態(tài)文字(如已完成,待支付等)采用居中對齊,使這些狀態(tài)文字更突出。
像下面的圖中,如果數據居中對齊沒。
數據分析的三個常用方法:
1. 數據趨勢分析
趨勢分析一般而言,適用于產品核心指標的長期跟蹤,比如,點擊率,GMV,活躍用戶數等。做出簡單的數據趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數據的變化,以及對變化原因進行分析。
趨勢分析,最好的產出是比值。在趨勢分析的時候需要明確幾個概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統(tǒng)計數據與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會有些季節(jié)性差異。為了消除季節(jié)差異,于是有了同比的概念,例如2019年2月份和2018年2月份進行比較。定基比更好理解,就是和某個基點進行比較,比如2018年1月作為基點,定基比則為2019年2月和2018年1月進行比較。
比如:2019年2月份某APP月活躍用戶數我2000萬,相比1月份,環(huán)比增加2%,相比去年2月份,同比增長20%。趨勢分析另一個核心目的則是對趨勢做出解釋,對于趨勢線中明顯的拐點,發(fā)生了什么事情要給出合理的解釋,無論是外部原因還是內部原因。
2. 數據對比分析
數據的趨勢變化獨立的看,其實很多情況下并不能說明問題,比如如果一個企業(yè)盈利增長10%,我們并無法判斷這個企業(yè)的好壞,如果這個企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長,則5%很多,如果行業(yè)其他企業(yè)增長平均為50%,則這是一個很差的數據。
對比分析,就是給孤立的數據一個合理的參考系,否則孤立的數據毫無意義。在此我向大家推薦一個大數據技術交流圈: 658558542 突破技術瓶頸,提升思維能力 。
一般而言,對比的數據是數據的基本面,比如行業(yè)的情況,全站的情況等。有的時候,在產品迭代測試的時候,為了增加說服力,會人為的設置對比的基準。也就是A/B test。
比較試驗最關鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁改版的效果,就需要保持A/B兩組用戶質量保持相同,上線時間保持相同,來源渠道相同等。只有這樣才能得到比較有說服力的數據。
3. 數據細分分析
在得到一些初步結論的時候,需要進一步地細拆,因為在一些綜合指標的使用過程中,會抹殺一些關鍵的數據細節(jié),而指標本身的變化,也需要分析變化產生的原因。這里的細分一定要進行多維度的細拆。常見的拆分方法包括:
分時 :不同時間短數據是否有變化。
分渠道 :不同來源的流量或者產品是否有變化。
分用戶 :新注冊用戶和老用戶相比是否有差異,高等級用戶和低等級用戶相比是否有差異。
分地區(qū) :不同地區(qū)的數據是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產生,可以分拆不同的店鋪。
細分分析是一個非常重要的手段,多問一些為什么,才是得到結論的關鍵,而一步一步拆分,就是在不斷問為什么的過程。
統(tǒng)計數據的搜集方法:
在實際調查中,搜集數據的具體方法主要有訪問調查、郵寄調查、電話調查、座談會、個別深度訪問、網上調查。
1、訪問調查:
訪問調查又稱派員調查,它是調查者與被調查者通過面對面地交談從而得到所需資料的調查方法。
2、郵寄調查:
郵寄調查是通過郵寄或其他方式將調查問卷送至被調查者,由被調查者填寫,然后將問卷寄回或投放到指定收集點的一種調查方法。
3、電話調查:
電話調查是調查人員利用電話通受訪者進行語言交流,從而獲得信息的一種調查方式。電話調查優(yōu)點是時效快、費用低;不足是調查問題的數量不能過多。
4、座談會:
座談會也稱為集體訪談法,它是將一組受訪者集中在調查現場,讓他們對調查的主題發(fā)表意見,從而獲取調查資料的一種方法。這種方法適用于搜集與研究課題有密切關系的少數人員的傾向和意見。
5、個別深度訪問:
個別深度訪問是一次只有一名受訪者參加的特殊的定性研究。常用于動機研究,以發(fā)掘受訪者非表面化的深層次意見。這種方法最適宜于研究較隱秘的問題,如個人隱私;較敏感的問題等。
6、網上調查:
網上調查主要有E-mail、交互式CATI系統(tǒng)、互聯網CGI程序三種方法。
拓展資料:
統(tǒng)計數據搜集的組織形式:
統(tǒng)計數據搜集的組織形式有普查、抽樣調查、統(tǒng)計報表、重點調查、典型調查等。
1、普查:
普查是為了某種特定的目的而專門組織的一次性的全面調查,用以搜集重要國情國力和資源狀況的全面資料,為政府制定規(guī)劃、方針政策提供依據。
2、抽樣調查:
抽樣調查是實際應用中最廣泛的一種調查方法,他是從調查對象的總體中隨機抽取一部分單位座位樣本進行調查,并根據樣本調查結果來推斷總體數量特征的一種非全面調查方法。
3、統(tǒng)計報表:
統(tǒng)計報表是一種以全面調查為主的調查方式,它是由政府主管部門根據統(tǒng)計法規(guī),以統(tǒng)計表格形式和行政手段自上而下布置,而后由企、事業(yè)單位自下而上層層匯總上報逐級提供基本統(tǒng)計數據的一種調查方式
4、重點調查:
重點調查是專門組織的一種非全面調查,它是在總體中選擇個別的或部分重點單位進行調查,以了解總體的基本情況。
5、典型調查:
典型調查也是專門組織的一種非全面調查,它是根據調查研究的目的和要求,在對總體進行全面分析的基礎上,有意識的選擇其中有代表性的典型單位進行深入細致的調查,借以認識事物的本質特征、因果關系和發(fā)展變化規(guī)律。
一、掌握基礎、更新知識。
基本技術怎么強調都不過分。這里的術更多是(計算機、統(tǒng)計知識), 多年做數據分析、數據挖掘的經歷來看、以及業(yè)界朋友的交流來看,這點大家深有感觸的。
數據庫查詢—SQL 數據分析師在計算機的層面的技能要求較低,主要是會SQL,因為這里解決一個數據提取的問題。有機會可以去逛逛一些專業(yè)的數據論壇,學習一些SQL技巧、新的函數,對你工作效率的提高是很有幫助的。
統(tǒng)計知識與數據挖掘 你要掌握基礎的、成熟的數據建模方法、數據挖掘方法。例如:多元統(tǒng)計:回歸分析、因子分析、離散等,數據挖掘中的:決策樹、聚類、關聯規(guī)則、神經網絡等。
但是還是應該關注一些博客、論壇中大家對于最新方法的介紹,或者是對老方法的新運用,不斷更新自己知識,才能跟上時代,也許你工作中根本不會用到,但是未來呢?行業(yè)知識 如果數據不結合具體的行業(yè)、業(yè)務知識,數據就是一堆數字,不代表任何東西。是冷冰冰,是不會產生任何價值的,數據驅動營銷、提高科學決策一切都是空的。
一名數據分析師,一定要對所在行業(yè)知識、業(yè)務知識有深入的了解。例如:看到某個數據,你首先必須要知道,這個數據的統(tǒng)計口徑是什么?是如何取出來的?這個數據在這個行業(yè), 在相應的業(yè)務是在哪個環(huán)節(jié)是產生的?數值的代表業(yè)務發(fā)生了什么(背景是什么)?對于A部門來說,本月新會員有10萬,10萬好還是不好呢?先問問上面的這個問題:對于A部門,1、新會員的統(tǒng)計口徑是什么。
第一次在使用A部門的產品的會員?還是在站在公司角度上說,第一次在公司發(fā)展業(yè)務接觸的會員?2、是如何統(tǒng)計出來的。A:時間;是通過創(chuàng)建時間,還是業(yè)務完成時間。
B:業(yè)務場景。是只要與業(yè)務發(fā)接觸,例如下了單,還是要業(yè)務完成后,到成功支付。
3、這個數據是在哪個環(huán)節(jié)統(tǒng)計出來。在注冊環(huán)節(jié),在下單環(huán)節(jié),在成功支付環(huán)節(jié)。
4、這個數據代表著什么。10萬高嗎?與歷史相同比較?是否做了營銷活動?這個行業(yè)處理行業(yè)生命同期哪個階段?在前面二點,更多要求你能按業(yè)務邏輯,來進行數據的提取(更多是寫SQL代碼從數據庫取出數據)。
后面二點,更重要是對業(yè)務了解,更行業(yè)知識了解,你才能進行相應的數據解讀,才能讓數據產生真正的價值,不是嗎?對于新進入數據行業(yè)或者剛進入數據行業(yè)的朋友來說:行業(yè)知識都重要,也許你看到很多的數據行業(yè)的同仁,在微博或者寫文章說,數據分析思想、行業(yè)知識、業(yè)務知識很重要。我非常同意。
因為作為數據分析師,在發(fā)表任何觀點的時候,都不要忘記你居于的背景是什么?但大家一定不要忘記了一些基本的技術,不要把基礎去忘記了,如果一名數據分析師不會寫SQL,那麻煩就大了。哈哈。
你只有把數據先取對了,才能正確的分析,否則一切都是錯誤了,甚至會導致致命的結論。
新同學,還是好好花時間把基礎技能學好。因為基礎技能你可以在短期內快速提高,但是在行業(yè)、業(yè)務知識的是一點一滴的積累起來的,有時候是急不來的,這更需要花時間慢慢去沉淀下來。
不要過于追求很高級、高深的統(tǒng)計方法,我提倡有空還是要多去學習基本的統(tǒng)計學知識,從而提高工作效率,達到事半功倍。以我經驗來說,我負責任告訴新進的同學,永遠不要忘記基本知識、基本技能的學習。
二、要有三心。1、細心。
2、耐心。3、靜心。
數據分析師其實是一個細活,特別是在前文提到的例子中的前面二點。而且在數據分析過程中,是一個不斷循環(huán)迭代的過程,所以一定在耐心,不怕麻煩,能靜下心來不斷去修改自己的分析思路。
三、形成自己結構化的思維。數據分析師一定要嚴謹。
而嚴謹一定要很強的結構化思維,如何提高結構化思維,也許只需要工作隊中不斷的實踐。但是我推薦你用mindmanagement,首先把你的整個思路整理出來,然后根據分析不斷深入、得到的信息不斷增加的情況下去完善你的結構,慢慢你會形成一套自己的思想。
當然有空的時候去看看《麥肯錫思維》、結構化邏輯思維訓練的書也不錯。在我以為多看看你身邊更資深同事的報告,多問問他們是怎么去考慮這個問題的,別人的思想是怎么樣的?他是怎么構建整個分析體系的。
四、業(yè)務、行業(yè)、商業(yè)知識。當你掌握好前面的基本知識和一些技巧性東西的時候,你應該在業(yè)務、行業(yè)、商業(yè)知識的學習與積累上了。
這個放在最后,不是不重要,而且非常重要,如果前面三點是決定你能否進入這個行業(yè),那么這則是你進入這個行業(yè)后,能否成功的最根本的因素。 數據與具體行業(yè)知識的關系,比作池塘中魚與水的關系一點都不過分,數據(魚)離開了行業(yè)、業(yè)務背景(水)是死的,是不可能是“活”。
而沒有“魚”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高業(yè)務知識,特別是沒有相關背景的同學。
很簡單,我總結了幾點:1、多向業(yè)務部門的同事請教,多溝通。多向他們請教,數據分析師與業(yè)務部門沒有利益沖突,而更向是共生體,所以如果你態(tài)度好,相信業(yè)務部門的同事也很愿意把他們知道的告訴你。
2、永遠不要忘記了google大神,定制一些行業(yè)的關鍵字,每天都先看看定制的郵件。3、每天有空去瀏。

聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.365秒