統(tǒng)計學(xué):《赤裸裸的統(tǒng)計學(xué)》、《深入淺出統(tǒng)計學(xué)》數(shù)學(xué):《高等數(shù)學(xué)》、《概率論及其應(yīng)用》、《線性代數(shù)及其應(yīng)用》等Linux操作系統(tǒng):《Linux 新手終極指南》、《Linux 基礎(chǔ)》、《Linux 命令行》Java:《Effective Java》、《Java8實戰(zhàn)》、《Java高并發(fā)編程實戰(zhàn)》大數(shù)據(jù)Hadoop體系:《Big Data》、《Hadoop權(quán)威指南》、《Hive編程指南》Scala黃金語言和Spark:《Learning Spark》、《Spark機器學(xué)習(xí):核心技術(shù)與實踐》。
1.《大數(shù)據(jù)分析:點“數(shù)”成金》
該書向讀者介紹怎樣將大數(shù)據(jù)分析應(yīng)用于各行各業(yè)。在中,你將了解到如何對數(shù)據(jù)進行挖掘,怎樣從數(shù)據(jù)中揭示趨勢并轉(zhuǎn)化為競爭策略及攫取價值的方法。這些更有意思也更有效的方法能夠提升企業(yè)的智能化水平,將有助于企業(yè)解決實際問題,提升利潤空間,提高生產(chǎn)率并發(fā)現(xiàn)更多的商業(yè)機會。
2、《大數(shù)據(jù)時代 》
《大數(shù)據(jù)時代》是國外大數(shù)據(jù)系統(tǒng)研究的先河之作,本書中前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,并用三個部分講述了大數(shù)據(jù)時代的思維變革、商業(yè)變革和管理變革?!洞髷?shù)據(jù)時代》認為大數(shù)據(jù)的核心就是預(yù)測。大數(shù)據(jù)將為人類的生活創(chuàng)造前所未有的可量化的維度。大數(shù)據(jù)已經(jīng)成為了新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)。書中展示了谷歌、微軟、IBM、蘋果、facebook、twitter、VISA等大數(shù)據(jù)先鋒們具價值的應(yīng)用案例。
3、《云端時代殺手級應(yīng)用:大數(shù)據(jù)分析》
《云端時代殺手級應(yīng)用:大數(shù)據(jù)分析》分什么是大數(shù)據(jù)、大數(shù)據(jù)大商機、技術(shù)與前瞻3個部分。第一部分介紹大數(shù)據(jù)分析的概念,以及企業(yè)、政府部門可應(yīng)用的范疇。什么是大數(shù)據(jù)分析?與個人與企業(yè)有什么關(guān)系?將對全球產(chǎn)業(yè)造成怎樣的沖擊?第二部分完整介紹大數(shù)據(jù)在各產(chǎn)業(yè)的應(yīng)用實況,為企業(yè)及政府部門提供應(yīng)用的方向。提供了全球各地的實際應(yīng)用案例,涵蓋零售、金融、政府部門、能源、制造、娛樂、醫(yī)療、電信等各個行業(yè),充分展現(xiàn)大數(shù)據(jù)分析產(chǎn)生的效益。第三部分則簡單介紹了大數(shù)據(jù)分析所需技術(shù)及未來發(fā)展趨勢,為讀者提供了應(yīng)用與研究的方向。
4、《大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》
《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》源自作者在斯坦福大學(xué)教授多年的“Web挖掘”課程材料,主要關(guān)注大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘的實際算法。書中分析了海量數(shù)據(jù)集數(shù)據(jù)挖掘常用的算法,介紹了目前Web應(yīng)用的許多重要話題。主要內(nèi)容包括:分布式文件系統(tǒng)以及Map-Reduce工具;相似性搜索;數(shù)據(jù)流處理以及針對易丟失數(shù)據(jù)等特殊情況的專用處理算法;搜索引擎技術(shù),如谷歌的PageRank;頻繁項集挖掘;大規(guī)模高維數(shù)據(jù)集的聚類算法;Web應(yīng)用中的關(guān)鍵問題:廣告管理和推薦系統(tǒng)。
大數(shù)據(jù)技術(shù)學(xué)習(xí)前的準備知識
(1)英語基礎(chǔ)
對于大數(shù)據(jù)技術(shù)文章,比較先進的是外文較多,必須要有一定的英語能力。
(2)統(tǒng)計學(xué)
主要是大數(shù)據(jù)分析、數(shù)據(jù)挖掘方向的工作需要??梢灾攸c學(xué)習(xí):
基本的統(tǒng)計量:均值、中位數(shù)、眾數(shù)、方差、標準差、百分位數(shù)等
概率分布:幾何分布、二項分布、泊松分布、正態(tài)分布等
總體和樣本:了解基本概念,抽樣的概念
置信區(qū)間與假設(shè)檢驗:如何進行驗證分析
相關(guān)性與回歸分析:一般數(shù)據(jù)分析的基本模型等等。
推薦書籍:
《赤裸裸的統(tǒng)計學(xué)》、《深入淺出統(tǒng)計學(xué)》
(3)數(shù)學(xué)
和數(shù)據(jù)打交道,數(shù)學(xué)知識是有很大幫助的,尤其是數(shù)據(jù)分析這個方向。需要的數(shù)學(xué)知識如下:
概率論與數(shù)理統(tǒng)計
線性代數(shù)
優(yōu)化理論:線性優(yōu)化、最優(yōu)化、凸優(yōu)化等
離散數(shù)學(xué)等
推薦學(xué)習(xí)資源:
《高等數(shù)學(xué)》、《概率論及其應(yīng)用》、《線性代數(shù)及其應(yīng)用》等
(4)計算機知識
網(wǎng)絡(luò)體系結(jié)構(gòu)
網(wǎng)絡(luò)協(xié)議
數(shù)據(jù)傳輸過程
網(wǎng)絡(luò)安全
多媒體數(shù)據(jù)傳輸?shù)?/p>
推薦書籍:
《計算機基礎(chǔ)知識入門》、《計算機組成原理》、《計算機系統(tǒng)》、《編譯原理》、《語言與計算機》
2、Linux操作系統(tǒng)
要了解操作系統(tǒng)體系結(jié)構(gòu)、任務(wù)調(diào)度、內(nèi)存管理、存儲管理、命令解釋、界面管理、文件管理等基本內(nèi)容。
Linux基礎(chǔ)
Linux系統(tǒng)管理
基礎(chǔ)網(wǎng)絡(luò)服務(wù)
系統(tǒng)管理進階及運維自動化工具
推薦學(xué)習(xí)資源:
Linux 基金會關(guān)于 Linux 的介紹、《Linux 介紹》、《Linux 新手終極指南》、《Linux 基礎(chǔ)》、《Linux 命令行》
3、JavaSE
Java經(jīng)過二十多年的發(fā)展,目前應(yīng)用十分廣泛,具有健全的生態(tài)體系,網(wǎng)絡(luò)上的學(xué)習(xí)資源很多,且相當一部分系統(tǒng)清楚。Java和大數(shù)據(jù)有直接的關(guān)系,學(xué)習(xí)大數(shù)據(jù)之前,需要先學(xué)習(xí)這門編程語言,尤其是大數(shù)據(jù)開發(fā)方向。
變量、循環(huán)、if等等;面向?qū)ο螅籌/O輸入和輸出(HDFS會用到);反射、泛型,MR查詢等
JavaSE書籍推薦:
《Java編程思想》、《Java核心技術(shù)卷一》、《Effective Java》、《深入理解Java虛擬機》、《Java8實戰(zhàn)》、《Java高并發(fā)編程實戰(zhàn)》
近兩年,大數(shù)據(jù)火了,所以跟風了解了一下
給你推薦《大數(shù)據(jù)時代——生活、工作與思維的大變革》,這一本算是大數(shù)據(jù)領(lǐng)域入門的不二選擇,從思維變革、商業(yè)變革、管理變革三個部分闡述大數(shù)據(jù)對生活、工作、思維的改變。
里面有很多案例,可讀性很強,重點是要了解大數(shù)據(jù),需要先了解大數(shù)據(jù)思維,它是一種很顛覆的思維方式,這本書里面講得比較清晰。
值得一提的是譯者周濤,有“最年輕的教授”之稱,是我國年輕有為的大數(shù)據(jù)專家,電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導(dǎo)師。也是商業(yè)大數(shù)據(jù)服務(wù)公司數(shù)聯(lián)銘品的首席科學(xué)家。
兩本: 《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》 涂子沛 《大數(shù)據(jù)時代:生活、工作與思維的大變革》 維克托?邁爾-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),肯尼思?庫克耶 (Kenneth Cukier) (作者),盛楊燕 (譯者),周濤 (譯者) 嫌少再加兩本: 《刪除:大數(shù)據(jù)取舍之道》 維克托?邁爾-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),袁杰 (譯者) 《爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維》 艾伯特?拉斯洛?巴拉巴西(Albert László Barabási) (作者),馬慧 (譯者)。
1、《Hadoop權(quán)威指南》
現(xiàn)在3.1版本剛剛發(fā)布,但官方并不推薦在生產(chǎn)環(huán)境使用。作為hadoop的入門書籍,從2.x版本開始也不失為良策。
本書從Hadoop的緣起開始,由淺入深,結(jié)合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。剛剛更新的版本中,相比之前的版本增加了介紹YARN , Parquet , Flume, Crunch , Spark的章節(jié),非常適合于Hadoop 初學(xué)者。
2、《Learning Spark》
《Spark 快速大數(shù)據(jù)分析》是一本為Spark 初學(xué)者準備的書,它沒有過多深入實現(xiàn)細節(jié),而是更多關(guān)注上層用戶的具體用法。不過,本書絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
3、《Spark機器學(xué)習(xí):核心技術(shù)與實踐》
以實踐方式助你掌握Spark機器學(xué)習(xí)技術(shù)。本書采用理論與大量實例相結(jié)合的方式幫助開發(fā)人員掌握使用Spark進行分析和實現(xiàn)機器學(xué)習(xí)算法。通過這些示例和Spark在各種企業(yè)級系統(tǒng)中的應(yīng)用,幫助讀者解鎖Spark機器學(xué)習(xí)算法的復(fù)雜性,通過數(shù)據(jù)分析產(chǎn)生有價值的數(shù)據(jù)洞察力。
初級階段:《大數(shù)據(jù)時代》
讀完這本書,要求你形成大數(shù)據(jù)的概念,對大數(shù)據(jù)有個全面的認識和了解。
中級階段:《失控》
用統(tǒng)計的方法,而不是因果的方法,預(yù)測未來,用統(tǒng)計的方法來對某些東西進行預(yù)測.
高級階段:《復(fù)雜性》
指明了一個無窮疊代,即 “關(guān)系的關(guān)系的……關(guān)系”,而智能將在這里涌現(xiàn),解決復(fù)雜性問題預(yù)測的關(guān)鍵很可能就在這里,這句話打開了一個非常廣闊的前景,將象宇宙一樣沒有窮盡。
高級階段(2):《量子物理史話》
停止爭論吧,上帝真的擲骰子!隨機性是世界的基石,當電子出現(xiàn)在這里時,它是一個隨機的過程,并不需要有誰給它加上難以忍受的條條框框?!y(tǒng)計規(guī)律則把微觀上的無法無天抹平成為宏觀上的井井有條?!浴读孔游锢硎吩挕?/p>
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:2.703秒