xxxx欧美丰满大屁股/性欧美极品xxxx欧美一区二区/男插女的下面免费视频夜色/美女视频在线一区二区三区

歡迎光臨本店     登錄 注冊   加入收藏
  •   
歡迎光臨清華大學出版社第三事業部!

此頁面上的內容需要較新版本的 Adobe Flash Player。

獲取 Adobe Flash Player

當前位置: 首頁 > 科技 > 計算機與網絡 > 數據挖掘和機器學習 > 大數據:從基礎理論到最佳實踐

瀏覽歷史

大數據:從基礎理論到最佳實踐

大數據:從基礎理論到最佳實踐

prev next

  • 商品貨號:20170502006
  • 商品重量:0克
    作者:祁偉
    出版社:清華大學出版社
    圖書書號/ISBN:9787302457435
    出版日期:20170101
    開本:16開
    圖書頁數:344
    圖書裝訂:平裝
    版次:1
    印張:21.5
    字數:499000
    所屬分類:TP274
  • 上架時間:2017-05-02
    商品點擊數:1619
  • 定價:¥59.80元
    本店售價:¥59.80元
    注冊用戶:¥59.80元
    vip:¥56.81元
    黃金等級:¥53.82元
    用戶評價: comment rank 5
  • 商品總價:
  • 購買數量:

內容簡介:

商品附加資源

 內容簡介

本書側重于大數據的實踐性技術,系統地介紹了主流大數據平臺及工具的安裝部署、管理維護和應用開發。平臺和工具的選擇均為當前業界主流的開源產品,因此,對于讀者來說,有很強的可操作性。

本書涉及的開源技術包括:HDFSMapReduceYARNZookeeperHBaseHiveSqoopStormKafkaFlume等。除介紹一般性的背景知識、安裝部署、管理維護和應用開發技術外,還特別注重案例實踐,重要的技術點以實際工作場景或案例為依托,使讀者能快速入門,參考案例動手實踐,通過具體深入的實踐,體會大數據的技術本質特征,領略大數據技術帶來的創新理念,更好地理解和把握信息技術的發展趨勢。

本書主要內容包括以下幾大部分。

大數據存儲篇:以HDFS為基礎,介紹分布式文件系統的原理、安裝、fs命令的使用、編程,介紹如何用HDFS實現,并通過HTTP調用。

大數據計算篇:以MapReduceYARN為基礎,介紹分布式計算的原理、部署,以及編程案例。

非關系型數據庫篇:以HBase為基礎,重點介紹非關系型數據庫的優勢、原理、部署,以及命令行使用,編程案例,與Sqoop配合使用等。

大數據倉庫篇:以Hive、數據倉庫等為基礎,重點介紹數據的抽取、原理、部署、分析與編程。

大數據實時計算篇:以StormKafka為基礎,介紹實時計算的架構、組成、使用與開發。

本書非常適合從事大數據技術開發與使用的初學者,以及從事大數據技術研發的企事業單位工程師學習和參考,也適合高校計算機相關專業的專科生、本科生和研究生學習使用。

 

前    言

  技術革命的浪潮推動著人類文明的發展。

  第一次浪潮造就了農業革命,它在數千年前出現并持續了數千年;第二次浪潮造就了工業革命,它在數百年前出現并持續了數百年;我們今天正在經歷著信息技術第三次浪潮,發端于數十年前,目前也只是處在初級階段。

  農業技術革命釋放了"物之力";工業技術革命釋放了"能之力",而今天的信息技術革命釋放的是"智之力"。

  距今400年前,培根在《偉大的復興》中預言:知識就是力量。今天,人類終于迎來"知識經濟時代",它是人類社會經濟增長方式與經濟發展的全新模式。

  人類認識物質世界、人類社會和精神世界的最高境界是智慧,而要達智慧的境界,必然要跨越數據、信息、知識三個層級。

  數據作為基礎,是信息之母、知識之初、智慧之源。正是今天的大數據技術,引燃了人們實現智慧城市、智慧醫療、智慧教育等有關人工智慧的激情。人們真切地認識到,對于人工智能,只要讓數據發生質變,即使是簡單的數據,也比復雜的算法更有效。

  今天,移動互聯網的發展,使我們在獲取數據上有了質的飛躍,人類的各種社會活動都與互聯網這個虛擬世界相聯系,使全樣本、全過程地有效測量和記錄成為可能,構建了生成大數據生態的土壤,同時,人們還在期待和憧憬物聯網帶來更大的沖擊。

  另一方面,云計算發展到今天,不論從技術到產業都開始進入成熟期,這也是大數據發展的基石和推進器。

  在今天這個時代中,運用大數據洞見事物蘊藏的"智慧"成為人們的渴望。大數據更新了人們對數據的認識。在技術層面,小數據時代的很多數據處理方法和工具已不再有效,需要一系列新的方法和工具。所幸,有大量平民化的開源軟件可用,它們不需要特殊的硬件系統,也更適用于云計算環境。

  本書正是一本介紹主流的大數據開源軟件平臺和工具的技術專著,側重于大數據的實踐性技術,幫助讀者快速入門,通過具體深入的實踐,體會大數據的技術本質特征,領略大數據技術帶來的創新理念,更好地理解和把握信息技術的發展趨勢。

本書定位

  (1) 信息發展已步入大數據時代,當前對于大數據還缺乏面向公眾的技術實踐手冊。

  (2) 本書的創作團隊有豐富的大數據規劃、開發、運營等經驗,多位作者成功地架構了教育部、科技部、互聯網等大數據架構與分析項目。

  (3) 本書的參與者均是部委信息一線工程師、著名外企架構師、國內企業資深高級工程師,所做的理論分析易于學習,實踐具有可操作性。

  (4) 本書重點介紹大數據的基礎理論、關鍵技術,以及編程實踐。利用本書,就可以完全搭建并能有效地管理好大數據平臺。

 

本書特色

  (1) 理念先進:均是國內外最新的大數據理念;方便讀者全面了解國內外大數據研究與發展的情況。

  (2) 技術領先:參與者均是國內IT人士;采用的平臺均是業界主流開源平臺,涉及大數據常用的HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka等技術的介紹與編程使用。

  (3) 案例豐富:提供翔實的實例與解決方法,供項目中參考。

  (4) 資源齊備:本書涉及的配套下載資源可以從清華大學出版社的網站中下載。

全書關鍵字

  大數據、分布式計算、數據倉庫、數據分析、HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka。

  由于編者的水平有限,書中難免有疏漏和錯誤,希望業內專家和廣大讀者指正。

   

 

  編  者  

目    錄

  
大數據存儲篇
 
第1章  概述 1
1.1  什么是大數據 2
1.2  大數據的技術轉型 3
1.3  數據分片 4
1.4  數據一致性 5
1.4.1  CAP原則 5
1.4.2  CAP與ACID 7
1.4.3  BASE原則 8
1.5  主流大數據技術 8
1.6  大數據職業方向 10
1.7  大數據實踐平臺的搭建 10
1.7.1  初學者模式 10
1.7.2  物理集群模式 11
1.7.3  虛擬化集群模式 11
1.8  小結 12
第2章  HDFS文件系統 13
2.1 HDFS概述 14
2.1.1 分布式文件系統 14
2.1.2  HDFS介紹 16
2.2 HDFS的運行機制 18
2.2.1  HDFS的結構與組成 18
2.2.2  HDFS的數據操作 20
2.2.3  訪問權限 22
2.2.4  通信協議簇 23
2.2.5  HDFS的高可用性 24
2.2.6  集中緩存管理 25
2.2.7  日志和檢查點 26
2.2.8  HDFS快照 28
2.3 HDFS的數據存儲 29
2.3.1 數據完整性 29
2.3.2 數據壓縮 30
2.3.3 序列化 32
2.4 HDFS的安裝和配置 34
2.4.1 Hadoop的安裝 34
2.4.2  HDFS的配置 40
2.4.3  啟動HDFS 45
2.5 小結 47
第3章  HDFS操作實踐 49
3.1 HDFS接口與編程 50
3.1.1  Shell命令 50
3.1.2  Java接口操作 62
3.1.3  WebHDFS 69
3.1.4  其他接口 71
3.2 操作實踐 73
3.2.1 文件操作 73
3.2.2 壓縮與解壓縮 77
3.3 小結 80
 
大數據計算篇
 
第4章  YARN 81
4.1  YARN概述 82
4.2  YARN的主要組成模塊 83
4.3  YARN的整體設計 83
4.4  容量調度器 84
4.4.1  什么是容量調度器 84
4.4.2  容量調度器的特性 85
4.4.3  配置RM使用容量調度器 85
4.5  公平調度器(Fair Scheduler) 86
4.5.1  什么是公平調度器 86
 
4.5.2  分級隊列 87
4.5.3  公平調度器隊列的設置 87
4.6  資源管理者(RM)重啟機制 90
4.6.1  什么是資源管理器重啟 90
4.6.2  非工作保存RM重啟 90
4.6.3  工作保存RM重啟 91
4.6.4  RM重啟配置yarn-site.xml 91
4.7  資源管理器的高可用性(RM HA) 92
4.7.1  什么是資源管理器的
高可用性 92
4.7.2  自動故障轉移 92
4.7.3  客戶端/應用管理器/節點
管理器的故障轉移 92
4.7.4  部署RM HA 93
4.7.5  配置例子 94
4.7.6  管理員命令 95
4.8  節點標簽 95
4.8.1  節點標簽的特點 95
4.8.2  節點標簽的屬性 95
4.8.3  節點標簽的配置 96
4.8.4  使用節點標簽的調度器配置 96
4.8.5  節點標簽配置示例 97
4.8.6  指定應用的節點標簽 97
4.8.7  節點標簽的監控 98
4.9  YARN編程 98
4.9.1  什么是YARN級別編程 98
4.9.2  YARN的相關接口 99
4.9.3  編程實踐 99
4.10  YARN服務注冊 107
4.10.1  為什么需要服務注冊 107
4.10.2  配置服務注冊 107
4.10.3  安全選項 108
4.11  小結 108
第5章  MapReduce 109
5.1  MapReduce概述 110
5.1.1  Hadoop MapReduce 110
5.1.2  MapReduce的發展史 110
5.1.3  MapReduce的使用場景 111
5.2 Key-Value結構的特點 111
5.2.1  key的設計 111
5.2.2  value的設計 112
5.3  MapReduce的部署 112
5.3.1  軟件準備 112
5.3.2  配置文件 113
5.3.3  啟動YARN守護進程 113
5.4  MapReduce的程序結構 113
5.4.1  MR框架的輸入和輸出 114
5.4.2  WordCount 114
5.5  MapReduce的編程接口 116
5.5.1  Mapper接口 117
5.5.2  Reducer接口 117
5.5.3  Partitioner(分區) 118
5.5.4  Counter(計數器) 118
5.5.5  job工作機理 118
5.5.6  任務提交和監控(Job 
Submission and Monitoring) 121
5.5.7  任務的輔助文件(Task
 Side-Effect Files) 123
5.5.8  提交作業到隊列 123
5.5.9  MR中的計數器(Counters) 123
5.5.10  Profiling 123
5.5.11  Debugging 124
5.5.12  job Outputs 124
5.5.13  忽略壞記錄(Skipping 
Bad Records) 124
5.6  MapReduce的命令行 125
5.6.1  概述 125
5.6.2  用戶命令(User Commands) 125
5.6.3  管理員命令(Administration 
Commands) 127
5.6.4  YARN-MapReduce的部署 128
5.7  WordCount的實現 129
5.8  小結 136
 
 
非關系型數據庫篇
 
第6章  使用HBase 137
6.1  HBase基礎 138
6.1.1  HBase是什么 138
6.1.2  HBase偽分布式部署 140
6.1.3  服務的啟動與驗證 142
6.1.4  HBase Shell測試 142
6.1.5  Web測試 144
6.1.6  服務的關閉 147
6.2  HBase的架構原理 147
6.2.1  組成架構 147
6.2.2  數據模型 151
6.2.3  物理存儲 153
6.3  HBase的命令實踐 156
6.3.1  概述 157
6.3.2  命名空間 158
6.3.3  表管理 160
6.4  HBase的數據管理 166
6.4.1  數據的添加 167
6.4.2  數據的追加 168
6.4.3  數據的獲取 169
6.4.4  數據統計 172
6.4.5  表的掃描 173
6.4.6  數據的刪除 175
6.4.7  表的重建 175
6.5  HBase的集群管理 177
6.5.1  集群部署 177
6.5.2  自動化腳本 180
6.5.3  權限管理 182
6.5.4  集群調度 184
6.5.5  日志分析 186
6.6  小結 187
第7章  HBase編程開發 189
7.1  HBase的編程接口 190
7.1.1  rest編程接口 190
7.1.2  thrift接口 196
7.1.3  Java API接口 198
7.1.4  Java API示例 199
7.2  表與命名空間的編程 202
7.2.1  表的查看 203
7.2.2  表的創建 206
7.2.3  表的刪除 207
7.2.4  表的修改 208
7.2.5  命名空間 210
7.3  數據編程 213
7.3.1  數據的增加 214
7.3.2  單行查詢 216
7.3.3  集合查詢 217
7.3.4  過濾器 219
7.3.5  數據刪除 221
7.4  集群與優化編程 222
7.4.1  集群管理 222
7.4.2  集群監測 224
7.4.3  多表與表池 227
7.4.4  批處理 230
7.4.5  數據遷移 231
7.5  小結 234
 
大數據倉庫篇
 
第8章  數據倉庫概論 235
8.1  初識數據倉庫 236
8.1.1  什么是數據倉庫 236
8.1.2  數據倉庫與數據庫 237
8.1.3  為什么要有數據倉庫 239
8.2  數據倉庫的核心概念 240
8.2.1  數據平臺 240
8.2.2  數據產品 241
8.2.3  商務智能(BI) 242
8.2.4  元數據 242
8.2.5  OLAP 242
8.2.6  ETL 243
8.2.7  數據質量 243
8.3  數據倉庫中的數據內容劃分 243
8.3.1  多個數據倉庫 243
8.3.2  典型的數據倉庫分層 245
8.3.3  數據集市 246
8.4  OLAP 247
8.4.1  定義 247
8.4.2  維度建模 248
8.4.3  事實表 250
8.4.4  維度表 251
8.5  ETL 251
8.5.1  抽取 252
8.5.2  轉換 252
8.5.3  加載 254
8.5.4  ETL元數據 255
8.5.5  ETL工具 256
8.6  調度和運行 256
8.6.1  調度怎么工作 257
8.6.2  需要考慮的其他方面 258
8.6.3  簡易調度示例 259
8.7  數據倉庫的架構 259
8.8  數據倉庫的展望 260
8.8.1  數據倉庫發展的階段性 260
8.8.2  未來的數據倉庫 262
8.9  小結 262
第9章  Hive 263
9.1  初識Hive 264
9.1.1  Hive是什么 264
9.1.2  Hive的部署 264
9.1.3  以MySQL作為Hive的
元數據庫 266
9.1.4  Hive的體系結構 268
9.1.5  Web界面展示 269
9.2  Hive命令行接口 270
9.2.1  啟動Hive命令行 270
9.2.2  可用的命令 271
9.3  Hive數據類型與常見的結構 271
9.3.1  數據類型 271
9.3.2  文件的存儲結構 273
9.4  HiveSQL 274
9.4.1  數據定義語言DDL 274
9.4.2  數據操縱語言DML 277
9.5  Hive的自定義函數 283
9.5.1  UDF 284
9.5.2  UDAF 286
9.5.3  UDTF 289
9.6  Hive的高級使用 292
9.6.1  視圖 292
9.6.2  索引 293
9.6.3  權限 294
9.6.4  Thrift服務 296
9.7  使用Hive構建數據倉庫 298
9.7.1  原始數據和結構 298
9.7.2  數據需求和模型設計 300
9.7.3  各層次數據的生成 301
9.8  小結 302
 
大數據實時計算篇
 
第10章  Storm實時系統 303
10.1  大數據實時系統概述 304
10.2  Kafka分布式消息系統 305
10.2.1  Kafka是什么 305
10.2.2  主題的工作原理 306
10.2.3  分布式分區 307
10.2.4  生產者、消費者 307
10.2.5  數據保證 308
10.2.6  Kafka系統的應用場景 308
10.2.7  Kafka系統的部署 309
10.3  Storm實時處理系統 316
10.3.1  概述 316
10.3.2  為什么使用Storm 316
10.3.3  Storm系統的特點 317
10.3.4  Storm系統的工作機制 318
10.3.5  Storm的分組方法 319
10.3.6  Storm系統的組件 320
10.3.7  搭建單點Storm系統 320
10.3.8  查看Storm UI 322
10.3.9  搭建Storm集群 322
10.3.10  Storm系統的操作實踐 323
10.3.11  Storm WordCount
(寫RDB) 324
10.3.12  Storm WordCount(從Kafka
讀取數據) 329
10.4  小結 331
參考文獻 332
 

商品標簽

購買記錄(近期成交數量0)

還沒有人購買過此商品
總計 0 個記錄,共 1 頁。 第一頁 上一頁 下一頁 最末頁

用戶評論(共0條評論)

  • 暫時還沒有任何用戶評論
總計 0 個記錄,共 1 頁。 第一頁 上一頁 下一頁 最末頁
用戶名: 匿名用戶
E-mail:
評價等級:
評論內容:
驗證碼: captcha