本文共 1901 字,大约阅读时间需要 6 分钟。
为什么要写这本书
大数据是继云计算、物联网之后IT行业又一次颠覆性的技术革命。大数据在互联网、军事、金融、通信和物理学等领域已经有不少落地案例,而Hadoop技术的快速发展也引起业界广泛关注。可以说,现在Hadoop是大数据处理的关键技术,也是迄今为止,最成熟、应用最广泛的技术。HBase原型是Google的BigTable论文,从基因上讲,HBase已经是Hadoop生态系统不可或缺的一部分。HBase是完全开源的,同时存在多个版本,并且版本升级非常快,其学习成本比较高,学习周期比较长,所以现在大部分公司的工作人员很难在短时间内快速掌握并使用HBase框架。此外,现在有关HBase的中文学习资料非常少,也给研发人员的学习带来了很大的难度。尽管现在市面上已经有几本关于HBase的中文书,但是,这几本书都是翻译作品,语言的组织不符合国人的习惯,并且实例讲解部分也不能切合本土国情。还有,这几本书分别侧重了某一个方面,如理论、实战、运维等,还没有一本书能够非常系统地阐述HBase框架。本书正是为了解决以上各种问题而编写的,也是国内第一本系统讲解HBase理论、实战和运维调优的书籍。本书以HBase 0.94为基础,不仅深入探讨了HBase的原理架构和数据模型,更重要的是通过实际案例教会读者如何运用HBase框架来设计、搭建及运行大数据应用系统,同时结合生产案例剖析HBase系统运维和性能调优的技巧。读者对象本书适合以下读者阅读。(1)云计算、大数据处理技术和NoSQL数据库爱好者“大数据”无疑是继“云计算”之后IT业界最热门的词汇。而云计算、大数据、NoSQL技术本身存在交集,现在不少研究云计算的公司或机构都开始涉猎大数据和NoSQL领域,本书讲解的HBase数据库是NoSQL的一种,同时是大数据处理的关键技术,本书可以帮助这部分读者快速且全面地了解HBase的原理、架构、使用场景和细节知识点,理解HBase在云计算、大数据和NoSQL中的位置。(2)对Hadoop及HBase感兴趣的开发人员Hadoop技术在近几年非常热,它已经是大数据处理的关键技术,而HBase作为Hadoop生态系统的重要组件,已经被越来越多的公司使用。本书详细介绍了HBase与Hadoop的关系、HBase的基本概念、核心知识点和高级特性,并且结合实战案例讲解,使得读者可以快速掌握HBase的使用。(3)使用HBase进行数据库开发或运维的高级DBAHBase作为NoSQL数据库的一种,被越来越多的企业应用用作底层存储或者中间存储。本书不但讲解了HBase的原理和架构,更重要的是详细介绍了HBase的使用方法、运维监控和系统调优方法,能够帮助该部分读者快速掌握大型分布式数据库的安装、运维和调优技巧。(4)开源软件爱好者HBase作为Apache基金会的顶级优秀开源项目,其实现过程中吸收了很多开源领域的优秀思想,同时也值得我们深入研究和学习。本书在讲解过程中剖析了不少HBase源代码,可以帮助该部分读者了解和掌握HBase框架源代码的设计方法和技巧。(5)开设相关课程的高等院校学生现在越来越多的高等院校已经开设了大数据方向的学生培养课程。在这些课程中,Hadoop生态系统技术是核心课程,本书详细介绍Hadoop生态系统重要组件——HBase,这部分读者可以将本书作为参考教材使用。前 言
第一部分 基础篇
1.1.1 什么是大数据 1.1.2 为何大数据至关重要 1.1.3 NoSQL在大数据中扮演的角色 1.2.1 HBase的发展历史 1.2.2 HBase的发行版本 1.2.3 HBase的特性 1.4.1 客户端Client 1.4.2 协调服务组件ZooKeeper 1.4.3 主节点HMaster 1.4.4 Region节点HRegionServer 1.5.1 搜索引擎应用 1.5.2 增量数据存储 1.5.3 用户内容服务 1.5.4 实时消息系统构建 2.2.1 单机模式 2.2.2 分布式模式 3.1.1 逻辑模型 3.1.2 物理模型 3.2.1 表 3.2.2 行键 3.2.3 列族 3.2.4 单元格 3.3.1 读Get 3.3.2 写Put 3.3.3 扫描Scan 3.3.4 删除Delete 3.4.1 版本 3.4.2 排序 3.4.3 列的元数据 3.4.4 连接查询 3.4.5 计数器 3.4.6 原子操作 3.4.7 事务特性ACID 3.4.8 行锁 3.4.9 自动分区转载地址:http://ewcox.baihongyu.com/