HBase系列（七）二级索引

最新推荐文章于 2024-07-13 00:13:31 发布

原创

最新推荐文章于 2024-07-13 00:13:31 发布 · 1.3k 阅读

·

0

·

本文探讨了为何HBase需要二级索引，详细解释了二级索引的原理，包括基于Coprocessor的Phoenix方案和非Coprocessor方案如ES方案。二级索引通过建立列值与行键映射，提升非rowkey字段查询效率，同时介绍了设计二级索引的考虑因素和优化策略。

HBase二级索引

为何需要HBase索引？
二级索与原理是什么？
如何设计二级索引？

为何需要HBase索引？

HBase里面只有rowkey作为一级索引，如果要对库里的非rowkey字段进行数据检索和查询，往往要通过MapReduce/Spark等分布式计算框架进行，硬件资源消耗和时间延迟都会比较高。

为了HBase的数据查询更高效、适应更多的场景，诸如使用非rowkey字段检索也能做到秒级响应，或者支持各个字段进行模糊查询和多字段组合查询等，因此需要在HBase上面构建二级索引，以满足现实中更复杂多样的业务需求。

二级索与原理是什么？

在这里插入图片描述
二级索引的本质就是建立各列值与行键之间的映射关系

如(图1)，当要对F:C1这列建立索引时，只需要建立F:C1各列值到其对应行键的映射关系，如C11->RK1等，这样就完成了对F:C1列值的二级索引的构建，当要查询符合F:C1=C11对应的F:C2的列值时（即根据C1=C11来查询C2的值,图1青色部分）
其查询步骤如下：

根据C1=C11到索引数据中查找其对应的RK，查询得到其对应的RK=RK1
得到RK1后就自然能根据RK1来查询C2的值了这是构建二级索引大概思路，其他组合查询的联合索引的建立也类似。

在这里插入图片描述 (图2) 部分数据在HBase中存储的逻辑视图
表中有两个列族，其中一个是列族INDEX，其并不存储任何的数据，仅仅是为了将索引数据与主数据分开存储（因为在HBase中同一列族的数据会被压缩在一起存储），索引数据的行键格式为：RegionStartKey-索引名-索引键-Rowkwy,其他RegionSt

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。