hbase查询优化Filter+Scan-CFANZ编程社区

Hbase Filter+Scan 查询效率问题

1.Scan

HBase常用的查看数据方式有scan和get，get是一种特殊的scan，get是scan的startrow和endrow等于同一个值的特殊情况。

hbase的rowkey是按照B+树的形式存放的，所以查找一个具体的rowkey速度是非常快的，所以查询数据的时候一般都会设置scan的startrow和endrow，这样可以缩小查找的范围，所以rowkey的设计在hbase里面是极为重要的。

可以这样讲，hbase里面的查询数据只有scan一种形式，就是在B+树里面查找rowkey，而scan就是对rowkey的一种顺序”扫”。

查看一下scan里面对rowkey的条件筛选，只有startrow和endrow这一组，所以可以理解为sql条件里面的”>”和”<”。

hbase的rowkey是按照顺序排列的，所以在设计rowkey的时候尽量将业务查询需要的字段设计到rowkey里面，这样在查询的时候对rowkey加上一定范围的限制。

2.Filter

除了对rowkey的scan外，HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。

filter并不能做到像rowkey那样快速定位到数据，他的作用仅仅是过滤，在scan的过程中对列族的某个字段进行一定条件的判断。

通常来讲，scan来定位查找的大概范围，fitler来过滤找到具体的值。

下面看看hbase里面都提供了哪些filter

众所周知，Hbase利用filter过滤器查询时候会进行全表扫描，查询效率低下，如果没有二级索引，在项目中很多情况需要利用filter,下面针对这种情况尝试了几种优化的方案，仅供参考，欢迎交流。

根据业务要求，作者需要根据时间范围搜索所需要的数据，所以作者设计的rowKey是以时间戳为起始字符串的。

正确尝试：
1.scan 设置开始行和结束行

= new Scan();
            scan.setStartRow("startRowKey".getBytes());
            scan.setStopRow("stopRowKey".getBytes());

结论：查询效率明显提升

2.查询的数量越小越好

总数据量越大，查询越耗时，所以为保证效率，开始行和结束行之间需要遍历的数据总量越少越好。

需要说明的是，在filter 中RowFilter设置开始行（前缀）和结束行（前缀）
并不能提升查询效率，因为还是全表扫描。

= new FilterList(FilterList.Operator.MUST_PASS_ALL);
        //开头大于等于starTm的行
      
         Filter starTime = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,
                   new BinaryPrefixComparator(DateUtil.formatDate(starTime, "yyyyMMddHHmmssSSS").getBytes()));
         filters.addFilter(starTime);
      

        //开头小于等于endTime的行
        
          Filter endTime = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,
                    new BinaryPrefixComparator(DateUtil.formatDate(endTime, "yyyyMMddHHmmssSSS").getBytes()));
          filters.addFilter(endTime);

结论：利用san+filter方式查询hbase时，一定要设置starRow 和stopRow