HBase Bulk Load

概述

BulkLoad是一种高效写入HBase的方式，适用于将数据批量迁移到HBase。

BulkLoad使用MapReduce作业直接生成HBase的StoreFile，并将生成的StoreFile直接装载入正在运行的HBase集群。较之使用HBase的API，使用BulkLoad耗费的CPU和网络资源都相对较少。

因为BulkLoad绕过了正常写数据的路径（WAL、MemStore、flush），尤其是WAL，通过WAL进行的Cluster Replication就不会处理BulkLoad装载的数据。这很像是调用HBase API时使用了Put.setDurability(SKIP_WAL)。一个解决方式是将原始文件或HFile移到Replication集群上再做其他处理。《Bulk Loaded HFile Replication》对这个问题做了讨论。

步骤

Bulk Load分成两步完成。

通过MapReduce作业准备数据

BulkLoad的第一步是在MapReduce作业中使用HFileOutputFormat2类生成HBase数据文件（StoreFile）。

为了使最终生成的每个HFile都能对应一个Region，需要在MapReduce作业中使用TotalOrderPartitioner类对map的输出结果进行partition，使之与Region的RowKey范围达到一致。幸运的是HFileOutputFormat2类的configureIncrementalLoad()已经做了这个工作，它会根据HBase表中现有的Region边界自动配置TotalOrderPartitioner。

载入数据到HBase集群

在准备好数据文件后，可以在命令行中使用completebulkload工具完成BulkLoad，命令如下：

$ hadoop jar hbase-server-VERSION.jar completebulkload [-c /path/to/hbase/config/hbase-site.xml] /path/to/prepared/data/ tableName

也可以直接调用LoadIncrementalHFiles实例的doBulkLoad方法完成BulkLoad，：

Connection connection = ConnectionFactory.createConnection(conf);
HTable table = (HTable) connection.getTable(tableName);
LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);  
loader.doBulkLoad(new Path(outputPath), table);

doBulkLoad方法也是completebulkload工具最终调用的方法。不同的是completebulkload工具会检查要写入的表是否存在，不存在的话会主动创建该表。直接调用doBulkLoad方法则需要手动做这些事情。

doBulkLoad方法会遍历MapReduce作业生成的每个数据文件，并决定将其分配给哪一个Region，随后联系接收数据的HRegionServer，将数据移动到HRegionServer上的存储目录，都做完后再通知client数据可用了。

如果在准备数据的时候或者是在装载数据到HBase集群的过程中，Region的边界发生了变化，LoadIncrementalHFiles会自动对数据文件进行split，并发送split后的文件到不同的Region。但是这样会影响导入数据的效率，尤其是在还有其他客户端同时写数据的时候。在执行BulkLoad的时候应当尽量避免这种情况发生。

###########

概述

步骤

通过MapReduce作业准备数据

载入数据到HBase集群

发表评论取消回复

其他操作

HBase Bulk Load

概述

步骤

通过MapReduce作业准备数据

载入数据到HBase集群

发表评论 取消回复

其他操作

标签云

发表评论取消回复