糖尿病康复 > HBae找不到协处理器导致RegionServer全部挂掉

HBae找不到协处理器导致RegionServer全部挂掉

时间：2024-07-19 23:06:38

一、问题背景：

跟兄弟单位公用一个大数据集群，通过Dataspace结合Kerberos控制数据的访问，我们生产环境中用到的OLAP工具Kylin，在升级Kylin的过程中，由于删除了旧的协处理器，导致原来数据继续去寻找目标协处理器，找不到引起所有RegionServer退出，始终想不明白hbase有关协处理器的机制，于是查找资料才得以清楚。

一下内容为转载，原地址：/12129601/viewspace-1690668/ 主要用于个人收藏、备查。转载请注明原作者。

二、协处理的使用

1 加载协处理器

1.1 将协处理器上传到hdfs：

hadoop fs -mkdir /hbasenew/usercoprocesser

hadoop fs -ls /hbasenew/usercoprocesser

hadoop fs -rm /hbasenew/usercoprocesser/coprocessor.jar

hadoop fs -copyFromLocal /home/hbase/coprocessor.jar /hbasenew/usercoprocessor

1.2 将协处理器加载到表中：

1）先卸载协处理器：

disable 'ns_bigdata:tb_test_coprocesser'

alter 'ns_bigdata:tb_test_coprocesser',METHOD => 'table_att_unset',NAME =>'coprocessor$1'

enable 'ns_bigdata:tb_test_coprocesser'

2）再加载协处理器：

disable 'ns_bigdata:tb_test_coprocesser'

alter 'ns_bigdata:tb_test_coprocesser',METHOD => 'table_att','coprocessor' => '/hbasenew/usercoprocesser/coprocessor.jar|com.suning.hbase.coprocessor.service.HelloWorldEndPoin|1001|'

enable 'ns_bigdata:tb_test_coprocesser'

注意：在加载协处理器是我特意将协处理器中的类名少写一个字母t，以重现将集群regionserver搞挂的现象以及表的状态不一致的现象。

2 出现的问题

以上操作会导致如下两个问题：

2.1 将集群的region server搞挂掉

2.2 将加载协处理器的表的状态搞的不一致，一直处于enabling状态

对表做disable和enable操作均不可操作：

同时此表对应的regionserver上出现如下错误：

3 原因分析

3.1 关于协处理加载错误导致regionserver挂掉的原因分析

在hbase的源码中，参数：hbase.coprocessor.abortonerror的默认值是true：

public static final String ABORT_ON_ERROR_KEY = "hbase.coprocessor.abortonerror";