kafka0.9 Consumer poll()方法阻塞

最近项目中用到了Kafka0.9，在使用0.9的Consumer API的时候遇到了poll()方法阻塞的问题。程序没有报任何错误，只是持续在poll()方法处阻塞。深入poll()方法可以看到是在AbstractCoordinator.ensureCoordinatorKnown()方法中出现了死循环。在循环中不停地输出如下DEBUG日志：

DEBUG main org.apache.kafka.clients.consumer.internals.AbstractCoordinator - Issuing group metadata request to broker 2

DEBUG main org.apache.kafka.clients.consumer.internals.AbstractCoordinator - Group metadata response ClientResponse(receivedTimeMs=1495335769027, disconnected=false, request=ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@5c3bd550, request=RequestSend(header={api_key=10,api_version=0,correlation_id=90,client_id=consumer-1}, body={group_id=stats_consume_group}), createdTimeMs=1495335768924, sendTimeMs=1495335768924), responseBody={error_code=15,coordinator={node_id=-1,host=,port=-1}})

DEBUG main org.apache.kafka.clients.NetworkClient - Sending metadata request ClientRequest(expectResponse=true, callback=null, request=RequestSend(header={api_key=3,api_version=0,correlation_id=91,client_id=consumer-1}, body={topics=[statistic_test]}), isInitiatedByNetworkClient, createdTimeMs=1495335769027, sendTimeMs=0) to node 2

DEBUG main org.apache.kafka.clients.Metadata - Updated cluster metadata version 47 to Cluster(nodes = [Node(0, kafka-node, 9092), Node(2, sz-pg-adtracking-bigdisk-003, 9092), Node(1, sz-pg-adtracking-bigdisk-002, 9092)], partitions = [Partition(topic = statistic_test, partition = 1, leader = 2, replicas = [2,1,], isr = [1,2,], Partition(topic = statistic_test, partition = 2, leader = 0, replicas = [0,2,], isr = [0,2,], Partition(topic = statistic_test, partition = 0, leader = 1, replicas = [1,0,], isr = [0,1,], Partition(topic = statistic_test, partition = 5, leader = 0, replicas = [0,1,], isr = [0,1,], Partition(topic = statistic_test, partition = 6, leader = 1, replicas = [1,0,], isr = [0,1,], Partition(topic = statistic_test, partition = 3, leader = 1, replicas = [1,2,], isr = [1,2,], Partition(topic = statistic_test, partition = 4, leader = 2, replicas = [2,0,], isr = [0,2,], Partition(topic = statistic_test, partition = 7, leader = 2, replicas = [2,1,], isr = [1,2,], Partition(topic = statistic_test, partition = 8, leader = 0, replicas = [0,2,], isr = [0,2,]])

需要关注的是这处信息：

1	error_code=15,coordinator={node_id=-1,host=,port=-1}

看样子是kafka的连接出了问题。不过我的Producer向kafka写数据是没问题的，使用kafka提供的消费工具kafka-console-consumer.sh执行消费也是没问题的。

在网上找到了一些关于这个现象的解释：在客户端进行消费之前会为ConsumerGroup向Kafka集群申请coordinater节点。kafka集群在配置或分配coordinater节点的时候可能会短暂的报这个错误。

我这里不是短暂的报错，而是陷入了死循环。目前可以想到的就是我的kafka集群配置出现问题了。在简单粗暴地将zookeeper上kafka的配置完全删掉再重启Kafka后，消费可以正常执行了。至于问题具体出在哪儿还没有找到。目前只能是持续关注，等问题再次出现了。

就这样。

还有一点，在查询解决方案的过程中看到：如果kafka是部署在Docker上，出现了这样的问题需要检查有没有配置环境变量ADVERTISE.HOST.NAME和ADVERTISE.HOST.PORT。

######

已有6条评论发表评论

DL / 2017年5月23日上午10:17

您好，我也碰到了这个问题，按照您的方法我解决了，我想问一下，你这个debug的日志是怎么出来的。我在intellij中debug，但是没有你那个日志。

回复
1. robin / 本文作者2017年6月10日下午1:07
  
  配置的log4j
  
  回复
zz / 2017年9月18日下午1:47

楼主解决了嘛我也遇到了。。。

回复
1. robin / 本文作者2017年9月30日上午6:59
  
  没有。因为是测试环境，干脆重新部署了一遍，这样就恢复了。后来复盘时，想到曾经在kafka-manager中误删除了一个非常重要的topic，恩，就是__consumer_offsets，应该是这个问题导致的
  
  回复
  1. solo / 2018年1月14日上午10:43
    
    可能并不是这个问题,因为我没做这个操作
    我也是三个broker集群,broker0,broker1,broker2
    只要杀掉broker0 就出现帖子里的问题,跟踪代码和你的错误一模一样
    但是单杀broker1或broker2 并不会出现在这个问题
    
    回复
ylisoftware / 2018年3月27日下午7:07

遇到相同问题已经解决；产看kafka对应服务器时间没有同步。设定好校时器后重新校时后正常

回复

kafka0.9 Consumer poll()方法阻塞

springboot入门14 – Kafka应用

Kafka java.net.SocketTimeoutExceptio...

Kafka报错：Error reading field ‘t...

Kafka警告：No checkpointed highwatermar...

Kafka报错：connection reset by peer

已有6条评论发表评论

发表评论取消回复

我的专题

友情链接

其他操作

kafka0.9 Consumer poll()方法阻塞

springboot入门14 – Kafka应用

Kafka java.net.SocketTimeoutExceptio...

Kafka报错：Error reading field ‘t...

Kafka警告：No checkpointed highwatermar...

Kafka报错：connection reset by peer

已有6条评论 发表评论

发表评论 取消回复

我的专题

友情链接

其他操作

标签云

已有6条评论发表评论

发表评论取消回复