[MAPREDUCE-3272] Lost NMs fail to rejoin - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Resolved
Priority: Critical
Resolution: Duplicate
Affects Version/s: 0.23.0
Fix Version/s: 0.23.1
Component/s: mrv2
Labels:
None

Target Version/s:

0.23.1

Description

Lost nodemanagers fail to join back.

When the NM is lost, RM log reads

INFO org.apache.hadoop.yarn.util.AbstractLivelinessMonitor: Expired:<host:port> Timed out after 600 secs
INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: Processing <host:port> of type EXPIRE
INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: Removed Node <host:port>
INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: <host:port> Node Transitioned from RUNNING to LOST

When the NM joins back, RM log reads

INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService: Node not found rebooting <host:port>

Attachments

Issue Links

relates to

MAPREDUCE-3034 NM should act on a REBOOT command from RM

Resolved

Activity

People

Assignee:: Jonathan Turner Eagles

Reporter:: Ramya Sunil

Votes:: 0 Vote for this issue

Watchers:: 2 Start watching this issue

Dates

Created:: 25/Oct/11 23:47

Updated:: 08/Dec/11 00:39

Resolved:: 30/Nov/11 20:38