[HDFS-10320] Rack failures may result in NN terminate - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: 2.6.0
Fix Version/s: 2.8.0, 3.0.0-alpha1
Component/s: None
Labels:
- supportability

Target Version/s:

2.8.0

Description

If there're rack failures which end up leaving only 1 rack available, BlockPlacementPolicyDefault#chooseRandom may get InvalidTopologyException when calling NetworkTopology#chooseRandom, which then throws all the way out to BlockManager's ReplicationMonitor thread and terminate the NN.

Log:

2016-02-24 09:22:01,514  WARN org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy: Failed to place enough replicas, still in need of 1 to reach 3 (unavailableStorages=[], storagePolicy=BlockStoragePolicy{HOT:7, storageTypes=[DISK], creationFallbacks=[], replicationFallbacks=[ARCHIVE]}, newBlock=true) For more information, please enable DEBUG log level on org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy

2016-02-24 09:22:01,958  ERROR org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: ReplicationMonitor thread received Runtime exception. 
org.apache.hadoop.net.NetworkTopology$InvalidTopologyException: Failed to find datanode (scope="" excludedScope="/rack_a5").
	at org.apache.hadoop.net.NetworkTopology.chooseRandom(NetworkTopology.java:729)
	at org.apache.hadoop.net.NetworkTopology.chooseRandom(NetworkTopology.java:694)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseRandom(BlockPlacementPolicyDefault.java:635)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseRemoteRack(BlockPlacementPolicyDefault.java:580)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseTarget(BlockPlacementPolicyDefault.java:348)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseTarget(BlockPlacementPolicyDefault.java:214)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseTarget(BlockPlacementPolicyDefault.java:111)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationWork.chooseTargets(BlockManager.java:3746)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationWork.access$200(BlockManager.java:3711)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeReplicationWorkForBlocks(BlockManager.java:1400)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeReplicationWork(BlockManager.java:1306)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeDatanodeWork(BlockManager.java:3682)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationMonitor.run(BlockManager.java:3634)
	at java.lang.Thread.run(Thread.java:745)

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HDFS-10320.01.patch
20/Apr/16 23:33
2 kB
Xiao Chen
HDFS-10320.02.patch
26/Apr/16 07:02
4 kB
Xiao Chen
HDFS-10320.03.patch
02/May/16 20:42
21 kB
Xiao Chen
HDFS-10320.04.patch
04/May/16 07:35
22 kB
Xiao Chen
HDFS-10320.05.patch
04/May/16 16:25
22 kB
Xiao Chen
HDFS-10320.06.patch
04/May/16 19:08
22 kB
Xiao Chen

Issue Links

breaks

HADOOP-14369 NetworkTopology calls expensive toString() when logging

Resolved

HADOOP-15317 Improve NetworkTopology chooseRandom's loop

Resolved

supercedes

HDFS-4937 ReplicationMonitor can infinite-loop in BlockPlacementPolicyDefault#chooseRandom()

Closed

Activity

People

Assignee:: Xiao Chen

Reporter:: Xiao Chen

Votes:: 0 Vote for this issue

Watchers:: 15 Start watching this issue

Dates

Created:: 20/Apr/16 23:02

Updated:: 10/Aug/18 14:39

Resolved:: 05/May/16 00:09