[HDFS-14527] Stop all DataNodes may result in NN terminate - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 3.3.0, 3.1.4, 3.2.2
Component/s: namenode
Labels:
None

Hadoop Flags:

Reviewed

Description

If we stop all datanodes of cluster, BlockPlacementPolicyDefault#chooseTarget may get ArithmeticException when calling #getMaxNodesPerRack, which throws the runtime exception out to BlockManager's ReplicationMonitor thread and then terminate the NN.
The root cause is that BlockPlacementPolicyDefault#chooseTarget not hold the global lock, and if all DataNodes are dead between clusterMap.getNumberOfLeaves() and getMaxNodesPerRack then it meet ArithmeticException while invoke getMaxNodesPerRack.

  private DatanodeStorageInfo[] chooseTarget(int numOfReplicas,
                                    Node writer,
                                    List<DatanodeStorageInfo> chosenStorage,
                                    boolean returnChosenNodes,
                                    Set<Node> excludedNodes,
                                    long blocksize,
                                    final BlockStoragePolicy storagePolicy,
                                    EnumSet<AddBlockFlag> addBlockFlags,
                                    EnumMap<StorageType, Integer> sTypes) {
    if (numOfReplicas == 0 || clusterMap.getNumOfLeaves()==0) {
      return DatanodeStorageInfo.EMPTY_ARRAY;
    }
    ......
    int[] result = getMaxNodesPerRack(chosenStorage.size(), numOfReplicas);
    ......
}

Some detailed log show as following.

2019-05-31 12:29:21,803 ERROR org.apache.hadoop.hdfs.server.blockmanagement.BlockManager: ReplicationMonitor thread received Runtime exception. 
java.lang.ArithmeticException: / by zero
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.getMaxNodesPerRack(BlockPlacementPolicyDefault.java:282)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseTarget(BlockPlacementPolicyDefault.java:228)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseTarget(BlockPlacementPolicyDefault.java:132)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationWork.chooseTargets(BlockManager.java:4533)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationWork.access$1800(BlockManager.java:4493)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeReplicationWorkForBlocks(BlockManager.java:1954)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeReplicationWork(BlockManager.java:1830)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.computeDatanodeWork(BlockManager.java:4453)
        at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$ReplicationMonitor.run(BlockManager.java:4388)
        at java.lang.Thread.run(Thread.java:745)
2019-05-31 12:29:21,805 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1

To be honest, this is not serious bug and not reprod easily, since if we stop all Datanodes and only keep NameNode lives, HDFS could be not offer service normally and we could only retrieve directory. It may be one corner case.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HDFS-14527.001.patch
31/May/19 08:42
1 kB
Xiaoqiao He
HDFS-14527.002.patch
03/Jun/19 14:07
7 kB
Xiaoqiao He
HDFS-14527.003.patch
04/Jun/19 15:12
7 kB
Xiaoqiao He
HDFS-14527.004.patch
04/Jun/19 19:00
7 kB
Xiaoqiao He
HDFS-14527.005.patch
05/Jun/19 03:43
7 kB
Xiaoqiao He

Activity

People

Assignee:: Xiaoqiao He

Reporter:: Xiaoqiao He

Votes:: 0 Vote for this issue

Watchers:: 6 Start watching this issue

Dates

Created:: 31/May/19 08:06

Updated:: 04/Oct/19 00:57

Resolved:: 06/Jun/19 17:20