[HDFS-7060] Avoid taking locks when sending heartbeats from the DataNode - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Improvement
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 3.0.0, 3.1.0
Component/s: None
Labels:

Hadoop Flags:

Reviewed

Description

We're seeing the heartbeat is blocked by the monitor of FsDatasetImpl when the DN is under heavy load of writes:

   java.lang.Thread.State: BLOCKED (on object monitor)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsVolumeImpl.getDfsUsed(FsVolumeImpl.java:115)
        - waiting to lock <0x0000000780304fb8> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.getStorageReports(FsDatasetImpl.java:91)
        - locked <0x0000000780612fd8> (a java.lang.Object)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.sendHeartBeat(BPServiceActor.java:563)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.offerService(BPServiceActor.java:668)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:827)
        at java.lang.Thread.run(Thread.java:744)

   java.lang.Thread.State: BLOCKED (on object monitor)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createRbw(FsDatasetImpl.java:743)
        - waiting to lock <0x0000000780304fb8> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createRbw(FsDatasetImpl.java:60)
        at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.<init>(BlockReceiver.java:169)
        at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:621)
        at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:124)
        at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:71)
        at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:232)
        at java.lang.Thread.run(Thread.java:744)

   java.lang.Thread.State: RUNNABLE
        at java.io.UnixFileSystem.createFileExclusively(Native Method)
        at java.io.File.createNewFile(File.java:1006)
        at org.apache.hadoop.hdfs.server.datanode.DatanodeUtil.createTmpFile(DatanodeUtil.java:59)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.BlockPoolSlice.createRbwFile(BlockPoolSlice.java:244)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsVolumeImpl.createRbwFile(FsVolumeImpl.java:195)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createRbw(FsDatasetImpl.java:753)
        - locked <0x0000000780304fb8> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createRbw(FsDatasetImpl.java:60)
        at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.<init>(BlockReceiver.java:169)
        at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:621)
        at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:124)
        at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:71)
        at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:232)
        at java.lang.Thread.run(Thread.java:744)

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HDFS-7060.000.patch
12/Sep/14 21:36
4 kB
Haohui Mai
HDFS-7060.001.patch
16/Mar/15 10:17
5 kB
Xinwei Qin
HDFS-7060-002.patch
29/Mar/15 17:08
4 kB
Brahma Reddy Battula
complete_failed_qps.png
27/Oct/17 06:37
42 kB
Jiandan Yang
sendHeartbeat.png
27/Oct/17 06:37
87 kB
Jiandan Yang
HDFS-7060.003.patch
30/Oct/17 02:57
6 kB
Jiandan Yang
HDFS-7060.004.patch
06/Nov/17 13:30
6 kB
Weiwei Yang
HDFS-7060.005.patch
07/Nov/17 01:47
6 kB
Weiwei Yang
HDFS Status Post Patch.png
08/Nov/17 01:55
72 kB
Weiwei Yang

Issue Links

is related to

HDFS-7999 FsDatasetImpl#createTemporary sometimes holds the FSDatasetImpl lock for a very long time

Closed

HDFS-9239 DataNode Lifeline Protocol: an alternative protocol for reporting DataNode liveness

Resolved

HDFS-15046 Backport HDFS-7060 to branch-2.10

Resolved

HDFS-9668 Optimize the locking in FsDatasetImpl

Patch Available

Activity

People

Assignee:: Jiandan Yang

Reporter:: Haohui Mai

Votes:: 0 Vote for this issue

Watchers:: 36 Start watching this issue

Dates

Created:: 12/Sep/14 21:05

Updated:: 03/Mar/22 03:35

Resolved:: 08/Nov/17 02:29