[YARN-6403] Invalid local resource request can raise NPE and make NM exit - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: 2.8.0
Fix Version/s: 2.9.0, 3.0.0-alpha4, 2.8.2
Component/s: nodemanager
Labels:
None

Target Version/s:

2.8.1
Hadoop Flags:

Reviewed

Description

Recently we found this problem on our testing environment. The app that caused this problem added a invalid local resource request(have no location) into ContainerLaunchContext like this:

    localResources.put("test", LocalResource.newInstance(location,
        LocalResourceType.FILE, LocalResourceVisibility.PRIVATE, 100,
        System.currentTimeMillis()));
    ContainerLaunchContext amContainer =
        ContainerLaunchContext.newInstance(localResources, environment,
          vargsFinal, null, securityTokens, acls);

The actual value of location was null although app doesn't expect that. This mistake cause several NMs exited with the NPE below and can't restart until the nm recovery dirs were deleted.

FATAL org.apache.hadoop.yarn.event.AsyncDispatcher: Error in dispatcher thread
java.lang.NullPointerException
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.LocalResourceRequest.<init>(LocalResourceRequest.java:46)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.container.ContainerImpl$RequestResourcesTransition.transition(ContainerImpl.java:711)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.container.ContainerImpl$RequestResourcesTransition.transition(ContainerImpl.java:660)
        at org.apache.hadoop.yarn.state.StateMachineFactory$MultipleInternalArc.doTransition(StateMachineFactory.java:385)
        at org.apache.hadoop.yarn.state.StateMachineFactory.doTransition(StateMachineFactory.java:302)
        at org.apache.hadoop.yarn.state.StateMachineFactory.access$300(StateMachineFactory.java:46)
        at org.apache.hadoop.yarn.state.StateMachineFactory$InternalStateMachine.doTransition(StateMachineFactory.java:448)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.container.ContainerImpl.handle(ContainerImpl.java:1320)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.container.ContainerImpl.handle(ContainerImpl.java:88)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl$ContainerEventDispatcher.handle(ContainerManagerImpl.java:1293)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl$ContainerEventDispatcher.handle(ContainerManagerImpl.java:1286)
        at org.apache.hadoop.yarn.event.AsyncDispatcher.dispatch(AsyncDispatcher.java:184)
        at org.apache.hadoop.yarn.event.AsyncDispatcher$1.run(AsyncDispatcher.java:110)
        at java.lang.Thread.run(Thread.java:745)

NPE occured when created LocalResourceRequest instance for invalid resource request.

  public LocalResourceRequest(LocalResource resource)
      throws URISyntaxException {
    this(resource.getResource().toPath(),  //NPE occurred here
        resource.getTimestamp(),
        resource.getType(),
        resource.getVisibility(),
        resource.getPattern());
  }

We can't guarantee the validity of local resource request now, but we could avoid damaging the cluster. Perhaps we can verify the resource both in ContainerLaunchContext and LocalResourceRequest? Please feel free to give your suggestions.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

YARN-6403.branch-2.8.004.patch
04/Apr/17 03:29
11 kB
Tao Yang
YARN-6403.branch-2.8.004.patch
04/Apr/17 22:57
11 kB
Jason Darrell Lowe
YARN-6403.branch-2.8.003.patch
31/Mar/17 07:23
8 kB
Tao Yang
YARN-6403.004.patch
04/Apr/17 03:29
10 kB
Tao Yang
YARN-6403.002.patch
30/Mar/17 04:11
7 kB
Tao Yang
YARN-6403.001.patch
29/Mar/17 12:01
3 kB
Tao Yang

Issue Links

is related to

YARN-6837 Null LocalResource visibility or resource type can crash the nodemanager

Resolved

Activity

People

Assignee:: Tao Yang

Reporter:: Tao Yang

Votes:: 0 Vote for this issue

Watchers:: 7 Start watching this issue

Dates

Created:: 28/Mar/17 11:26

Updated:: 18/Jul/17 14:59

Resolved:: 05/Apr/17 17:38