[YARN-1336] [Umbrella] Work-preserving nodemanager restart - ASF JIRA

XML

Word

Printable

JSON

This serves as an umbrella ticket for tasks related to work-preserving nodemanager restart.

causes

YARN-8012 Support Unmanaged Container Cleanup

is depended upon by

YARN-666 [Umbrella] Support rolling upgrades in YARN

is related to

MAPREDUCE-5891 Improved shuffle error handling across NM restarts

is required by

YARN-6704 Add support for work preserving NM restart when FederationInterceptor is enabled in AMRMProxyService

relates to

YARN-6127 Add support for work preserving NM restart when AMRMProxy is enabled

MAPREDUCE-5652 NM Recovery. ShuffleHandler should handle NM restarts

YARN-1593 support out-of-proc AuxiliaryServices

YARN-7368 Yarn Work-Preserving Better Handling Failed Disk

(3 relates to)

1.	Recover containers upon nodemanager restart	Closed	Jason Darrell Lowe
2.	Recover localized resource cache state upon nodemanager restart	Closed	Jason Darrell Lowe
3.	Recover DeletionService state upon nodemanager restart	Closed	Jason Darrell Lowe
4.	Recover NMTokens upon nodemanager restart	Closed	Jason Darrell Lowe
5.	Recover container tokens upon nodemanager restart	Closed	Jason Darrell Lowe
6.	Recover LogAggregationService upon nodemanager restart	Resolved	Jason Darrell Lowe
7.	Recover applications upon nodemanager restart	Closed	Jason Darrell Lowe
8.	Recover application ACLs upon nodemanager restart	Resolved	Jason Darrell Lowe
9.	Distinguish between nodemanager shutdown for decommission vs shutdown for restart	Closed	Jason Darrell Lowe
10.	NM Recovery. Auxiliary service support.	Closed	Jason Darrell Lowe
11.	Recover information about finished containers	Resolved	Unassigned
12.	Recover NonAggregatingLogHandler state upon nodemanager restart	Closed	Jason Darrell Lowe
13.	Metrics recovery for nodemanager restart	Open	Unassigned
14.	Distinguish shutdown during supervision vs. shutdown for rolling upgrade	Resolved	Jason Darrell Lowe
15.	NM restart: Container recovery for Windows	In Progress	Yuqi Wang
16.	NM restart: cgroup is not removed for reacquired containers	Closed	Jason Darrell Lowe
17.	Document NM Restart feature	Closed	Junping Du
18.	Recover appTokenKeepAliveMap upon nodemanager restart	Resolved	Unassigned