[YARN-149] [Umbrella] ResourceManager (RM) Fail-over - ASF JIRA

XML

Word

Printable

JSON

Details

Type: New Feature
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: None
Component/s: resourcemanager
Labels:
- patch

Target Version/s:

2.4.0

Description

This jira tracks work needed to be done to support one RM instance failing over to another RM instance so that we can have RM HA. Work includes leader election, transfer of control to leader and client re-direction to new leader.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

rm-ha-phase1-approach-draft1.pdf
07/Jul/13 21:30
165 kB
Karthik Kambatla
rm-ha-phase1-draft2.pdf
10/Jul/13 18:20
170 kB
Karthik Kambatla
YARN ResourceManager Automatic Failover-rev-07-21-13.pdf
22/Jul/13 06:22
207 kB
Bikas Saha
YARN ResourceManager Automatic Failover-rev-08-04-13.pdf
04/Aug/13 20:27
207 kB
Bikas Saha

Issue Links

duplicates

MAPREDUCE-225 Fault tolerant Hadoop Job Tracker

Resolved

is blocked by

YARN-1318 Promote AdminService to an Always-On service and merge in RMHAProtocolService

Closed

is part of

MAPREDUCE-279 Map-Reduce 2.0

Closed

is related to

HADOOP-9905 remove dependency of zookeeper for hadoop-client

Resolved

MAPREDUCE-2288 JT Availability

Resolved

YARN-128 [Umbrella] RM Restart Phase 1: State storage and non-work-preserving recovery

Resolved

YARN-556 [Umbrella] RM Restart phase 2 - Work preserving restart

Resolved

relates to

YARN-1305 RMHAProtocolService#serviceInit should handle HAUtil's IllegalArgumentException

Closed

YARN-1139 [Umbrella] Convert all RM components to Services

Open

YARN-1543 Stateless multiple resource manager

Open

YARN-1460 Revisit YARN client connection configs

Resolved

(2 is related to, 4 relates to)

Sub-Tasks

Separate out RM services into "Always On" and "Active"

Closed

Karthik Kambatla

Implement RMHAProtocolService

Closed

Karthik Kambatla

Test and verify ACL based ZKRMStateStore fencing for RM State Store

Resolved

Karthik Kambatla

Add FailoverProxyProvider like capability to RMProxy

Closed

Karthik Kambatla

Allow embedding leader election into the RM

Closed

Karthik Kambatla

Expose RM active/standby state to Web UI and REST API

Closed

Karthik Kambatla

Add admin support for HA operations

Closed

Karthik Kambatla

Revisit exception handling in ZKRMStateStore post RM HA

Resolved

Unassigned

Add shutdown support to non-service RM components

Open

Xuan Gong

10.

Support automatic failover using ZKFC

Open

Unassigned

11.

Add end-to-end tests for HA

Open

Xuan Gong

12.

Move init() of activeServices to ResourceManager#serviceStart()

Resolved

Karthik Kambatla

13.

Augment MiniYARNCluster to support HA mode

Closed

Karthik Kambatla

14.

Update HAServiceState to STOPPING on RM#stop()

Resolved

Karthik Kambatla

15.

ResourceManger.clusterTimeStamp should be reset when RM transitions to active

Resolved

Unassigned

16.

Verify RM HA works in secure clusters

Resolved

Unassigned

17.

Make improvements in ZKRMStateStore for fencing

Closed

Karthik Kambatla

18.

RM DT token service should have service addresses of both RMs

Closed

Karthik Kambatla

19.

Configuration to support multiple RMs

Closed

Karthik Kambatla

20.

RMHAProtocolService#serviceInit should handle HAUtil's IllegalArgumentException

Closed

Tsuyoshi Ozawa

21.

Promote AdminService to an Always-On service and merge in RMHAProtocolService

Closed

Karthik Kambatla

22.

Set HTTPS webapp address along with other RPC addresses in HAUtil

Closed

Karthik Kambatla

23.

Enabling HA should check Configuration contains multiple RMs

Closed

Xuan Gong

24.

RM should log using RMStore at startup time

Closed

Tsuyoshi Ozawa

25.

Handle RM fails over after getApplicationID() and before submitApplication().

Closed

Xuan Gong

26.

HA config shouldn't affect NodeManager RPC addresses

Closed

Karthik Kambatla

27.

RM services should depend on ConfigurationProvider during startup too

Closed

Xuan Gong

28.

Move internal services logic from AdminService to ResourceManager

Closed

Vinod Kumar Vavilapalli

29.

WebApplicationProxy should be always-on w.r.t HA even if it is embedded in the RM

Closed

Xuan Gong

30.

Enabling HA should verify the RM service addresses configurations have been set for every RM Ids defined in RM_HA_IDs

Closed

Xuan Gong

31.

Utility to benchmark ZKRMStateStore#loadState for ResourceManager-HA

Closed

Tsuyoshi Ozawa

32.

Mark appropriate protocol methods with the idempotent annotation or AtMostOnce annotation

Closed

Xuan Gong

33.

Use StandbyException instead of RMNotYetReadyException

Closed

Karthik Kambatla

34.

Web UI should redirect to active RM when HA is enabled.

Closed

Cindy Li

35.

Add an option to yarn rmadmin to clear the znode used by embedded elector

Open

Unassigned

36.

Add an easy way to turn on HA

Resolved

Karthik Kambatla

37.

Race between ServerRMProxy and ClientRMProxy setting RMProxy#INSTANCE

Closed

Karthik Kambatla

38.

ZK store should use a private password for root-node-acls

Closed

Karthik Kambatla

39.

RMDispatcher should be reset on transition to standby

Closed

Xuan Gong

40.

ActiveRMInfoProto fields should be optional

Closed

Karthik Kambatla

41.

Support explicit failover when automatic failover is enabled

Resolved

Karthik Kambatla

42.

HA-related rmadmin commands don't work on a secure cluster

Closed

Karthik Kambatla

43.

Make admin refresh of capacity scheduler configuration work across RM failover

Closed

Xuan Gong

44.

YARM RM HA requires different configs on different RM hosts

Closed

Xuan Gong

45.

Manual Failover does not work in secure clusters

Closed

Xuan Gong

46.

ZK store should attempt a write periodically to ensure it is still Active

Closed

Karthik Kambatla

47.

RMDTRenewer#getRMClient should use ClientRMProxy

Closed

Karthik Kambatla

48.

Webservice should redirect to active RM when HA is enabled.

Closed

Cindy Li

49.

add the ability to set yarn.resourcemanager.hostname.rm-id instead of setting all the various host:port properties for RM

Closed

Xuan Gong

50.

Set better defaults for HA configs for automatic failover

Closed

Xuan Gong

51.

Make admin refreshNodes work across RM failover

Closed

Xuan Gong

52.

Make admin refreshSuperUserGroupsConfiguration work across RM failover

Closed

Xuan Gong

53.

Make admin refreshAdminAcls work across RM failover

Closed

Xuan Gong

54.

Make admin refreshServiceAcls work across RM failover

Closed

Xuan Gong

55.

Make admin refreshUserToGroupsMappings of configuration work across RM failover

Closed

Xuan Gong

56.

Make admin refresh of Fair scheduler configuration work across RM failover

Open

Xuan Gong

57.

Cleanup YARN HAUtil class

Open

Vinod Kumar Vavilapalli

58.

Document RM HA

Closed

Tsuyoshi Ozawa

59.

Reset cluster-metrics on transition to standby

Closed

Rohith Sharma K S

60.

RM should get the updated Configurations when it transits from Standby to Active

Closed

Xuan Gong

61.

RMAdminCLI should check whether HA is enabled before executes transitionToActive/transitionToStandby

Closed

Xuan Gong

62.

Handle RM failovers during the submitApplication call.

Resolved

Xuan Gong

63.

Handle RM fail overs after the submitApplication call.

Closed

Xuan Gong

64.

Write test cases to verify that killApplication API works in RM HA

Closed

Xuan Gong

65.

When RM does the initiation, it should use loaded Configuration instead of bootstrap configuration.

Closed

Xuan Gong

66.

renewDelegationToken should survive RM failover

Closed

Zhijie Shen

67.

Handle AMRMTokens across RM failover

Closed

Jian He

68.

RM HA: AM link broken if the AM is on nodes other than RM

Closed

Robert Kanter

69.

Add retry cache support in ResourceManager

Resolved

Tsuyoshi Ozawa

70.

Persist ClusterMetrics across RM HA transitions

Open

Unassigned

71.

cancelDelegationToken should survive RM failover

Open

Zhijie Shen

72.

Both RM stuck in standby mode when automatic failover is enabled

Closed

Karthik Kambatla

73.

Document yarn.resourcemanager.zk-auth and its scope

Closed

Robert Kanter

74.

Implement and verify Scheduler#moveApplication() idempotent for CapacityScheduler/FairScheduler

Open

Xuan Gong

75.

Make ApplicationMasterProtocol#allocate AtMostOnce

Closed

Xuan Gong

76.

Add testcases to test AMRMToken on HA

Resolved

Xuan Gong

77.

Standby RM's conf, stacks, logLevel, metrics, jmx and logs links are redirecting to Active RM

Closed

Xuan Gong

78.

Yarn standby RM taking long to transition to active

Open

Xuan Gong

79.

Aggregation of MR job logs failing when Resourcemanager switches

Resolved

Wangda Tan

80.

NM-Local dir cleanup failing when Resourcemanager switches

Open

Unassigned

81.

Option "--forceactive" not works as described in usage of "yarn rmadmin -transitionToActive"

Closed

Masatake Iwasaki

82.

[RM HA] Rest api endpoints doing redirect incorrectly

Closed

Xuan Gong

83.

Improve the error message when attempting manual failover with auto-failover enabled

Closed

Akira Ajisaka

84.

forcemanual transitionToStandby in RM-HA automatic-failover mode should change elector state

Open

Masatake Iwasaki

85.

Documentation of ResourceManager HA should explain configurations about listen addresses

Closed

Masatake Iwasaki

86.

Both RM in active state when Admin#transitionToActive failure from refeshAll()

Closed

Bibin Chundatt

87.

RM HA UI redirection needs to be fixed when both RMs are in standby mode

Closed

Xuan Gong

88.

RM should print alert messages if Zookeeper and Resourcemanager gets connection issue

Closed

Xuan Gong

89.

Both RM becomes Active if all zookeepers can not connect to active RM

Resolved

Xuan Gong

90.

Add retry on establishing Zookeeper conenction in EmbeddedElectorService#serviceInit

Resolved

Xuan Gong

Activity

People

Assignee:: Unassigned

Reporter:: Harsh J

Votes:: 4 Vote for this issue

Watchers:: 80 Start watching this issue

Dates

Created:: 17/Jun/12 07:07

Updated:: 03/May/15 01:50

Resolved:: 03/May/15 01:49

Time Tracking

Estimated:

51h

Remaining:

51h

Logged:

Not Specified

Include sub-tasks