[HADOOP-13786] Add S3A committers for zero-rename commits to S3 endpoints - ASF JIRA

XML

Word

Printable

JSON

Details

Type: New Feature
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: 3.0.0-beta1
Fix Version/s: 3.1.0
Component/s: fs/s3
Labels:
None

Target Version/s:

3.1.0

Description

A goal of this code is "support O(1) commits to S3 repositories in the presence of failures". Implement it, including whatever is needed to demonstrate the correctness of the algorithm. (that is, assuming that s3guard provides a consistent view of the presence/absence of blobs, show that we can commit directly).

I consider ourselves free to expose the blobstore-ness of the s3 output streams (ie. not visible until the close()), if we need to use that to allow us to abort commit operations.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HADOOP-13786-HADOOP-13345-001.patch
16/Dec/16 18:28
126 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-002.patch
27/Jan/17 18:46
150 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-003.patch
30/Jan/17 21:18
170 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-004.patch
02/Feb/17 19:56
222 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-005.patch
03/Feb/17 17:32
225 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-006.patch
03/Feb/17 19:12
231 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-006.patch
03/Feb/17 19:13
231 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-007.patch
06/Mar/17 13:21
246 kB
Steve Loughran
s3committer-master.zip
07/Mar/17 22:39
42 kB
Ryan Blue
HADOOP-13786-HADOOP-13345-009.patch
08/Mar/17 22:16
454 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-010.patch
09/Mar/17 19:41
471 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-011.patch
10/Mar/17 21:30
471 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-012.patch
13/Mar/17 21:54
484 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-013.patch
14/Mar/17 21:33
487 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-015.patch
16/Mar/17 19:26
499 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-016.patch
17/Mar/17 12:59
501 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-017.patch
21/Mar/17 18:51
505 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-018.patch
22/Mar/17 18:49
512 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-019.patch
23/Mar/17 18:39
521 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-020.patch
24/Mar/17 19:17
549 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-021.patch
27/Mar/17 19:21
558 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-022.patch
28/Mar/17 19:27
564 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-023.patch
10/Apr/17 16:21
597 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-024.patch
12/Apr/17 19:26
604 kB
Steve Loughran
objectstore.pdf
26/Apr/17 15:35
187 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-025.patch
03/May/17 18:15
624 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-026.patch
15/May/17 18:28
656 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-027.patch
16/May/17 15:46
653 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-028.patch
17/May/17 20:57
669 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-028.patch
18/May/17 09:59
669 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-029.patch
18/May/17 20:45
674 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-030.patch
02/Jun/17 20:08
690 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-031.patch
21/Jun/17 21:19
704 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-032.patch
29/Jun/17 20:06
733 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-033.patch
03/Jul/17 18:09
748 kB
Steve Loughran
HADOOP-13786-HADOOP-13345-035.patch
02/Aug/17 13:04
771 kB
Steve Loughran
cloud-intergration-test-failure.log
14/Aug/17 16:02
334 kB
Ewan Higgs
HADOOP-13786-036.patch
11/Sep/17 14:27
778 kB
Steve Loughran
HADOOP-13786-037.patch
13/Sep/17 16:19
851 kB
Steve Loughran
HADOOP-13786-038.patch
15/Sep/17 16:44
854 kB
Steve Loughran
HADOOP-13786-039.patch
12/Oct/17 20:30
929 kB
Steve Loughran
MAPREDUCE-6823-003.patch
31/Oct/17 13:13
44 kB
Steve Loughran

Issue Links

breaks

HADOOP-15631 Remove transient dependency on hadoop-hdfs-client

Open

MAPREDUCE-7014 Fix java doc errors in jdk1.8

Resolved

contains

HADOOP-14714 handle InternalError in bulk object delete through retries

Resolved

HADOOP-14717 Add StreamCapabilities support to s3a

Resolved

HADOOP-14423 s3guard will set file length to -1 on a putObjectDirect(stream, -1) call

Resolved

HADOOP-15228 S3A Retry policy to retry on NoResponseException

Resolved

MAPREDUCE-6961 Pull up FileOutputCommitter.getOutputPath to PathOutputCommitter

Resolved

depends upon

HADOOP-13449 S3Guard: Implement DynamoDBMetadataStore.

Resolved

MAPREDUCE-6823 FileOutputFormat to support configurable PathOutputCommitter factory

Resolved

MAPREDUCE-6956 FileOutputCommitter to gain abstract superclass PathOutputCommitter

Resolved

duplicates

HADOOP-13205 S3A to support custom retry policies; failfast on unknown host

Resolved

HADOOP-13811 s3a: getFileStatus fails with com.amazonaws.AmazonClientException: Failed to sanitize XML document destined for handler class

Resolved

HADOOP-14303 Review retry logic on all S3 SDK calls, implement where needed

Resolved

HADOOP-14381 S3AUtils.translateException to map 503 reponse to => throttling failure

Resolved

MAPREDUCE-6823 FileOutputFormat to support configurable PathOutputCommitter factory

Resolved

incorporates

HADOOP-13205 S3A to support custom retry policies; failfast on unknown host

Resolved

HADOOP-13811 s3a: getFileStatus fails with com.amazonaws.AmazonClientException: Failed to sanitize XML document destined for handler class

Resolved

HADOOP-13967 S3ABlockOutputStream to support plugin point for different multipart strategies

Resolved

HADOOP-13968 S3a FS to support "__magic" path for the special "unmaterialized" writes

Resolved

HADOOP-13969 S3A to support commit(path) operation, which commits all pending put commits in a path

Resolved

HADOOP-14303 Review retry logic on all S3 SDK calls, implement where needed

Resolved

HADOOP-14381 S3AUtils.translateException to map 503 reponse to => throttling failure

Resolved

MAPREDUCE-6823 FileOutputFormat to support configurable PathOutputCommitter factory

Resolved

HADOOP-14859 Shaded AWS library stops s3a recognising ConnectTimeoutException

Resolved

is depended upon by

HADOOP-13761 S3Guard: implement retries for DDB failures and throttling; translate exceptions

Resolved

HADOOP-14831 Über-jira: S3a phase IV: Hadoop 3.1 features

Resolved

is duplicated by

HADOOP-14971 Merge S3A committers into trunk

Resolved

HADOOP-15003 Merge S3A committers into trunk: Yetus patch checker

Resolved

HADOOP-13574 Unnecessary file existence check causes problems with S3

Resolved

HADOOP-13912 S3a Multipart Committer (avoid rename)

Resolved

HADOOP-15087 S3A to support writing directly to the destination dir without creating temp directory to avoid rename

Resolved

is related to

HDFS-13713 Add specification of Multipart Upload API to FS specification, with contract tests

Resolved

HADOOP-15079 ITestS3AFileOperationCost#testFakeDirectoryDeletion failing after OutputCommitter patch

Resolved

HADOOP-14303 Review retry logic on all S3 SDK calls, implement where needed

Resolved

HADOOP-14584 WASB to support high-performance commit protocol

Resolved

HADOOP-15890 Some S3A committer tests don't match ITest* pattern; don't run in maven

Resolved

HBASE-20431 Store commit transaction for filesystems that do not support an atomic rename

Closed

SPARK-10063 Remove DirectParquetOutputCommitter

Resolved

SPARK-18883 FileNotFoundException on _temporary directory

Resolved

HADOOP-14161 Failed to rename file in S3A during FileOutputFormat commitTask

Resolved

HADOOP-13912 S3a Multipart Committer (avoid rename)

Resolved

HADOOP-18600 Hadoop 2.x should support s3a committers

Resolved

MAPREDUCE-6974 Add standard configuration keys for HTrace values, propagate across to MR committers if set

Resolved

MAPREDUCE-7060 Cherry Pick PathOutputCommitter class/factory to branch-3.0

Resolved

relates to

HADOOP-13846 S3A to implement rename(final Path src, final Path dst, final Rename... options)

Open

HIVE-16295 Add support for using Hadoop's S3A OutputCommitter

Patch Available

SPARK-18512 FileNotFoundException on _temporary directory with Spark Streaming 2.0.1 and S3A

Resolved

SPARK-22217 ParquetFileFormat to support arbitrary OutputCommitters

Resolved

supercedes

HADOOP-14161 Failed to rename file in S3A during FileOutputFormat commitTask

Resolved

(2 contains, 3 depends upon, 5 duplicates, 9 incorporates, 2 is depended upon by, 5 is duplicated by, 13 is related to, 4 relates to, 1 supercedes)

Sub-Tasks

1.	S3ABlockOutputStream to support plugin point for different multipart strategies	Resolved	Steve Loughran
2.	S3a FS to support "__magic" path for the special "unmaterialized" writes	Resolved	Steve Loughran
3.	S3A to support commit(path) operation, which commits all pending put commits in a path	Resolved	Steve Loughran
4.	Merge S3A committers into trunk	Resolved	Steve Loughran
5.	Merge S3A committers into trunk: Yetus patch checker	Resolved	Steve Loughran

Activity

People

Assignee:: Steve Loughran

Reporter:: Steve Loughran

Votes:: 11 Vote for this issue

Watchers:: 49 Start watching this issue

Dates

Created:: 02/Nov/16 18:16

Updated:: 12/Jun/23 21:43

Resolved:: 22/Nov/17 17:28