[HIVE-7685] Parquet memory manager - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Improvement
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 1.1.0
Component/s: Serializers/Deserializers
Labels:
- TODOC15

Description

Similar to ~~HIVE-4248~~, Parquet tries to write large very large "row groups". This causes Hive to run out of memory during dynamic partitions when a reducer may have many Parquet files open at a given time.

As such, we should implement a memory manager which ensures that we don't run out of memory due to writing too many row groups within a single JVM.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HIVE-7685.1.patch
30/Dec/14 02:55
1 kB
Dong Chen
HIVE-7685.1.patch.ready
13/Nov/14 02:33
3 kB
Dong Chen
HIVE-7685.patch
09/Dec/14 08:53
2 kB
Dong Chen
HIVE-7685.patch.ready
12/Nov/14 07:00
3 kB
Dong Chen

Issue Links

blocks

HIVE-8120 Umbrella JIRA tracking Parquet improvements

Open

is related to

HIVE-11598 Document Configuration for Parquet Files

Open

relates to

PARQUET-164 Warn when parquet memory manager kicks in

Resolved

HIVE-10149 Shuffle Hive data before storing in Parquet

Resolved

PARQUET-108 Parquet Memory Management in Java

Resolved

PARQUET-177 MemoryManager ensure minimum Column Chunk size

Resolved

links to

Parquet Documentation

(1 relates to, 1 links to)

Activity

People

Assignee:: Dong Chen

Reporter:: Brock Noland

Votes:: 0 Vote for this issue

Watchers:: 12 Start watching this issue

Dates

Created:: 12/Aug/14 05:33

Updated:: 18/Aug/15 23:14

Resolved:: 06/Jan/15 01:19