[HIVE-18111] Fix temp path for Spark DPP sink - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Closed
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 3.0.0
Component/s: Spark
Labels:
None

Description

Before ~~HIVE-17877~~, each DPP sink has only one target work. The output path of a DPP work is TMP_PATH/targetWorkId/dppWorkId. When we do the pruning, each map work reads DPP outputs under TMP_PATH/targetWorkId.

After ~~HIVE-17877~~, each DPP sink can have multiple target works. It's possible that a map work needs to read DPP outputs from multiple TMP_PATH/targetWorkId. To solve this, I think we can have a DPP output path specific to each query, e.g. QUERY_TMP_PATH/dpp_output. Each DPP work outputs to QUERY_TMP_PATH/dpp_output/dppWorkId. And each map work reads from QUERY_TMP_PATH/dpp_output.

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

HIVE-18111.5.patch
12/Dec/17 08:56
27 kB
Rui Li
HIVE-18111.5.patch
08/Dec/17 02:34
27 kB
Rui Li
HIVE-18111.4.patch
07/Dec/17 12:40
26 kB
Rui Li
HIVE-18111.3.patch
22/Nov/17 03:09
8 kB
Rui Li
HIVE-18111.2.patch
21/Nov/17 13:04
6 kB
Rui Li
HIVE-18111.1.patch
21/Nov/17 04:34
1 kB
Rui Li

Issue Links

is broken by

HIVE-17877 HoS: combine equivalent DPP sink works

Closed

relates to

HIVE-19895 The unique ID in SparkPartitionPruningSinkOperator is no longer needed

Open

Activity

People

Assignee:: Rui Li

Reporter:: Rui Li

Votes:: 0 Vote for this issue

Watchers:: 3 Start watching this issue

Dates

Created:: 21/Nov/17 03:35

Updated:: 14/Jun/18 11:38

Resolved:: 18/Dec/17 03:23