[SPARK-5947] First class partitioning support in data sources API - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Improvement
Status: Resolved
Priority: Blocker
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 1.4.0
Component/s: SQL
Labels:
None

Target Version/s:

1.4.0

Description

For file system based data sources, implementing Hive style partitioning support can be complex and error prone. To be specific, partitioning support include:

Partition discovery: Given a directory organized similar to Hive partitions, discover the directory structure and partitioning information automatically, including partition column names, data types, and values.
Reading from partitioned tables
Writing to partitioned tables

It would be good to have first class partitioning support in the data sources API. For example, add a FileBasedScan trait with callbacks and default implementations for these features.

Attachments

Activity

People

Assignee:: Michael Armbrust

Reporter:: Cheng Lian

Votes:: 1 Vote for this issue

Watchers:: 7 Start watching this issue

Dates

Created:: 23/Feb/15 12:07

Updated:: 16/May/15 11:01

Resolved:: 15/May/15 19:23