[SPARK-7324] Add DataFrame.dropDuplicates - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Sub-task
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: None
Fix Version/s: 1.4.0
Component/s: SQL
Labels:
None

Sprint:
Spark 1.5 doc/QA sprint

Description

Similar to http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

def dropDuplicates(): DataFrame

def dropDuplicates(subset: Seq[String]): DataFrame

We can turn this into groupBy(cols).agg(first(...))

Attachments

Issue Links

relates to

SPARK-12337 Implement dropDuplicates() method of DataFrame in SparkR

Resolved

links to

[Github] Pull Request #5870 (kaka1992)

[Github] Pull Request #6066 (rxin)

Activity

People

Assignee:: Reynold Xin

Reporter:: Reynold Xin

Votes:: 0 Vote for this issue

Watchers:: 3 Start watching this issue

Dates

Created:: 02/May/15 08:19

Updated:: 15/Dec/15 11:24

Resolved:: 12/May/15 02:18