[SPARK-22980] Using pandas_udf when inputs are not Pandas's Series or DataFrame - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Sub-task
Status: Resolved
Priority: Major
Resolution: Fixed
Affects Version/s: 2.3.0
Fix Version/s: 2.3.0
Component/s: PySpark
Labels:
None

Description

from pyspark.sql.functions import pandas_udf
from pyspark.sql.functions import col, lit
from pyspark.sql.types import LongType
df = spark.range(3)
f = pandas_udf(lambda x, y: len(x) + y, LongType())
df.select(f(lit('text'), col('id'))).show()

from pyspark.sql.functions import udf
from pyspark.sql.functions import col, lit
from pyspark.sql.types import LongType
df = spark.range(3)
f = udf(lambda x, y: len(x) + y, LongType())
df.select(f(lit('text'), col('id'))).show()

The results of pandas_udf are different from udf.

Attachments

Issue Links

links to

[Github] Pull Request #20237 (HyukjinKwon)

Activity

People

Assignee:: Hyukjin Kwon

Reporter:: Xiao Li

Votes:: 0 Vote for this issue

Watchers:: 7 Start watching this issue

Dates

Created:: 07/Jan/18 02:40

Updated:: 12/Dec/22 18:11

Resolved:: 18/Jan/18 01:11