[SPARK-39494] Support `createDataFrame` from a list of scalars when schema is not provided - ASF JIRA

XML

Word

Printable

JSON

Currently, DataFrame creation from a list of native Python scalars is unsupported in PySpark, for example,

>>> spark.createDataFrame([1, 2]).collect()
Traceback (most recent call last):
...
TypeError: Can not infer schema for type: <class 'int'>

However, Spark DataFrame Scala API supports that:

scala> Seq(1, 2).toDF().collect()
res6: Array[org.apache.spark.sql.Row] = Array([1], [2])

To maintain API consistency, we propose to support DataFrame creation from a list of scalars.

links to

[Github] Pull Request #36893 (xinrong-databricks)