创建小数类型的列

Create column of decimal type

我想在创建 Spark 数据帧时提供数字。我在提供小数类型数字时遇到问题。

这样数字会被截断:

df = spark.createDataFrame([(10234567891023456789.5, )], ["numb"])
df = df.withColumn("numb_dec", F.col("numb").cast("decimal(30,1)"))
df.show(truncate=False)
#+---------------------+----------------------+
#|numb                 |numb_dec              |
#+---------------------+----------------------+
#|1.0234567891023456E19|10234567891023456000.0|
#+---------------------+----------------------+

这失败了:

df = spark.createDataFrame([(10234567891023456789.5, )], "numb decimal(30,1)")
df.show(truncate=False)

TypeError: field numb: DecimalType(30,1) can not accept object 1.0234567891023456e+19 in type <class 'float'>

如何正确提供大的十进制数字,以免被截断?

尝试以下操作 -

from pyspark.sql.types import *
from decimal import *

schema = StructType([StructField('numb', DecimalType(30,1))])

data = [( Context(prec=30, Emax=999, clamp=1).create_decimal('10234567891023456789.5'), )]

df = spark.createDataFrame(data=data, schema=schema)

df.show(truncate=False)

+----------------------+
|numb                  |
+----------------------+
|10234567891023456789.5|
+----------------------+

可能这与 Python 和 Spark 在浮点表示方面的一些差异有关。您可以尝试在创建数据框时传递字符串值:

df = spark.createDataFrame([("10234567891023456789.5", )], ["numb"])

df = df.withColumn("numb_dec", F.col("numb").cast("decimal(30,1)"))
df.show(truncate=False)
#+----------------------+----------------------+
#|numb                  |numb_dec              |
#+----------------------+----------------------+
#|10234567891023456789.5|10234567891023456789.5|
#+----------------------+----------------------+