【发布时间】:2020-07-15 16:22:57
【问题描述】:
我正在尝试查找和隔离某些列不遵循某些模式的行。我从 databricks 文档中找到了以下示例,用于识别和检查列值是否为整数,并将不良记录写入 json 文件。
我想确定一列值是否像 1,245.00 和坏记录是否像 1.245,00。 这些值可以改变位数,只是想检查数据是否遵循 pyspark 中的 1,245.00 之类的模式。
有时在原始数据中,逗号和点会互换。
谁能告诉我如何在 badrecordpath 中收集此类记录,如下例所示?
// Creates a json file containing both parsable and corrupted records
Seq("""{"a": 1, "b": 2}""", """{bad-record""").toDF().write.text("/tmp/input/jsonFile")
val df = spark.read
.option("badRecordsPath", "/tmp/badRecordsPath")
.schema("a int, b int")
.json("/tmp/input/jsonFile")
df.show()
上面的例子在 scala 中,如果可能的话,我正在寻找 pyspark 解决方案。谢谢。
【问题讨论】:
-
您能发布一些示例输入数据和预期输出吗?
标签: python-3.x pyspark databricks