【问题标题】:Find all non-integers in column查找列中的所有非整数
【发布时间】:2017-09-04 01:24:35
【问题描述】:

我的大型 CSV 文件中有一些损坏的行,其中一些数据值由于缺少换行符而发生偏移。这会导致值出现在错误的列标题中。例如。如果我的表中存在三列,, , , 损坏后,我开始看到像 , , . 的值。

有没有办法让我删除所有行,例如我连续看到一个非整数,我知道实际上应该是一个 Int?

【问题讨论】:

  • 您应该提供输入数据帧和预期的输出数据帧。

标签: scala apache-spark apache-spark-sql


【解决方案1】:

您可以做的是循环遍历这些行,当lines.split(",").count() 不等于您想要的时,您可以将其过滤掉。像这样的:

import scala.io.Source
val n = 5 //or how many columns you require
Source.fromFile(input_file).getLines().toSeq.map(_.split(",")).filter(_.count == n)

这应该做你想要的:)

【讨论】:

    猜你喜欢
    • 2013-10-06
    • 1970-01-01
    • 2022-01-23
    • 1970-01-01
    • 2011-08-12
    • 2021-06-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多