【发布时间】:2023-03-26 07:23:01
【问题描述】:
我正在使用带有 scala 的 spark 并尝试标记一个句子,其中每个单词只能包含字母。这是我的代码
def tokenization(extractedText: String): DataFrame = {
val existingSparkSession = SparkSession.builder().getOrCreate()
val textDataFrame = existingSparkSession.createDataFrame(Seq(
(0, extractedText))).toDF("id", "sentence")
val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val regexTokenizer = new RegexTokenizer()
.setInputCol("sentence")
.setOutputCol("words")
.setPattern("\\W")
val regexTokenized = regexTokenizer.transform(textDataFrame)
regexTokenized.select("sentence", "words").show(false)
return regexTokenized;
}
如果我在标记化后提供句子为“我要去上学5”,它应该只有 [i, am, going, to] 并且应该放弃 school5。但是以我目前的模式,它不会忽略单词中的数字。我应该如何删除带数字的单词?
【问题讨论】:
标签: regex scala apache-spark tokenize