【发布时间】:2021-04-16 20:56:47
【问题描述】:
我想在 pyspark 数据框中的文本列中搜索短语。这是一个示例,可以向您展示我的意思。
sentenceData = spark.createDataFrame([
(0, "Hi I heard about Spark"),
(4, "I wish Java could use case classes"),
(11, "Logistic regression models are neat")],
["id", "sentence"])
如果句子包含“听说过 spark”,则 categorySpark=1 和 categoryHeard=1。
如果句子包含“java OR regression”,则 categoryCool=1。
我有大约 28 个布尔值(或者如果我使用正则表达式可能更好)来检查。
sentenceData.withColumn('categoryCool',sentenceData['sentence'].rlike('Java | regression')).show()
返回:
+---+--------------------+------------+
| id| sentence|categoryCool|
+---+--------------------+------------+
| 0|Hi I heard about ...| false|
| 4|I wish Java could...| true|
| 11|Logistic regressi...| true|
+---+--------------------+------------+
这是我想要的,但我想将它作为转换步骤添加到管道中。
【问题讨论】:
标签: apache-spark pyspark nlp feature-extraction