【发布时间】:2021-07-17 00:36:45
【问题描述】:
在 R 中,我将聊天日志取消嵌套到单词数据框中,如下所示。
我使用 dplyr 按单词过滤以确定每个单词的计数,例如filter(word %in% word_pick)
有没有办法按特定短语进行过滤,例如“Hello world”,我可以分别搜索“Hello”和“World”,但不能同时搜索,因为每个词都是一行。
理想情况下,我想要一种在数据框的下一行用“world”搜索“Hello”的方法。
【问题讨论】:
在 R 中,我将聊天日志取消嵌套到单词数据框中,如下所示。
我使用 dplyr 按单词过滤以确定每个单词的计数,例如filter(word %in% word_pick)
有没有办法按特定短语进行过滤,例如“Hello world”,我可以分别搜索“Hello”和“World”,但不能同时搜索,因为每个词都是一行。
理想情况下,我想要一种在数据框的下一行用“world”搜索“Hello”的方法。
【问题讨论】:
我认为您可以在 dplyr 语法中通过 grepl 搜索模式。
例如,您正在查找包含“hello”的行,其下一行是“world”
library(dplyr)
data %>%
filter(grepl('hello',your_colum) & grepl('world',lead(your_colum)))
【讨论】: