【发布时间】:2021-07-01 09:44:09
【问题描述】:
我的数据集中有以下文本:
[1] "q negociação c/v tipo mercado prazo especificação do título obs (*) quantidade preço / ajuste valor operação / ajuste d/c 1-bovespa c fracionario magaz luiza on eb nm # 1 25,76 25, 76 d 1-bovespa c fracionario magaz luiza on eb nm #9 25,76 231,84 d 1-bovespa c fracionario magaz luiza on eb nm 40 25,76 1030,40 d 1-bovespa c fracionario mrv on ed nm 40 18 ,14 725,60 d resumo dos negócios"
我想提取两个标准之间的各种文本,特别是“1-bovespa”和“d”之间包含的文本。目前,我使用 str_extract readtext 包,但它仅用于找到的第一个模式。但是,我希望命令滚动浏览所有文本,并在再次找到模式时构建一个数据框。
我正在尝试这样的事情:
str_extract_all(out, "\\(1-bovespa).+?\\d")
【问题讨论】:
-
请显示所描述尝试的代码。
-
是的,
str_extract是找到的第一个模式。切换到str_extract_all以获取所有匹配项。他们共享一个帮助页面,有关详细信息,请参阅?str_extract。它将返回一个list,您可以根据需要将其转换为矢量/数据框。 -
我看到您已将代码编辑为使用
str_extract_all。有了这个改变,你还有问题吗?如果有,是什么? -
如果您注意到,我在同一模式中包含四个信息,例如:“1-bovespa c fractional magaz luiza no eb nm #1 25.76 25.76 d”。所以我想用这些信息得到 4 个向量。但是,该命令提供了几个与此模式无关的其他向量。
标签: r string dataframe text read-text