【问题标题】:Extracting contents of <option> tags in R在R中提取<option>标签的内容
【发布时间】:2017-09-27 17:48:24
【问题描述】:

我正在尝试提取这些 &lt;option&gt; 块中的文本。

我尝试的是向后看和向前看。

(?s)(?<=option value=\"\d).*?(?=<\/option)
(?s)(?<=option value=\"[0-9]).*?(?=<\/option)

但是值数字发生了变化,我不知道如何在后视中捕获多个数字。

例子:

<option value="140">First string I wanna get</option> <option value="6070">Another string I want</option> <option value="20">This is interesting</option>

【问题讨论】:

  • (?s)(?&lt;=option value="\d+").*?(?=&lt;\/option) ..... 使用哪种语言?最好改用一些html解析器
  • 我在 R 中解析它,但我没有这个源代码的来源。我只有文字。

标签: regex html-parsing


【解决方案1】:

根据您的需要,我会使用带有 xpression 的 xpath,例如 /option//option

但是,如果您想使用正则表达式,则可以使用带有捕获组的正则表达式,如下所示:

<option.*?>(.*?)</option>
or
<option[^>]+>(.*?)</option>

Working demo

【讨论】:

  • 谢谢!如果我有网站,我会使用 rvest 和 xpath 方法。可悲的是我没有。非常感谢:D
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-03-13
  • 2011-08-25
相关资源
最近更新 更多