在R中提取<option>标签的内容答案

【问题标题】：Extracting contents of <option> tags in R在R中提取<option>标签的内容
【发布时间】：2017-09-27 17:48:24
【问题描述】：

我正在尝试提取这些 <option> 块中的文本。

我尝试的是向后看和向前看。

(?s)(?<=option value=\"\d).*?(?=<\/option)
(?s)(?<=option value=\"[0-9]).*?(?=<\/option)

但是值数字发生了变化，我不知道如何在后视中捕获多个数字。

例子：

<option value="140">First string I wanna get</option> <option value="6070">Another string I want</option> <option value="20">This is interesting</option>

【问题讨论】：

(?s)(?<=option value="\d+").*?(?=<\/option) ..... 使用哪种语言？最好改用一些html解析器
我在 R 中解析它，但我没有这个源代码的来源。我只有文字。

标签： regex html-parsing

【解决方案1】：

根据您的需要，我会使用带有 xpression 的 xpath，例如 /option 或 //option。

但是，如果您想使用正则表达式，则可以使用带有捕获组的正则表达式，如下所示：

<option.*?>(.*?)</option>
or
<option[^>]+>(.*?)</option>

Working demo

【讨论】：

谢谢！如果我有网站，我会使用 rvest 和 xpath 方法。可悲的是我没有。非常感谢：D