【发布时间】:2018-09-14 15:37:51
【问题描述】:
我已经修剪了一个 html 文件,以使数据集的每个字符向量看起来像:
<h3 class=\"personName\">Whitney Alicia Zimmerman</h3> <li>Assistant Teaching Professor</li>"
我想使用正则表达式将其缩减为仅名称和位置(为澄清起见,每个向量都有不同的名称和位置)。我之前使用的内容对此不起作用(我使用 grepl 函数对我的原始 html 文件进行子集化)。我将如何使用正则表达式甚至其他技术来修剪它?感谢您提前提供任何帮助。
或者,如果它更容易使用,我还有另外两个字符向量将两者分开,看起来像:
" <h3 class=\"personName\">Whitney Alicia Zimmerman</h3>"
和
" <li>Assistant Teaching Professor</li>"
【问题讨论】:
-
欺骗Parsing HTML file in R?或R Read & Parse HTML to List。在解析 HTML 时,有比使用正则表达式更好的方法。
-
@WiktorStribiżew 这可能更实用。不幸的是,我正在努力为我所在的课程更好地学习正则表达式,并且我正在努力避免用这种方式偷工减料。不过感谢您的建议!