【发布时间】:2013-01-08 20:00:38
【问题描述】:
我已经做了一些网页抓取,并有一个字符串 my_html 和我想要的链接
我想grep() 并尝试过(my_html 的示例,它要长得多)
my_html <- 'stuff more stuff ...
<TD ><A CLASS=my_link HREF=\"https://www.stuff.com/secure-bin/my_club/myrep.cgi/tpw9109.cry?scrtpw9109.cry\">
other stuff
<p> www.google.com </p>
end'
my_pattern <- "<TD><A CLASS=my_link HREF=*>"
grep(my_pattern,x=my_html,value=TRUE)
让我感动
character(0)
我认为问题与模式中的特殊字符有关,但我不知道解决方法。
【问题讨论】:
-
fixed=TRUE作为grep的参数有帮助吗? -
'*' 在 R 正则表达式中并不表示“任何东西”,它表示“零个或多个前面的字符”。
<td>也不会匹配<td > -
刚刚添加了一个示例字符串
-
部分不匹配是因为在
my_html(<TD >) 中TD后面有一个空格,但在您的正则表达式 (<TD>) 中没有。 -
@Josh:谢谢,我纠正了错字。仍然没有工作。但 Dwin 的解决方案奏效了。
标签: r regex web-scraping