【发布时间】:2023-03-03 14:26:01
【问题描述】:
当我在URL 上readLines() 时,我会丢失行或值。 This might be due to spacing that the computer can't read.
当您使用上面的 URL 时,CTR + F 会找到 38 个与“TV-”匹配的文本实例。另一方面,当我运行 readLines() 和 grep("TV-", HTML) 时,我只找到 12 个。
那么,如何避免编码/间距错误,以便获得完整的 HTML 行?
【问题讨论】:
-
你想从页面中提取什么信息。顺便说一句,您共享的链接我在该页面上使用 CTR + F 找不到任何“TV-”实例。
-
@RonakShah 谢谢。我正在尝试提取在加拿大温哥华拍摄的所有电视节目的标题。 IMDB 链接应该有几个“TV-”字符串,例如 TV-MA、TV-14 等。我有部分工作代码可以做到这一点。首先,我索引“TV-”在哪里。然后取上面 4 行的标题。不幸的是,readLines() 正在跳过一些行或将值留空,因为它不知道它在读什么。
标签: r web html-parsing