【发布时间】:2015-09-27 21:08:15
【问题描述】:
我希望使用 xPath 提取字符串的一部分。
完整的字符串 -
信息类(非小说类),1,303 字,S 级(3 级)
HTML 代码:
<div class="bookInfo">
Informational (nonfiction),
1,303 words,
Level S (Grade 3)
</div>
我希望从这些字符串中提取单词的数量,即 - 1,303 words 在这种情况下
这个字符串的 xPath 看起来像
//*[@id="contentarea-inner"]/div[3]/div[2]/div
有问题的网页 - https://www.readinga-z.com/books/leveled-books/book/?id=820
请告知我如何修改 xPath 以便仅从页面中提取字数。我有几千页可以从中获取此信息
谢谢
【问题讨论】:
标签: xml xpath web-scraping