【发布时间】:2021-02-13 00:25:17
【问题描述】:
如果我正在创建一个简单的网络爬虫(从根 url 抓取所有链接,然后从这些链接抓取所有电子邮件)是否值得使用 HTML Agility Pack?我实际上并没有浏览 HTML 标记,我只是想扫描整个文档中的电子邮件。
使用 HTML 敏捷包会更高效吗?
我严格剥离它们,因为我有这些电子邮件是必要的,并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心,我在这里牢记道德规范。
【问题讨论】:
-
在 HTML 文件中抓取电子邮件地址。不错。