【问题标题】:HTML Agility Pack vs Regular ExpressionsHTML 敏捷包与正则表达式
【发布时间】:2021-02-13 00:25:17
【问题描述】:

如果我正在创建一个简单的网络爬虫(从根 url 抓取所有链接,然后从这些链接抓取所有电子邮件)是否值得使用 HTML Agility Pack?我实际上并没有浏览 HTML 标记,我只是想扫描整个文档中的电子邮件。

使用 HTML 敏捷包会更高效吗?

我严格剥离它们,因为我有这些电子邮件是必要的,并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心,我在这里牢记道德规范。

【问题讨论】:

  • 在 HTML 文件中抓取电子邮件地址。不错。

标签: regex html-agility-pack


【解决方案1】:

关于这个有很多关于这个的问题——我读到的大多数都说——不要使用正则表达式进行网络抓取。

另一方面 - 如果你想要的只是文本解析而不考虑文本的 HTML 特性(如果我理解正确的话你会这样做),使用正则表达式可能会更好。

【讨论】:

  • 谢谢,这正是我发布此内容的原因。我已经阅读了很多关于此的主题...但如果您不在乎它是否包含 HTML,则不会。
猜你喜欢
  • 2012-06-05
  • 2010-12-30
  • 2011-01-26
  • 1970-01-01
  • 2012-07-29
  • 2010-10-13
  • 1970-01-01
相关资源
最近更新 更多