在网站上查找联系方式的脚本或库答案

【问题标题】：Script or Library to find contact means on a website在网站上查找联系方式的脚本或库
【发布时间】：2011-11-11 19:34:19
【问题描述】：

有人知道在网站上找到最相关的联系信息的脚本/食谱/库吗？

一些可能的情况：

在个人网页上查找联系电话号码
在博客上查找所有者电子邮件地址
查找联系页面的网址

【问题讨论】：

标签： information-retrieval

【解决方案1】：

查看WSO2's Mashup Server。您可以在本地机器上运行它并按照scraping 的教程进行操作。您可以将所需的动态参数传递到刮板的<http> 元素中，以循环通过运行相同刮板的多个站点，然后将所有内容推送到收集源（用于捕获信息或存储在 WSO2 服务器内的 AJAX 应用程序）。您可以使用 XPath 和 XSLT 编写非常复杂的搜索模式来捕获您想要的信息。

我没有足够的关于您正在抓取的特定网站的信息来帮助编写脚本，但无论您采用哪种方式，都需要进行大量的试验和错误，直到您获得所需的结果。

祝你刮得愉快！

【讨论】：

【解决方案2】：

我不知道有任何图书馆这样做。

嗯，我会使用正则表达式来匹配电话号码和电子邮件地址，结合遍历网站的网络蜘蛛，然后是对联系信息进行排名的方法。

通常情况下，联系信息也将与几个常见标签中的一个一起使用，例如“支持”、“支持电子邮件”、“销售”等。这可能有十几个版本，涵盖了所有标签的 95%英文网站。

所以，基本上我会从构建一个简单的递归网络蜘蛛开始，它遍历给定域中所有可公开访问的页面，解析 HTML 中的电子邮件地址和电话号码，并列出它们，然后根据它们进行排名关于它们是否列在任何常见标签附近。

它不会是完美的，但话又说回来，这是算法价值的一部分——让它变得更智能，并随着时间的推移对其进行调整，直到它变得更好。

【讨论】：

我感觉很糟糕。我会奖励你赏金，但我在自动给予后检查了我的电子邮件。对此感到抱歉。