【问题标题】:Script or Library to find contact means on a website在网站上查找联系方式的脚本或库
【发布时间】:2011-11-11 19:34:19
【问题描述】:

有人知道在网站上找到最相关的联系信息的脚本/食谱/库吗?

一些可能的情况:

  • 在个人网页上查找联系电话号码
  • 在博客上查找所有者电子邮件地址
  • 查找联系页面的网址

【问题讨论】:

    标签: information-retrieval


    【解决方案1】:

    查看WSO2's Mashup Server。您可以在本地机器上运行它并按照scraping 的教程进行操作。您可以将所需的动态参数传递到刮板的<http> 元素中,以循环通过运行相同刮板的多个站点,然后将所有内容推送到收集源(用于捕获信息或存储在 WSO2 服务器内的 AJAX 应用程序)。您可以使用 XPath 和 XSLT 编写非常复杂的搜索模式来捕获您想要的信息。

    我没有足够的关于您正在抓取的特定网站的信息来帮助编写脚本,但无论您采用哪种方式,都需要进行大量的试验和错误,直到您获得所需的结果。

    祝你刮得愉快!

    【讨论】:

      【解决方案2】:

      我不知道有任何图书馆这样做。

      嗯,我会使用正则表达式来匹配电话号码和电子邮件地址,结合遍历网站的网络蜘蛛,然后是对联系信息进行排名的方法。

      通常情况下,联系信息也将与几个常见标签中的一个一起使用,例如“支持”、“支持电子邮件”、“销售”等。这可能有十几个版本,涵盖了所有标签的 95%英文网站。

      所以,基本上我会从构建一个简单的递归网络蜘蛛开始,它遍历给定域中所有可公开访问的页面,解析 HTML 中的电子邮件地址和电话号码,并列出它们,然后根据它们进行排名关于它们是否列在任何常见标签附近。

      它不会是完美的,但话又说回来,这是算法价值的一部分——让它变得更智能,并随着时间的推移对其进行调整,直到它变得更好。

      【讨论】:

      • 我感觉很糟糕。我会奖励你赏金,但我在自动给予后检查了我的电子邮件。对此感到抱歉。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-10-06
      • 2021-04-07
      • 1970-01-01
      • 2015-02-04
      • 1970-01-01
      相关资源
      最近更新 更多