【发布时间】:2011-11-11 19:34:19
【问题描述】:
有人知道在网站上找到最相关的联系信息的脚本/食谱/库吗?
一些可能的情况:
- 在个人网页上查找联系电话号码
- 在博客上查找所有者电子邮件地址
- 查找联系页面的网址
【问题讨论】:
有人知道在网站上找到最相关的联系信息的脚本/食谱/库吗?
一些可能的情况:
【问题讨论】:
查看WSO2's Mashup Server。您可以在本地机器上运行它并按照scraping 的教程进行操作。您可以将所需的动态参数传递到刮板的<http> 元素中,以循环通过运行相同刮板的多个站点,然后将所有内容推送到收集源(用于捕获信息或存储在 WSO2 服务器内的 AJAX 应用程序)。您可以使用 XPath 和 XSLT 编写非常复杂的搜索模式来捕获您想要的信息。
我没有足够的关于您正在抓取的特定网站的信息来帮助编写脚本,但无论您采用哪种方式,都需要进行大量的试验和错误,直到您获得所需的结果。
祝你刮得愉快!
【讨论】:
我不知道有任何图书馆这样做。
嗯,我会使用正则表达式来匹配电话号码和电子邮件地址,结合遍历网站的网络蜘蛛,然后是对联系信息进行排名的方法。
通常情况下,联系信息也将与几个常见标签中的一个一起使用,例如“支持”、“支持电子邮件”、“销售”等。这可能有十几个版本,涵盖了所有标签的 95%英文网站。
所以,基本上我会从构建一个简单的递归网络蜘蛛开始,它遍历给定域中所有可公开访问的页面,解析 HTML 中的电子邮件地址和电话号码,并列出它们,然后根据它们进行排名关于它们是否列在任何常见标签附近。
它不会是完美的,但话又说回来,这是算法价值的一部分——让它变得更智能,并随着时间的推移对其进行调整,直到它变得更好。
【讨论】: