所以,简短的回答,是的。这是完全可能的,但你需要先学习一堆东西:
1) DOM 模型 (HTML) 的基础知识,以便您可以解析页面
2)服务器和数据库如何工作的总体思路(以及如何在python中与它们交互——我使用的是什么,或者java)
3) 类似于 2 的小节:了解如何从服务器检索 HTML 文档然后进行解析
那么,一旦你这样做了,这就是程序必须经历的过程:
1) 您需要列出要搜索的页面。如果要搜索整个网站,则需要缩小范围。您可以轻松地将您的程序限制为仅搜索某些类型的论坛,这些论坛在大学理事会上都具有相同的格式。您还需要添加程序的一部分,以构建您的程序找到链接的网页列表。例如,如果 Collegeboard 有一个页面,其中包含大量指向具有统计信息的不同页面的链接,您会希望您的程序扫描该页面以找到指向具有这些统计信息的页面的链接。
2) 您需要找到包含所需信息的 HTML 标记的 ID、位置或某些识别标记。如果您想获得真正的花哨(我的意思是非常花哨),您可以尝试使用一些算法来解析文本并尝试获取信息(也许尝试解析录取统计数据和论坛文本中的内容)
3) 然后,您需要将该信息存储在数据库中,然后索引该数据库并创建一个界面以进行搜索(如果您希望这整个过程都在线,我建议使用 python 框架 Django 使其成为 Web 应用程序)。对于数据库类型,使用Sqlite 3(I)会有意义
是的,完全有可能,但坏消息是:
1) 正如有人已经评论过的那样,您需要为您所做的每种网页格式找出第 2 步。 (网页格式是指不同的页面,不同的布局。栈溢出首页和这个页面不同,但是所有的问题页面都遵循相同的格式)
2) 您不仅需要为每个新网站重复第 2 步,而且如果网站进行了重新设计,您还必须重新设计。
3) 当您完成该程序时,您可能已经很容易自己收集了信息。
另类且不那么酷的选项
您可以搜索网页并提取其所有文本,然后尝试在与大学相关的文本中查找关键字,而不是费尽心思或在网页上搜索特定信息。
但是等等,已经有一些东西可以做到这一点!它被称为谷歌:)。这基本上就是谷歌的工作方式,所以......是的。