【发布时间】:2010-10-25 01:26:16
【问题描述】:
我的应用程序允许用户上传 pdf 文件并将它们存储在网络服务器上供以后查看。我将文件的名称、位置、大小、上传日期、用户名等存储在 SQL 服务器数据库中。
我希望能够以编程方式,在文件上传后,生成关键字列表(可能除了常用词之外的所有内容)并将它们存储在 sql 数据库中,以便后续用户可以进行关键字搜索。 ..
关于如何完成这项任务的建议?这些类型的例程是否已经存在?
编辑:只是为了澄清我的要求,我不关心进行 OCR,我不知道 PDF 的内部,但我知道如果它是由应用程序生成的,例如 Word->PDF打印,文档的文本是可搜索的......所以真的是我的第一个任务,我的问题的目的是,如何从 asp.net 应用程序访问 PDF 文件的文本?在这一点上,扫描 PDF 上的 OCR 可能超出了我的要求。
【问题讨论】:
-
您应该记住的一件事是,许多 PDF 实际上是扫描件,带有文本图像,而不是实际的字符串。你想在这种情况下做 OCR 吗?只是需要考虑的事情。
标签: asp.net sql-server pdf