解析pdf文件[关闭]答案

【问题标题】：Parsing pdf files [closed]解析pdf文件[关闭]
【发布时间】：2012-05-13 07:25:39
【问题描述】：

我需要根据文件的内容将大型 pdf 文档拆分为较小的文件。我们使用 BCL easyPDF 来操作 pdf 文件。 easyPDF可以根据页码拆分pdf文档，但不能根据文件内容拆分文档。它也没有搜索功能（据我所知，如果我错了，请有人告诉我。）来确定内容的位置。

现在有人可以告诉我如何使用 .net 在 pdf 文件中找到文本的位置吗？

谢谢

【问题讨论】：

是的，但它应该/是一个社区，我们可以帮助那些可能仍在学习语言或协议细节的人。我们可以尝试为他们指明正确的方向。
PDF 不是一种二进制文件吗？您不能只将其解析为文本。需要一个库
我以平常的抱怨开始了我的一年。为什么这是题外话（我知道规则说它是）但它非常有用，许多保留的“最佳”问题（你现在找不到我看到的）都是这种性质的。它们代表了许多经验丰富的开发人员积累的建议（也称为智慧）
这些“离题”投票的愚蠢程度令人难以置信。

【解决方案1】：

您可以尝试Docotic.Pdf library 来完成您的任务。

或者您可以只检索words with their bounding rectangles from PDFs 的集合。这应该可以帮助您找到文件中文本的位置。

免责声明：我为图书馆的供应商工作。

【讨论】：

【解决方案2】：

您需要 .NET 中的 PDF 库，例如 iText.Net。

【讨论】：

【解决方案3】：

看看这个问题。有一些可以满足您要求的库的链接

【讨论】：