【问题标题】:Parsing pdf files [closed]解析pdf文件[关闭]
【发布时间】:2012-05-13 07:25:39
【问题描述】:

我需要根据文件的内容将大型 pdf 文档拆分为较小的文件。我们使用 BCL easyPDF 来操作 pdf 文件。 easyPDF可以根据页码拆分pdf文档,但不能根据文件内容拆分文档。它也没有搜索功能(据我所知,如果我错了,请有人告诉我。)来确定内容的位置。

现在有人可以告诉我如何使用 .net 在 pdf 文件中找到文本的位置吗?

谢谢

【问题讨论】:

  • 是的,但它应该/是一个社区,我们可以帮助那些可能仍在学习语言或协议细节的人。我们可以尝试为他们指明正确的方向。
  • PDF 不是一种二进制文件吗?您不能只将其解析为文本。需要一个库
  • 我以平常的抱怨开始了我的一年。为什么这是题外话(我知道规则说它是)但它非常有用,许多保留的“最佳”问题(你现在找不到我看到的)都是这种性质的。它们代表了许多经验丰富的开发人员积累的建议(也称为智慧)
  • 这些“离题”投票的愚蠢程度令人难以置信。

标签: c# parsing pdf pdf-scraping


【解决方案1】:

您可以尝试Docotic.Pdf library 来完成您的任务。

图书馆可以extract text from PDFs (with or without formatting)

或者您可以只检索words with their bounding rectangles from PDFs 的集合。这应该可以帮助您找到文件中文本的位置。

免责声明:我为图书馆的供应商工作。

【讨论】:

  • 注意:正如 Bobrovsky 提到的,这是一个商业产品。它的价格不菲(尽管适合它的用途)。
【解决方案2】:

您需要 .NET 中的 PDF 库,例如 iText.Net。

【讨论】:

    【解决方案3】:

    看看这个问题。有一些可以满足您要求的库的链接

    How to programatically search a PDF document in c#

    【讨论】:

      猜你喜欢
      • 2010-10-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-03-15
      • 2012-01-10
      相关资源
      最近更新 更多