PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

using System;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

using System.IO;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

using iTextSharp.text.pdf;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

namespace PdfToText

usage:

using System;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

using System.Text;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

using System.IO;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐）

namespace PdfToText

问题，不支持中文，没有布局，仅仅是把每页的所以文字抽取出来，如果想真正实现PDFtoTxt，仍然有好多路要走，但毕竟是个好的开始。

from http://www.codeproject.com/useritems/PDFToText.asp

posted on 2006-06-16 07:26 RubyPDF 阅读(3302) 评论(8) 编辑收藏所属分类: iTextSharp(iText#)

发表评论

回复引用查看

2006-06-16 08:14 | 自適應軟件......

暈,這是個開源的,早就Release出來了.不過,有點遺憾的是,WritePDF的時候,換行的時候,不能判斷行首位字母的時候,自動換行!

另外,把文字從PDF抽出來的時候,怎麼不支持中文呢?不解.還有,既然你已經把文字抽出來了,為甚麼不能實現PDFtoTxt呢,你直接寫到Txt,或者Word不就行了?

回复引用查看

2006-06-16 09:17 | HardRock

这个不是软件，只是一段应用代码，而且也不是我写的，至于为什么不支持中文，这个就不想多说了，至少目前我还没有能力实现它。
关于你说的首位字母的问题，这个有人已经实现，但不愿意公布方法，我也没有研究过，一是能力问题，另外一个是因为写PDF不是我的研究重点。
PDFToText涉及很多问题的，有兴趣你可以看看XPDF的一个工具就比较清楚了。

回复引用查看

2006-07-20 11:46 | zwg51666 [未注册用户]

谢谢HardRock ,那多页tif怎么处理,我现在每次只能得到第一页,谢谢

回复引用查看

2006-07-20 11:55 | HardRock

@zwg51666
你在搞什么？再把一个问题发几遍或者到处乱发，我删除了!

回复引用查看

2006-07-20 12:01 | zwg51666 [未注册用户]

你好,你看下我的代码,为什么,他还是裁图了,我想得到缩放的效果,
if (tif1.ScaledWidth>760)
{
float tempin=(760/tif1.ScaledWidth);
tempin*=100;
this.textBox1.Text=tempin.ToString();
tif1.ScalePercent(tempin);

}
谢谢

回复引用查看

2006-07-20 18:13 | zwg51666 [未注册用户]

我的问题解决了,谢

回复引用查看

2007-03-07 16:40 | minghong [未注册用户]

用xpdf（http://www.foolabs.com/xpdf/about.html）中的pdftotext，加上enc就可以抽出中文了，例如
pdftotext -layout -enc UTF-8 test.pdf

回复引用查看

2007-10-11 05:06 | Ottoniel [未注册用户]

Esta bien, pero no entiendo nada :D