using System;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
using System.IO;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
using iTextSharp.text.pdf;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
namespace PdfToText

usage:
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)using System;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
using System.Text;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
using System.IO;
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)
namespace PdfToText

问题,不支持中文,没有布局,仅仅是把每页的所以文字抽取出来,如果想真正实现PDFtoTxt,仍然有好多路要走,但毕竟是个好的开始。

from http://www.codeproject.com/useritems/PDFToText.asp
posted on 2006-06-16 07:26 RubyPDF 阅读(3302) 评论(8)  编辑 收藏 所属分类: iTextSharp(iText#)
PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)

  回复  引用  查看  
2006-06-16 08:14 | 自適應軟件......
暈,這是個開源的,早就Release出來了.不過,有點遺憾的是,WritePDF的時候,換行的時候,不能判斷行首位字母的時候,自動換行!

另外,把文字從PDF抽出來的時候,怎麼不支持中文呢?不解.還有,既然你已經把文字抽出來了,為甚麼不能實現PDFtoTxt呢,你直接寫到Txt,或者Word不就行了?
  回复  引用  查看  
2006-06-16 09:17 | HardRock
这个不是软件,只是一段应用代码,而且也不是我写的,至于为什么不支持中文,这个就不想多说了,至少目前我还没有能力实现它。
关于你说的首位字母的问题,这个有人已经实现,但不愿意公布方法,我也没有研究过,一是能力问题,另外一个是因为写PDF不是我的研究重点。
PDFToText涉及很多问题的,有兴趣你可以看看XPDF的一个工具就比较清楚了。
  回复  引用  查看  
2006-07-20 11:46 | zwg51666 [未注册用户]
谢谢HardRock ,那多页tif怎么处理,我现在每次只能得到第一页,谢谢
  回复  引用  查看  
2006-07-20 11:55 | HardRock
@zwg51666
你在搞什么?再把一个问题发几遍或者到处乱发,我删除了!
  回复  引用  查看  
2006-07-20 12:01 | zwg51666 [未注册用户]
你好,你看下我的代码,为什么,他还是裁图了,我想得到缩放的效果,
if (tif1.ScaledWidth>760)
{
float tempin=(760/tif1.ScaledWidth);
tempin*=100;
this.textBox1.Text=tempin.ToString();
tif1.ScalePercent(tempin);

}
谢谢
  回复  引用  查看  
2006-07-20 18:13 | zwg51666 [未注册用户]
我的问题解决了,谢
  回复  引用  查看  
2007-03-07 16:40 | minghong [未注册用户]
用xpdf(http://www.foolabs.com/xpdf/about.html)中的pdftotext,加上enc就可以抽出中文了,例如
pdftotext -layout -enc UTF-8 test.pdf
  回复  引用  查看  
2007-10-11 05:06 | Ottoniel [未注册用户]
Esta bien, pero no entiendo nada :D

相关文章:

  • 2022-02-06
  • 2022-12-23
  • 2021-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-02-17
  • 2021-11-21
猜你喜欢
  • 2022-01-16
  • 2021-10-28
  • 2021-06-04
  • 2022-12-23
  • 2022-12-23
  • 2021-11-19
相关资源
相似解决方案