usage:
问题,不支持中文,没有布局,仅仅是把每页的所以文字抽取出来,如果想真正实现PDFtoTxt,仍然有好多路要走,但毕竟是个好的开始。
from http://www.codeproject.com/useritems/PDFToText.asp
发表评论
2006-06-16 08:14 | 自適應軟件......
暈,這是個開源的,早就Release出來了.不過,有點遺憾的是,WritePDF的時候,換行的時候,不能判斷行首位字母的時候,自動換行!
另外,把文字從PDF抽出來的時候,怎麼不支持中文呢?不解.還有,既然你已經把文字抽出來了,為甚麼不能實現PDFtoTxt呢,你直接寫到Txt,或者Word不就行了?
另外,把文字從PDF抽出來的時候,怎麼不支持中文呢?不解.還有,既然你已經把文字抽出來了,為甚麼不能實現PDFtoTxt呢,你直接寫到Txt,或者Word不就行了?
这个不是软件,只是一段应用代码,而且也不是我写的,至于为什么不支持中文,这个就不想多说了,至少目前我还没有能力实现它。
关于你说的首位字母的问题,这个有人已经实现,但不愿意公布方法,我也没有研究过,一是能力问题,另外一个是因为写PDF不是我的研究重点。
PDFToText涉及很多问题的,有兴趣你可以看看XPDF的一个工具就比较清楚了。
关于你说的首位字母的问题,这个有人已经实现,但不愿意公布方法,我也没有研究过,一是能力问题,另外一个是因为写PDF不是我的研究重点。
PDFToText涉及很多问题的,有兴趣你可以看看XPDF的一个工具就比较清楚了。
2006-07-20 11:46 | zwg51666 [未注册用户]
谢谢HardRock ,那多页tif怎么处理,我现在每次只能得到第一页,谢谢
2006-07-20 12:01 | zwg51666 [未注册用户]
你好,你看下我的代码,为什么,他还是裁图了,我想得到缩放的效果,
if (tif1.ScaledWidth>760)
{
float tempin=(760/tif1.ScaledWidth);
tempin*=100;
this.textBox1.Text=tempin.ToString();
tif1.ScalePercent(tempin);
}
谢谢
if (tif1.ScaledWidth>760)
{
float tempin=(760/tif1.ScaledWidth);
tempin*=100;
this.textBox1.Text=tempin.ToString();
tif1.ScalePercent(tempin);
}
谢谢
2006-07-20 18:13 | zwg51666 [未注册用户]
我的问题解决了,谢
2007-03-07 16:40 | minghong [未注册用户]
用xpdf(http://www.foolabs.com/xpdf/about.html)中的pdftotext,加上enc就可以抽出中文了,例如
pdftotext -layout -enc UTF-8 test.pdf
pdftotext -layout -enc UTF-8 test.pdf
2007-10-11 05:06 | Ottoniel [未注册用户]
Esta bien, pero no entiendo nada :D