【问题标题】:pdf to text convert using php and drupal使用php和drupal将pdf转换为文本
【发布时间】:2015-12-07 13:53:14
【问题描述】:

我正在使用this code 将 pdf 转换为文本,它工作正常但不支持瑞典字符, 喜欢:

correect swedish word     = incorrect word    
Förnamn                   = Fšrnamn,
Försäljningsdatum         = FšrsŠljningsdatum,
varumärket                = varumŠrket,
terförsäljaruppgifter     = terfšrsŠljaruppgifter

代码是:

<?php
    require_once "pdf.pdf2text.inc";
    $filename = "customerfile.pdf";
    $pdf = new Pdf(urldecode($filename));
    print utf8_decode($pdf->getText());//with utf-8
    print $pdf->getText(); //without utf-8
?>

我添加了 utf-8 编码/解码,但它不起作用。 using this code

请任何人帮助我或建议我使用此代码显示正确的文本(单词)。

提前致谢。

【问题讨论】:

  • 只是快速检查一下 - 您是在页面中还是在命令行中输出它?如果是前者,是否设置了正确的内容类型?
  • terförsäljaruppgifter 实际上不是瑞典语单词。我想你的意思是återförsäljaruppgifter。
  • 不确定这是否会有所帮助kunststube.net/encoding 如果您查看 pdf2text 中的代码,可能有一种方法可以添加一个函数以使其处理其他字符。 github.com/saubhagya/pdf2text 如果您与他们联系,它的作者可能会很乐意提供帮助。
  • 他们自己的笔记drupal.org/node/1079780 建议了处理德语“元音变音”的方法——也许它可能适用于瑞典语。从他们的 Drupal pdf2test 问题页面drupal.org/project/issues/…
  • 根据@GrahamAsher,您可以在 DOCTYPE 下找到&lt;html lang="sv"&gt; 可能会有所帮助。

标签: php drupal github shared-libraries pdftotext


【解决方案1】:

iconv(); 可能是http://php.net/manual/fr/function.utf8-decode.php

$myUnicodeString = "Åäö"; echo iconv("UTF-8", "ISO-8859-1", $myUnicodeString); 正如一些 cmets 所说,UTF-8_decode(); 不足以处理重音。

根据Saubhagya 对 Drupal.org 的评论:

在数组 $_pdfDocToUni 第 18 行文件 initialize.pdf2text.inc 中添加所需字符的八进制和 unicode 等效项(请记住,八进制需要为 3 位,就像在数组的其他条目中一样)。

然后只需转到 pdf2text.module 的第 335 行,并以与其他字符相同的格式添加您的字符。

https://www.drupal.org/node/1079780

不确定“只是”这个词的用法,但它可能会有所帮助......

这似乎是他正在谈论的模块,它确实有他提到的数组 - 也许您的版本可能缺少模块 - 似乎有很多提供

http://cgit.drupalcode.org/pdf2text/tree/pdf2text.module?id=a15059bc1531aa336fef255397ba362c81c9fce5

【讨论】:

    猜你喜欢
    • 2011-01-04
    • 2012-11-05
    • 1970-01-01
    • 2015-09-13
    • 1970-01-01
    • 1970-01-01
    • 2012-03-02
    • 2014-05-05
    • 2012-05-05
    相关资源
    最近更新 更多