【发布时间】:2015-12-07 13:53:14
【问题描述】:
我正在使用this code 将 pdf 转换为文本,它工作正常但不支持瑞典字符, 喜欢:
correect swedish word = incorrect word
Förnamn = Fšrnamn,
Försäljningsdatum = FšrsŠljningsdatum,
varumärket = varumŠrket,
terförsäljaruppgifter = terfšrsŠljaruppgifter
代码是:
<?php
require_once "pdf.pdf2text.inc";
$filename = "customerfile.pdf";
$pdf = new Pdf(urldecode($filename));
print utf8_decode($pdf->getText());//with utf-8
print $pdf->getText(); //without utf-8
?>
我添加了 utf-8 编码/解码,但它不起作用。 using this code
请任何人帮助我或建议我使用此代码显示正确的文本(单词)。
提前致谢。
【问题讨论】:
-
只是快速检查一下 - 您是在页面中还是在命令行中输出它?如果是前者,是否设置了正确的内容类型?
-
terförsäljaruppgifter 实际上不是瑞典语单词。我想你的意思是återförsäljaruppgifter。
-
不确定这是否会有所帮助kunststube.net/encoding 如果您查看 pdf2text 中的代码,可能有一种方法可以添加一个函数以使其处理其他字符。 github.com/saubhagya/pdf2text 如果您与他们联系,它的作者可能会很乐意提供帮助。
-
他们自己的笔记drupal.org/node/1079780 建议了处理德语“元音变音”的方法——也许它可能适用于瑞典语。从他们的 Drupal pdf2test 问题页面drupal.org/project/issues/…
-
根据@GrahamAsher,您可以在 DOCTYPE 下找到
<html lang="sv">可能会有所帮助。
标签: php drupal github shared-libraries pdftotext