【发布时间】:2013-09-17 07:14:27
【问题描述】:
一个 200 页的文件从 PDF 导入到 Word 文档。文本出现乱码,我正在尝试使用 VBA 宏进行清理。
问题是文本看起来像这样
CarrierCOM 是一家进出墨西哥的交通运输公司。 我们提供全方位的服务,包括托管、私人 线路、转换、连接、交叉 -b o rd e r 服务, 根据需要提供互联网、视频会议和专业服务。
我需要帮助删除单词之间随机出现的空格并使输出看起来像这样
CarrierCOM 是一家进出墨西哥的承运商。我们提供一个 全线服务,包括主机托管、专线、 转换、互连、跨境服务、互联网、视频 根据需要提供会议和专业服务。
您能提供的任何帮助将不胜感激。不必是 VBA,可以是任何其他编程语言/技术/软件。
【问题讨论】:
-
使用更好的软件从 PDF 导出到 Docx?例如见this
-
没有简单的编程方法可以做到这一点。您如何区分单词之间的适当空格和单词片段之间的空格?您必须积累片段并将它们与字典进行匹配;即使这样也不能保证准确的结果,例如“interconnections”与“interconnections”(都包含有效的英文单词)。最好的办法是按照 Siddharth 的建议找到更好的转换器。
标签: string vba ms-word user-defined-functions