【问题标题】:Remove s p a ce s from a word in MS Word doc从 MS Word doc 中的单词中删除空格
【发布时间】:2013-09-17 07:14:27
【问题描述】:

一个 200 页的文件从 PDF 导入到 Word 文档。文本出现乱码,我正在尝试使用 VBA 宏进行清理。

问题是文本看起来像这样

CarrierCOM 是一家进出墨西哥的交通运输公司。 我们提供全方位的服务,包括托管、私人 线路、转换、连接、交叉 -b o rd e r 服务, 根据需要提供互联网、视频会议和专业服务。

我需要帮助删除单词之间随机出现的空格并使输出看起来像这样

CarrierCOM 是一家进出墨西哥的承运商。我们提供一个 全线服务,包括主机托管、专线、 转换、互连、跨境服务、互联网、视频 根据需要提供会议和专业服务。

您能提供的任何帮助将不胜感激。不必是 VBA,可以是任何其他编程语言/技术/软件。

【问题讨论】:

  • 使用更好的软件从 PDF 导出到 Docx?例如见this
  • 没有简单的编程方法可以做到这一点。您如何区分单词之间的适当空格和单词片段之间的空格?您必须积累片段并将它们与字典进行匹配;即使这样也不能保证准确的结果,例如“interconnections”与“interconnections”(都包含有效的英文单词)。最好的办法是按照 Siddharth 的建议找到更好的转换器。

标签: string vba ms-word user-defined-functions


【解决方案1】:

使用 Ctrl-h(搜索和替换)。首先,将“.”(不带引号)替换为“.$%”,这将标记您所有的句尾空格。其次,将“”替换为“”(即,将所有空格替换为空)。第三,将“.$%”替换为“.”以放回句末空格。你去吧;你是程序员。

我忘了说每次替换时,你必须选择 ReplaceAll。另外,从文档的开头开始。

【讨论】:

  • 嗯..单词之间和逗号后面的空格怎么办?你的脚本会删除这些,所以你最终会得到一堆 gobbledegook,只在句号之后有空格。
  • 啊哈哈哈!脑袋放屁!对不起。绝对值得“无用”投票。
  • 到目前为止,我使用过来自 Nuance、Abbyy、OpenOCR、MS OneNote 的 OCR 引擎,但没有一个效果很好。 Zebby Dee,显然你知道这些东西。您认为将此文件转换为 XML 或其他格式可能是一种出路吗?
猜你喜欢
  • 2021-10-16
  • 1970-01-01
  • 2021-08-23
  • 1970-01-01
  • 1970-01-01
  • 2012-05-29
  • 2018-01-10
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多