【发布时间】:2018-07-09 09:11:27
【问题描述】:
我正在寻找以下问题的简单解决方案: 我必须创建文档的变体并将它们导出为图像。这可以通过 MS Word 邮件合并轻松完成,但我需要该文档中每个文本块的像素位置。输入图像和像素位置以进行 AI 训练。
目前我能想到几种方法:
- 将 MS Word Mail Merge 输出放入 OCR 并尝试通过将它们与原始文本源进行比较来识别文本块的位置。
- 使用 JS、Python 或 Visual Basic 之类的东西创建文档,并在插入时保存每个插入文本块的确切位置。
- 也许使用 Visual Basic for Word 从使用邮件合并功能创建的 MS Word XML 文件中提取文本位置。
变体 1 似乎过于复杂,因为它使用了某种逆向工程。此外,即使在完全可读的文档上使用 OCR 也总是会导致错误。
所以变体 2 或 3 看起来不错,但我不知道任何符合要求的库,而 Visual Basic for Word 对我来说绝对是新领域。
我希望我对问题的描述足够好。如果你想让我澄清一些事情,请告诉我。
我感谢每一个想法和帮助! :)
最好的问候 亨里克
【问题讨论】:
标签: vba machine-learning ms-word