【发布时间】:2011-06-29 11:02:31
【问题描述】:
我目前正在尝试编写一个脚本,该脚本将运行一个 word 文档并将所有以某种字体编写的行输出到一个文本文件。
如果我有文件:
"这是文档的第一行。 这是文档的第二行。 这是文档的第三行。"
并且说正常线条是 Times New Roman,粗体是 Arial,斜体是 Sans Serif。
然后,理想情况下,我可以解析 Arial 中所有行的文档,文本文件输出将包含以下行:
这是文档的第二行。
关于如何通过脚本执行此操作的任何想法?我正在考虑首先将 doc 转换为 xml,但我认为这在脚本中是不可能的。
【问题讨论】:
标签: parsing ms-word text-parsing