【发布时间】:2012-03-05 06:48:40
【问题描述】:
我正在处理一堆 word 文档,其中有突出显示的文本(单词)(使用颜色代码,例如黄色、蓝色、灰色),现在我想提取与每种颜色相关的突出显示的单词。我正在用 Python 编程。这是我目前所做的:
用[python-docx][1]打开word文档,然后找到包含文档中标记(单词)的<w:r>标签。我使用了以下代码:
#!/usr/bin/env python2.6
# -*- coding: ascii -*-
from docx import *
document = opendocx('test.docx')
words = document.xpath('//w:r', namespaces=document.nsmap)
for word in words:
print word
现在我被困在检查每个单词是否具有<w:highlight> 标签并从中提取颜色代码以及它是否与<w:t> 标签内的黄色打印文本匹配的部分。如果有人能指出我从解析的文件中提取单词,我将不胜感激。
【问题讨论】: