【发布时间】:2021-04-01 08:53:34
【问题描述】:
我正在使用 python-docx 库获取 docx 文件的所有文本。其简化代码如下
from docx import Document
def read_element(doc):
for p in doc.paragraphs:
print('paragraph text:', p.text)
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
read_element(cell)
doc = Document("<path to file>")
read_element(doc)
这在许多情况下都非常有效,除非我从通过 Microsoft Word 模板生成的文件中读取。在这些情况下,它只读取我在文件中写入的输入,而不是模板附带的文本
复制
- 通过
Create from template创建 Microsoft Word 文档 - 在里面写一个字,即“测试”
- 保存
- 在上面的代码中替换它的路径
- 运行代码
输出:
paragraph text: testing
paragraph text: To learn more and get OneNote, visit .
当文件的文本多于输出内容时
做笔记测试
- 要记笔记,只需点按此处并开始输入。
- 或者,使用免费的 OneNote 应用,轻松为您的所有笔记创建一个数字笔记本,并在您的设备之间自动同步。
如需了解详情并获取 OneNote,请访问www.onenote.com。
我们也可以在我们尝试读取的文件图像中看到Docx file
关于如何找回丢失的文本有什么想法吗?
【问题讨论】:
标签: python ms-word python-docx