【发布时间】:2022-01-07 20:22:59
【问题描述】:
我正在尝试使用约 300 页的 odt 文档。我知道如何在 python 中加载文档,至少以基本方式。这对 odt 不起作用(它不是 txt 文件)。我对此进行了研究并安装了 odfpy 库,尽管它似乎没有很好的文档记录。我能够让它达到我拥有它的数组的程度。但我不知道如何尝试在多个数组条目中使用正则表达式。于是我试着用“str()”把它转换成一个字符串,得到的只是一长串地址。
我希望能够加载 odt 文档并运行正则表达式以从中删除特定模式。我该怎么做...?到目前为止,我一直在尝试的方法不起作用。我想保持 odt 的结构完好无损。我比较习惯txt。
import sys
import re
from odf.opendocument import load
from odf import text, teletype
infile = load(r'C:\Users\Iainc\Documents\Blah Blah.odt')
allparas = infile.getElementsByType(text.P)
stringallparas = str(allparas)
到目前为止,我相信这是成功的。但是某些适用于 .txt 的东西不起作用。
【问题讨论】:
标签: python arrays regex odt odfpy