【发布时间】:2018-09-26 19:15:31
【问题描述】:
我有一个非常大的 docx 文件(700 页),它有一个日志格式
[15/09/2014, 15:30:21] Stijn: Nice
我想把时间去掉,让它看起来像这样
[15/09/2014] Stijn: Nice
我很确定这可以在 python 中完成,但还没有找到确切的方法。 我应该使用这样的东西吗?
line.replace(char,'')
它是一个 whatsapp 日志文件,看起来像这样(一些文本使用 2 行)
[15/09/2014, 15:53:39] Dylan: Beste selfie ever
[15/09/2014, 15:53:52] Sipke: Ja
[15/09/2014, 15:54:05] You changed this group's icon
感谢您的帮助:)
【问题讨论】:
-
我不确定您的数据是如何设置的。如果方括号中的内容是一个单独的列表,则可以使用 .pop() 从每个列表中删除最后一项。
-
我认为最快的方法是压缩打开 docx 并使用模式替换更改主 xml 文件。
-
.docx 文件以专有格式保存,不容易在 word 之外更改(尝试在记事本中打开以了解我的意思),使用 python 解析它们会遇到很多麻烦.有什么办法可以使用其他格式甚至 .txt 文件来代替?
-
@Njord
.docx是XML,因此是x。 -
我的错,我尽量避免使用 .docx 之类的文件,也许这个包可以满足你的需求:github.com/python-openxml/python-docx
标签: python