【发布时间】:2018-08-07 12:49:22
【问题描述】:
我尝试读取 .doc 文件,例如 -
with open('file.doc', errors='ignore') as f:
text = f.read()
它确实读取了那个文件,但是有大量垃圾,我无法删除那个垃圾,因为我不知道它从哪里开始和结束。
我还尝试安装 textract 模块,该模块表示它可以读取任何文件格式,但在 Windows 中下载时存在许多依赖性问题。
所以我交替使用antiword 命令行实用程序执行此操作,我的答案如下。
【问题讨论】:
-
doc是一种过时的二进制格式。docx是一个包含 XML 文档的 zip 文件。您不能像阅读文本文件一样阅读它们中的任何一个 -
@PanagiotisKanavos 我必须使用 ML 根据文件内容执行文本分类任务。我有 .pdf .doc .docx 和 .txt 扩展名的文件。我这样做是为了从文件中获取文本内容,我错了吗?如果是这样,那么如果我无法从文件中读取文本,我该如何对文本进行分类。请澄清。