【发布时间】:2019-03-18 11:29:48
【问题描述】:
我想将 epub 文件从 .epub 写入 .txt 并只获取文本,我找到了一个库来做。
import epub_conversion
f = open("demofile.txt", "a")
book = open_book("razvansividra.epub")
lines = convert_epub_to_lines(book)
for line in lines:
f.writelines(str(line.encode("utf-8")))
一切都很好,但主要问题是输出是这种格式:
Carte electronic\xc4\x83 publicat\xc4\x83 cu sprijinul Ministerului Afacerilor Externe \xe2\x80\x93 Departamentul Politici pentru Rela\xc8\x9bia cu Rom\xc3\xa2nii de Pretutindeni.'b' 'b'
'b''b''
像“xc4”这样的字符我假设它们来自我的语言中的特殊字符,因为这本书是用我的语言写的。
【问题讨论】: