【发布时间】:2019-06-28 21:15:43
【问题描述】:
我在尝试使用 python 中的 /tika 端点通过 Tika REST API 处理 Microsoft 文档(.docx、.xlsx 等)时收到 422 错误。
我已尝试通过确保在标头中正确传递内容类型以及将二进制文件传递到端点来解决此问题。
希望看到打印的 .docx 文件的内容。此代码适用于 .pdf 和 .txt,但 Microsoft 扩展均无效。
def tika(files):
url = 'https://[server_url]/tika'
headers = {'Content-Type' : mimetype,'Cache-Control': 'no-cache'}
r = requests.put(url, files=files, headers = headers)
return r
if __name__ == "__main__":
from tkinter import filedialog
from tkinter import *
import json
root = Tk()
root.filename = filedialog.askopenfilename(parent=root,initialdir="/",title='Please select a file to scan')
fin = open(root.filename, 'rb')
files = {'files':fin}
print ('Parsing File: ')
mimetype = mimetypes.MimeTypes().guess_type(root.filename)[0]
print (mimetype)
r = tika(files)
print (r.content)
print(r.status_code)
【问题讨论】:
标签: python apache-tika