【发布时间】:2020-10-24 01:37:47
【问题描述】:
我有一个从 pdf 中提取表格数据的代码,我想将数据框转换为字典,如果我在 tabula 中提到输出为 JSON,它也会给出不需要的坐标。我只想要表中存在的数据。如果把数据框转成字典,我可以继续做其他的处理工作
from tabula import read_pdf
from tabulate import tabulate
import pandas as pd
df = read_pdf("http://www.uncledavesenterprise.com/file/health/Food%20Calories%20List.pdf",multiple_tables=True,pages='3' ,pandas_options={'header':None},guess = False)
print (df)
【问题讨论】:
-
您可以使用 df.to_dict() 或 df.to_dict(orient='records')
-
@PramoteKuacharoen 它给了我这个错误 AttributeError: 'list' object has no attribute 'to_json'
-
你必须在你的数据框上做,而不是一个列表。