【问题标题】:Need help in importing data from pdfplumber to .csv file在将数据从 pdfplumber 导入到 .csv 文件时需要帮助
【发布时间】:2020-03-16 07:31:17
【问题描述】:

我使用 pdfplumber 从 pdf 中提取文本,但是当我尝试使用 to_csv 导入数据时抛出 #me 错误。在将数据导入 .csv 时需要帮助

import pdfplumber
import pandas as pd
import numpy as np
import os
import re
from collections import OrderedDict

pdf = pdfplumber.open('C:/Users/Desktop/Mydata.pdf')
page = pdf.pages[1-76]
text = page.extract_text()
text
print(text)



text2 = pd.DataFrame([text])

text2.to_csv("C:\\Users\\Desktop\\MyPDFData\\converted_text.csv")

没有得到导入文件中的数据,只是得到了一个空文件

【问题讨论】:

  • print(text2) 正在显示什么?
  • 您正在使用这一行中的一个元素创建数据框 text2 = pd.DataFrame(['tex1']) 并将其导出到 csv。你确定代码中没有类型吗?
  • 我编辑了代码..并且 print(text2) 显示了这个
  • 0 0 text 这是我打印 text2 时想要显示的文本
  • @MurthyP - 仍然在这个编辑过的代码中,您正在创建一个仅包含单个元素的数据框并将其导出为 csv。您没有将从 pdf 提取的数据导出到 csv。 text2 这是具有单个元素的数据框,即字符串“文本”

标签: python pdf text-extraction tabula python-pdfreader


【解决方案1】:

你可能不需要熊猫来做这件事。 只需先打开 CSV 引擎:

with open(your_csv_file_name, mode='w', newline='') as export_csv:
        csv_writer = csv.writer(export_csv, escapechar=' ', quoting=csv.QUOTE_NONE)
        csv_writer.writerow(text)

有一个很好的了解 CSV 导出的页面:

https://realpython.com/python-csv/?fireglass_rsn=true

【讨论】:

    猜你喜欢
    • 2011-06-14
    • 2015-01-22
    • 2018-07-28
    • 2011-06-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-10-17
    相关资源
    最近更新 更多