【发布时间】:2017-03-12 02:31:15
【问题描述】:
我想使用 Python 和 PYPDF 包从 pdf 文件中提取文本。 这是我的pdf fie,这是我的代码:
import PyPDF2
opened_pdf = PyPDF2.PdfFileReader('test.pdf', 'rb')
p=opened_pdf.getPage(0)
p_text= p.extractText()
# extract data line by line
P_lines=p_text.splitlines()
print P_lines
我的问题是 P_lines 无法逐行提取数据并导致一个巨大的字符串。我想逐行提取文本来分析它。关于如何改进它的任何建议? 谢谢! 这是代码返回的字符串:
[u'受 29 CFR 1910.1200(i) 约束的化学品的成分信息 和附录 D 来自供应商材料安全数据表 (MSDS)** 信息基于最大可能 浓度,因此总量可能超过 100%* 总水量 来源可能包括淡水、采出水和/或回收水 水0.01271%72.00%7732-18-5水0.00071%4.00%1310-73-2钠 氢氧化物0.00424%24.00%533-74-4Dazomat BiocidePumpcoPlexcide 24L0.00828%75.00%有机膦酸 盐类0.00276%25.00%67-56-1甲醇阻垢剂PumpcoPlexaid 6730.00807%30.00%7732-18-5水0.00188%7.00%聚乙氧基化醇表面活性剂0.00753%28.00%9003-06-9铵 盐类0.00941%35.00%64742-47-8石油馏分摩擦 减速机PumpcoPlexslick 9210.05029%60.00%7732-18-5水0.03353%40.00%7647-01-0氯化氢盐酸PumpcoHCL9.84261%100.00%14808-60-7结晶 SilicaProppantPumpcoSand90.01799%100.00%7732-18-5WaterCommentsMaximumIngredientConcentrationin HF Fluid(% by mass)**MaximumIngredientConcentrationin Additive(% by 质量)**化学文摘服务编号(CAS #)成分用途供应商商品名称水力压裂液成分:2,608,032 总水量(加仑)*:7,595 真垂直 深度(TVD):气体生产类型:NAD27Long/Lat 投影:32.558525纬度:-97.215242经度:Ole Gieser Unit D 6HWell 名称和编号:XTO EnergyOperator 名称:42-439-35084API 编号:塔兰特县:德克萨斯州:2010 年 12 月 10 日断裂日期液压 压裂液产品成分信息公开']
【问题讨论】:
-
我们可以看看返回的字符串的例子吗
-
这是它返回的内容:[u'受 29 CFR 1910.1200(i) 和附录 D 约束的化学品的成分信息来自供应商材料安全数据表 (MSDS)** 信息基于最大浓度潜力,因此总量可能超过 100%* 总水量来源可能包括淡水、采出水和/或循环水0.01271%72.00%7732-18-5Water0.00071%4.00%1310-73- 2氢氧化钠0.00424%24.00%533-74-4DazomatBiocidePumpcoPlexcide 24L0.00828%....
-
将该字符串添加到评论中不太清楚的问题中,您还可以指出字符串中您希望换行符出现的位置
-
刚刚添加到问题中
-
你能粘贴原始PDF吗?或者至少是第一页?