【发布时间】:2022-01-21 13:51:58
【问题描述】:
我有一份“亚洲涂料有限公司”的年度报告 pdf。我想提取“合并资产负债表页面”(PDF 中的第 216 页)。我使用 PyPDF 并创建了一个函数来提取所有文本,搜索关键术语“合并资产负债表”,并返回找到它的页码。
但是,我希望我的函数将其中包含“合并资产负债表”一词的一页识别为带有所需表格的 标题(也称为此 pdf 中的第 216 页)。
这是我的代码:
import PyPDF2
import re
def extract_page_num(keyTerm):
# Open pdf
object = PyPDF2.PdfFileReader("D:\AR_18126_ASIANPAINT_2020_2021_07062021194954.pdf")
# get number of pages
NumPages = object.getNumPages()
# extract page number
for i in range(0, NumPages):
PageObj = object.getPage(i)
Text = PageObj.extractText()
Text = Text.replace('˜','fi')
reSearch = re.findall(keyTerm, Text)
if reSearch:
#print("Page Number is " + str(i))
#print(reSearch)
return i
bs_no = extract_page_num('Consolidated Balance Sheet')
这是年度报告的链接:https://www.bseindia.com/bseplus/AnnualReport/500820/68521500820.pdf
提前感谢您抽出时间来解决我的问题!
【问题讨论】:
标签: python pdf ocr finance pypdf