【发布时间】:2019-02-12 05:15:13
【问题描述】:
我想在 csv 中打印这些数据,这样我就可以为我的网络抓取代码循环许多公司。
我在 stackoverflow 本身的帮助下获取此代码,并希望将此打印格式转换为 excel 或 csv,每列有或没有 149 卢比。
import pandas as pd
import requests
from bs4 import BeautifulSoup as bs
url = 'https://www.zaubacorp.com/documents/KAKDA/U01122MP1985PTC002857'
res = requests.get(url)
soup = bs(res.content,'lxml')
headers = [header.text for header in soup.select('h3.pull-left')]
tables = pd.read_html(url)
items = zip(headers,tables)
for header, table in items:
print(header)
print(table)
**
Certificates
Date Title ₨ 149 Each
0 2006-04-24 Certificate of Incorporation Add to Cart
1 2006-04-24 Certificate of Incorporation Add to Cart
Other Documents Attachment
Date Title ₨ 149 Each
0 2006-04-24 AOA Add to Cart
1 2006-04-24 AOA Add to Cart
2 2006-04-24 MOA Add to Cart
3 2006-04-24 MOA Add to Cart
Annual Returns and balance sheet Eform
Date Title ₨ 149 Each
0 2006-04-24 Annual Return 2002_2003 Add to Cart
1 2006-04-24 Annual Return 2003_2004 Add to Cart
**
【问题讨论】:
-
Python 自带CSV input and output library。请先尝试一下,因为目前这个问题有点太宽泛了,IMO。
-
我仍然想不出办法将其打印到 csv
-
您正在使用 pandas 存储表格。为什么不使用 'df.to_csv()' ?
-
这不会发生,因为标题值为 str 而表为 df。
标签: html pandas csv beautifulsoup screen-scraping