【问题标题】:Is the webpage read? How can I save it to an excel file?网页阅读了吗?如何将其保存到 excel 文件中?
【发布时间】:2014-09-29 22:51:31
【问题描述】:

我想使用 Python 将网页的文本内容保存到 Excel 文件中。作为一个新手,以下是目前为止我能锻炼出来的,不知道对不对。

from bs4 import BeautifulSoup
from urllib2 import urlopen

html = urlopen("http://www.chicagoreader.com").read()
soup = BeautifulSoup(html, "lxml")

看起来还好吗?自动将文本内容保存到 Excel 文件中的下一步是什么?我已经安装了 xlutils 但不知道如何使用它。

有人可以帮我吗?谢谢。

【问题讨论】:

  • 你告诉我们它是否看起来不错。如果你打印汤会发生什么?如果你有你想要的数据,你可以选择一些库来将它们保存在 Excel 文件中。您在考虑什么样的 Excel 文件?如果它必须看起来很整洁,你可以选择pypi.python.org/pypi/xlwt

标签: python excel beautifulsoup


【解决方案1】:

为了使用python写入excel文件,您有几个包可供选择:

所以,这取决于它应该是什么类型的 excel 文件,xlsxlsx,您是否需要格式化,速度是否重要等。

这是一个关于如何使用 xlwt 将网页标题写入 (0,0) 单元格的示例:

import xlwt  
from bs4 import BeautifulSoup
from urllib2 import urlopen

html = urlopen("http://www.chicagoreader.com").read()
soup = BeautifulSoup(html, "lxml")

workbook = xlwt.Workbook()
sheet = workbook.add_sheet('test')

sheet.write(0, 0, soup.title.text)

workbook.save('output.xls')

希望对您有所帮助。

【讨论】:

  • 请不要推荐pyExcelerator。它是旧的、有缺陷的,并且完全被 xlwt 取代。
猜你喜欢
  • 1970-01-01
  • 2014-04-23
  • 1970-01-01
  • 2012-06-26
  • 1970-01-01
  • 2013-05-27
  • 1970-01-01
  • 2016-01-07
  • 1970-01-01
相关资源
最近更新 更多