【发布时间】:2019-10-13 00:41:13
【问题描述】:
我有一个存储在 excel 中的站点地图。我想遍历每个链接并将网站的文本写入文本文件。循环部分,编写文本内容,工作,但不是手动插入每一页,我想制作一个公式来遍历工作表
只有A列,A1有一个url,A2有下一个url,以此类推
我在 Spyder 和 Anaconda 工作,显然我对此很陌生。尽管有训练营,这可能是我可以在工作中实际使用的第一个项目。我结合了各种在线练习,努力学习正确的语法
import urllib.request
from inscriptis import get_text
import openpyxl
from openpyxl.utils import cell as cellutils
workbook =
openpyxl.load_workbook"C:\Users\Gittel\Desktop\sitemappages.xlsx"
worksheet = workbook.active
for cell in worksheet.col[1]:
url = cell.value
html = urllib.request.urlopen(url).read().decode('utf-8')
text = get_text(html)
file=open("(url).txt","w")
file.write(text)
file.close()
错误消息包括用于识别 Excel 文件的错误语法。我不确定我是否也正确设置了迭代。我希望单元格为每次迭代添加 1(或转到下一行),但我不知道该怎么做。
【问题讨论】:
-
在工作簿路径周围添加括号:openpyxl.load_workbook("C:\Users\Gittel\Desktop\sitemappages.xlsx")
标签: excel python-3.x url iteration writing