【发布时间】:2016-05-01 14:44:06
【问题描述】:
我正在从网站上抓取文本并将其导出到记事本文档中。我正在尝试分隔段落,尝试了 print + '\n' 的所有可能组合,但没有任何效果。我想知道我做错了什么,因为我只将一大块文本导入到记事本文档中。我是新手,所以如果您解释我正在做的错误,而不仅仅是提供解决方案,那就太好了。谢谢! PS-另外,我认为我必须在提取操作后使用“outfile.close()”,但如果我这样做,脚本就不起作用......
from bs4 import BeautifulSoup
import urllib.request, re
req = urllib.request.urlopen('https://en.wikipedia.org/wiki/Gautama_Buddha')
soup = BeautifulSoup(req, 'html.parser')
req.addheaders = [ ('User-agent', 'Mozilla/5.0') ]
title = soup.title.text
body = soup.find_all('p')
outfile = open("wiki_test.txt","wb")
for i in body:
print(i.text)
outfile.write(bytes(i.text+'\n'+"###############", 'UTF-8'))
【问题讨论】:
标签: python text newline block spaces