【发布时间】:2015-05-05 18:15:37
【问题描述】:
我成功地从网站列表中提取了我需要的文本。问题是当我以 csv 格式保存它时,一些行会因为长文本和文本中的行之间的中断而变得混乱。 例如:
(无法上传图片:()
所以以 0s/1s 开头的行来自不同的网站,但此图像中的最后一个网站在 csv 文件中开始了几个新行。这使我无法继续进行文本分析。
任何帮助都将受到高度赞赏,因为到目前为止找不到解决方案。
非常感谢
编辑 - 添加代码: 这行也不是:
data = "".join(sel.select("//body//text()").extract()).strip()
也不是这行代码:
data = " ".join(" ".join(sel.select("//body//text()").extract()).strip().split())
没用
【问题讨论】:
-
您能否添加有关该提取文本的更多详细信息或提供一些您从该页面提取的示例链接和实体?