【问题标题】:Extracting URLs from a text file从文本文件中提取 URL
【发布时间】:2015-07-02 15:51:07
【问题描述】:

如何一一提取我保存在文本文件中的链接以在我的其他代码中使用它:-

文本文件中的链接示例是:-

http://www.barneys.com/givenchy-poplin-field-shirt-504068255.html

我的文本文件中只有 URL,一行中没有多个 URL。

我必须在其中使用链接的其他代码是:-

import requests, re
from bs4 import BeautifulSoup
url=" " #here I have to use the links one by one
r=requests.get(url)

【问题讨论】:

  • 你知道如何打开和读取文件吗?您从中获取 URL 的事实完全无关
  • 你的文本文件里有什么?是否只有 URL 或其他文本?任何给定的行上是否可以有多个 URL?
  • 我没有关注你。我要做的是,将链接保存在文本文件中,然后在我的其他代码中使用它们从该链接中一一获取相关详细信息。
  • 不,只有我有的网址,一行没有多个网址。

标签: python regex url beautifulsoup extract


【解决方案1】:
with open(file_name) as f:
    urls = f.readlines()

urls = ([s.strip('\n') for s in urls ])


for url in urls:
    # insert code here to do whatever you want with one url

这就是你想要的吗?这将读取每一行并将其存储到此列表中。

编辑删除列表元素中的“\n”字符

【讨论】:

  • 你现在有一个 url 列表,所以枚举它们
  • 你需要.strip()来转义'\n'
  • 我没有关注你@Dportology。我是python新手,请帮我写代码..提前谢谢!
  • 只需使用此代码,并将“file_name”替换为包含 url 的文本文件的路径。然后这些 url 将存储在 urls 列表中,您可以随意使用它们。我不知道你想用它们做什么,但我猜你的选择是开放的!
  • 这是我的代码:- pastebin.com/SnrTXAZB 我想一个一个地使用每个网址。请查看我的代码并给我一些建议...谢谢。 @Dportology
猜你喜欢
  • 1970-01-01
  • 2011-11-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-04-04
  • 1970-01-01
相关资源
最近更新 更多