【问题标题】:extract url from javascript text using python使用python从javascript文本中提取url
【发布时间】:2017-12-31 14:49:17
【问题描述】:

我正在使用 python 和 beautifulsoup 来解析对象,我正在尝试使用 re.findall 提取 url

<a class="btn btn-danger btn-sm" href="javascript: void(0);"
onclick="if (confirm('Delete link
http://gorillavid.in/8538jm5bptgd')) { removeLink(71603335); }"><i
class="fa fa-trash "></i></a>

我正在尝试提取网址https://gorillavid.in/97ylvj76qjeh

我正在尝试这种表达方式:

re.search("Delete link\s* (.*?)',", data).group(1)
re.findall(r'(https?://[^\s]+)', link)

这给了我一个错误,它不是一个字符串。

【问题讨论】:

  • 你的代码很难格式化,请自行重新格式化。
  • 很抱歉这是我在这个网站上的第一个问题。我已经重新格式化了它

标签: python regex linux anaconda


【解决方案1】:

如果您想使用 findall 查找 url,您可以使用捕获组:

'Delete link\s+(.+?)(?=')

说明

  • 匹配'删除链接
  • 匹配一个或多个空格\s+
  • 在一个组中捕获任何角色一次或多次不贪心(这包含您正在寻找的值)
  • 积极的前瞻(?=
  • 断言接下来是'
  • 关闭正向前瞻)

Demo

【讨论】:

  • 谢谢它的工作我忘了把那个答案作为正确答案..再次感谢
猜你喜欢
  • 2017-02-13
  • 1970-01-01
  • 1970-01-01
  • 2015-08-24
  • 2018-01-22
  • 1970-01-01
  • 2011-10-03
  • 1970-01-01
  • 2011-11-27
相关资源
最近更新 更多