【发布时间】:2018-05-09 01:48:07
【问题描述】:
我听说URI::extract() 只返回带有: 的链接,但是由于我正在抓取一条推文,并且它不包含:,我相信我必须使用正则表达式。我需要检查“swoo.sh/whatever”链接,并将其存储到变量中。但是,关于我必须维护/ 之后的所有内容,我怎么能找到第一个(它显然会自动返回)“swoo.sh/whatever”链接。例如,如果推文说
Lorem ipsum lorem ipsum swoo.sh/12xfsW lorem ipsum
我如何获取 swoo.sh 链接,以及直接出现在 / 之后的所有不同内容?
【问题讨论】:
-
swoo.sh 修复了吗?
-
我假设此类链接在 twitter 上是可点击的,这意味着原始 HTML 中将包含实际的 URI,从而使这项任务变得微不足道。您确定不能使用不同的 API/scraper 来获取推文的实际 HTML 内容吗?