【问题标题】:Youtube Video Description ScraperYoutube 视频描述刮刀
【发布时间】:2014-04-16 10:30:59
【问题描述】:

我目前正在使用 Youtube 抓取工具从特定视频(音乐封面)中获取描述,并且描述具有我需要的网址(例如,Facebook/用户名)。现在 scraper 提取了整个描述,但我只需要 Facebook 链接。

有人可以创建这样的刮板吗?可能是一个“Scraper”,我在其中输入 10,000 个 Youtube 视频 URL,然后从这些 URL 中提取 Facebook URL 并将它们粘贴到每个新行的文本文档中?

我在这里找到了这个与我需要做的非常相似的主题,但我只需要 Facebook URL。 Save description of a number of youtube videos

【问题讨论】:

  • 找人来编程。
  • 愿意分享您的结果吗?
  • 使用 iMacros 我仍然需要提供刮板 Youtube URL 但是,一旦我启动宏,它会提取我从 Youtube 视频页面请求的相关内容并将其保存为纯文本。 1) 转到 Youtube/watch/... 2) 提取我想要的 URL 参数 (facebook.com/.../) 3) 以纯文本形式保存在我的机器上 4) 冲洗并重复,直到它通过所有 Youtube文本文档中的网址
  • 我最近做了类似的东西。看看这是否相关。

标签: facebook video youtube web-scraping web-crawler


【解决方案1】:

class Namespace_Youtubecrawler_IndexController extends Mage_Core_Controller_Front_Action
{

    public function indexAction()
    {
        //this $hashes array, populated by youtube_videos_only_hash.txt, contains youtube identifiers.
        $hashes = array_unique(explode("\n", file_get_contents(Mage::getBaseDir('var') . DS . 'youtube_videos_only_hash.txt')));
        foreach ($hashes as $hash) {
            $json = json_decode(file_get_contents('http://gdata.youtube.com/feeds/api/videos/' . $hash . '?v=2&alt=json'), true);
            $description = $json['entry']['media$group']['media$description']['$t'];
            //if page contains bit.ly or pagesize with the description then the video's URL is logged in custom log file.
            if ((strpos($description, 'pgsize') !== false) || (strpos($description, 'bit.ly') !== false)) {
                $outdatedURL = 'http://www.youtube.com/watch?v=' . $hash;
                Mage::log($outdatedURL, null, 'outdatedURLs.log', true);
            }
        }
    }
}

在我收集了要检查的 URL 列表后,使用一些快速的 Excel 函数,我将这些 URL 分解为它们的组成标识符(youtube 视频 URL 末尾的哈希对应于它在 youtube 上的“位置”)。

然后我使用了 youtube 的原生 JSON 编码页面(示例):

http://gdata.youtube.com/feeds/api/videos/oHg5SJYRHA0?v=2&alt=json&prettyprint=true

然后上面检查某些参数的描述。我相信您可以轻松地对其进行修改以识别 Facebook 网址。找到参数后,它会重新组合 youtube URL 并将其记录下来(在本例中是在我们的服务器上)。

【讨论】:

  • 这和我的完全不同。我会链接你我的代码示例,但是它在我家的 PC 上,并且不能 VNC atm :((今天早上也删除了启动参数,呃)。无论如何,我把它进行测试,看起来很有希望。我认为这样的事情会是也适用于 Soundcloud 或任何其他网站?我正在为 Soundcloud 制作 Facebook URL 的抓取工具。+1
  • @MisterK 我使用了 json 编码的 youtube 页面,因为访问数组中的元素比扫描整个页面的元素然后检查元素本身要容易得多(也更快)在它的内容。您可以修改它以轻松查看纯文本 URL。只需查看如何检查元素,您基本上就可以参加比赛了。
  • 哇,太棒了,今晚我会破解这个,非常感谢! :)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2015-07-26
  • 2016-04-12
  • 2012-05-27
  • 2014-02-09
  • 1970-01-01
  • 2016-03-05
  • 2011-09-19
相关资源
最近更新 更多