【问题标题】:NLP Human Generated Captions [closed]NLP 人工生成的字幕 [关闭]
【发布时间】:2020-05-10 17:34:02
【问题描述】:

我需要高质量的人工生成字幕。如何查询维基百科存储的字幕。示例返回所有包含单词直升机的标题

【问题讨论】:

  • 请添加更多详细信息,说明您到目前为止所尝试的内容。包括,代码和过程。你爬过维基百科页面吗?
  • 欢迎来到 Stack Overflow。请参观了解 Stack Overflow 的工作原理,并阅读 How to Ask 了解如何提高问题的质量。然后编辑您的问题以包含您作为minimal reproducible example 的源代码,其他人可以对其进行编译和测试。也可以查看help center,看看你可以问什么问题。
  • Nikhil...我不知道从哪里开始...查询字幕...我需要数据,人工生成的字幕。你知道我如何查询 wikicommons 标题
  • “查询字幕”是什么意思?您的意思是要从 wikipedia/wikicommons 网页中提取与标题相关的文本?
  • 我需要人工生成的字幕。所以我想提取尽可能多的包含直升机这个词的人工生成的字幕。我认为 wiki 有大量图像,但我对图像不感兴趣,但我对标题感兴趣。所以我想从维基百科下载所有包含直升机这个词的字幕

标签: nlp artificial-intelligence wikipedia


【解决方案1】:

您不能查询 Wikipedia 标题(当然,您可以在屏幕上抓取它们)。虽然 Wikimedia Commons 有一些机器可读的标题(它是 in the process 转换到更结构化的数据格式)但转储尚不可用(请参阅 T221917T174031)所以你可能不会最好使用这些。

如果您不需要大量数据,您可以查看 Commons 的每日图片,其标题存储在一个单独的页面上,名称可预测,Template:Potd/YYYY-MM-DD_(LL)(例如https://commons.wikimedia.org/wiki/Template:Potd/2020-05-01_(en))。不过,您仍然需要进行一些轻量级的 wikitext 或 HTML 解析。

【讨论】:

  • 谢谢你,这是一个开始
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-05-25
  • 1970-01-01
  • 2011-10-26
相关资源
最近更新 更多