【发布时间】:2013-02-24 18:38:23
【问题描述】:
我正在寻找一种从 Github 随机抽样 repos 的解决方案。最终的结果是对样本进行一些数据分析。
我想做的是通过存储库的 id 进行采样:对 0 到 270 万之间的 int 进行采样并找到相关的存储库。获得用户名/repo-name 后,我将使用 api 获取详细信息。
问题是我不知道如何通过 repo id 进行搜索。有什么建议么?我愿意接受网络抓取或 Python 解决方案。
【问题讨论】:
-
不确定是否有帮助,但您可以通过其余 api 通过 int id 访问用户。然后,您可以通过该随机用户访问任何存储库。