生成 EDGAR FTP 文件路径列表答案

【问题标题】：Generate EDGAR FTP File Path List生成 EDGAR FTP 文件路径列表
【发布时间】：2016-09-19 12:03:43
【问题描述】：

我是编程的新手（尽管我愿意学习），所以提前为我的基本问题道歉。

[SEC 通过 FTP 提供所有文件][1]，最终，我想批量下载这些文件的一个子集。但是，在创建这样的脚本之前，我需要为这些文件的位置生成一个列表，格式如下：

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

51143 = 公司 ID，我已经通过 FTP 访问了我需要的公司 ID 列表
000005114313000007/0000051143-13-000007 = 报告 ID，即“登录号”

我正在努力解决这个问题，因为文档很简单。如果我已经拥有000005114313000007/0000051143-13-000007（美国证券交易委员会称之为“登录号”），那么这非常简单。但我正在寻找约 45k 条目，显然需要为给定的CIK ID（我已经拥有）自动生成这些条目。

是否有自动化的方法来实现这一点？

【问题讨论】：

标签： ftp edgar

【解决方案1】：

欢迎来到 SO。

我目前正在抓取同一个网站，所以我将解释我到目前为止所做的工作。我假设您将获得您要抓取的公司的 CIK 编号。如果您搜索该公司的 CIK，您将获得该公司可用的所有文件的列表。让我们以 Apple 为例（因为他们有大量文件）：

Link to Apple's Filings

您可以在此处设置搜索过滤器。您链接的文档是 10-Q，所以让我们使用它。如果您过滤 10-Q，您将获得所有 10-Q 文档的列表。您会注意到 URL 略有变化，以适应过滤器。

您可以使用 Python 及其网络抓取库获取该 URL，并抓取该页面上表格中文档的所有 URL。对于这些链接中的每一个，您都可以从页面上刮下您想要的任何链接或信息。我个人使用 BeautifulSoup4，但如果您选择 Python 作为您的编程语言，lxml 是网页抓取的另一种选择。我建议使用 Python，因为它很容易学习基础知识和一些中级编程结构。

过去，这个项目是你的。祝你好运，我在下面发布了一些链接来帮助你入门。由于我是该网站的新手，所以我只能发布两个链接，所以我会给你漂亮的汤链接：

Beautiful Soup Home Page

如果您选择使用 Python 并且对这门语言不熟悉，请查看 codecademy python 课程，并且不要忘记查看 lxml，因为有些人更喜欢它而不是 BeautifulSoup（有些人也将两者结合使用，所以这都是个人喜好的问题）。

【讨论】：