【问题标题】:Generate EDGAR FTP File Path List生成 EDGAR FTP 文件路径列表
【发布时间】:2016-09-19 12:03:43
【问题描述】:

我是编程的新手(尽管我愿意学习),所以提前为我的基本问题道歉。

[SEC 通过 FTP 提供所有文件][1],最终,我想批量下载这些文件的一个子集。但是,在创建这样的脚本之前,我需要为这些文件的位置生成一个列表,格式如下:

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

  • 51143 = 公司 ID,我已经通过 FTP 访问了我需要的公司 ID 列表
  • 000005114313000007/0000051143-13-000007 = 报告 ID,即“登录号”

我正在努力解决这个问题,因为文档很简单。如果我已经拥有000005114313000007/0000051143-13-000007(美国证券交易委员会称之为“登录号”),那么这非常简单。但我正在寻找约 45k 条目,显然需要为给定的CIK ID(我已经拥有)自动生成这些条目。

是否有自动化的方法来实现这一点?

【问题讨论】:

    标签: ftp edgar


    【解决方案1】:

    欢迎来到 SO。

    我目前正在抓取同一个网站,所以我将解释我到目前为止所做的工作。我假设您将获得您要抓取的公司的 CIK 编号。如果您搜索该公司的 CIK,您将获得该公司可用的所有文件的列表。让我们以 Apple 为例(因为他们有大量文件):

    Link to Apple's Filings

    您可以在此处设置搜索过滤器。您链接的文档是 10-Q,所以让我们使用它。如果您过滤 10-Q,您将获得所有 10-Q 文档的列表。您会注意到 URL 略有变化,以适应过滤器。

    您可以使用 Python 及其网络抓取库获取该 URL,并抓取该页面上表格中文档的所有 URL。对于这些链接中的每一个,您都可以从页面上刮下您想要的任何链接或信息。我个人使用 BeautifulSoup4,但如果您选择 Python 作为您的编程语言,lxml 是网页抓取的另一种选择。我建议使用 Python,因为它很容易学习基础知识和一些中级编程结构。

    过去,这个项目是你的。祝你好运,我在下面发布了一些链接来帮助你入门。由于我是该网站的新手,所以我只能发布两个链接,所以我会给你漂亮的汤链接:

    Beautiful Soup Home Page

    如果您选择使用 Python 并且对这门语言不熟悉,请查看 codecademy python 课程,并且不要忘记查看 lxml,因为有些人更喜欢它而不是 BeautifulSoup(有些人也将两者结合使用,所以这都是个人喜好的问题)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-04-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多