【问题标题】:Database or List of English First and Last Names [closed]数据库或英文名字和姓氏列表[关闭]
【发布时间】:2013-08-25 20:29:43
【问题描述】:

我遇到了一些较小的名称列表/名称集,但我想知道是否有免费的数据源可以提供名称列表(逗号分隔或 sql 结构)?

我找到了这两个网站:

http://names.mongabay.com/most_common_surnames.htm

http://baby-names.familyeducation.com/browse/letter/a?detoured=1

但是您似乎只能浏览名称,而不能下载综合文件。

美国人口普查局不提供这些信息吗?

【问题讨论】:

    标签: resources datasource


    【解决方案1】:

    我正在编译一个数据库,其中包含来自不同国家和文化的姓氏,其中包括英国。 项目及其数据集可以在这里找到:https://github.com/enorvelle/NameDatabases(死:链接、项目和 GitHub 帐户)

    这似乎已迁移到 github.com/smashew/NameDatabases(唯一贡献者“Erik Norvelle”。)

    【讨论】:

    • 这个好像没有更多了。
    • @BorisD.Teoharov,链接已更新。
    【解决方案2】:

    我能找到的最好的来源是社会保障局提供的数据 - 与人口普查数据不同,他们每年都有名字,可以追溯到 1900 年左右。

    https://www.ssa.gov/oact/babynames/limits.html

    【讨论】:

      【解决方案3】:

      人口普查局提供了 2000 年和 1990 年人口普查中的常见姓氏列表: http://www.census.gov/topics/population/genealogy/data/2000_surnames.html http://www.census.gov/topics/population/genealogy/data/1990_census/1990_census_namefiles.html

      1990 年的人口普查文件也列出了常见的男性和女性姓名。

      【讨论】:

        【解决方案4】:

        选项 1) 我将数百万人的数据上传到 github,这些数据是从不同的网站抓取并从 Google 开放数据集转储的。

        https://github.com/aakashkag/People-Name-List [名和姓目录的 Github 链接]

        选项 2)

        Google BigQuery 公共数据集: https://cloud.google.com/bigquery/public-data/

        您可以从 Google 开放数据集中获取姓名以及性别。

        1)数据集:bigquery-public-data:github_repos

        例如:https://app.hyfy.io/v/abRJ75Xizno/

        查询:SELECT * FROM fh-bigquery.popular_names.usa_summary_1880_2015 LIMIT 1000 可用名称总数:1858689

        2)日期集:bigquery-public-data.github_repos.commits

        查询:SELECT author.name 作为 author_name,author.email 作为 author_email,committer.name 作为 committer_name,committer.email 作为 committer_email,repo_name FROM bigquery-public-data.github_repos.commits

        3)日期集:bigquery-public-data.usa_names.usa_1910_2013`

        查询:SELECT * FROM bigquery-public-data.usa_names.usa_1910_2013

        或者你可以从 Linkdin 获取 https://www.linkedin.com/directory/people-a

        【讨论】:

        • 看起来很酷,但您能否提供有关数据来源的更多信息?我不确定这适用于哪些国家和语言,或者数据来自哪里。
        • 不幸的是,“名字”文件几乎毫无用处。看起来更像用户名而不是名字。
        • @CodeBling 更新了我的答案也更新了数据集
        • @AakashKag 数据的来源是什么?
        • 此存储库使用 Git 大文件存储,免费帐户有 1GB 带宽配额。
        猜你喜欢
        • 1970-01-01
        • 2022-01-12
        • 1970-01-01
        • 1970-01-01
        • 2014-10-07
        • 2016-02-22
        • 1970-01-01
        • 2021-05-04
        • 2013-11-04
        相关资源
        最近更新 更多