【问题标题】:Importing and working with word2vec GoogleNews-vectors-negative300.bin.gz into R将 word2vec GoogleNews-vectors-negative300.bin.gz 导入并使用到 R
【发布时间】:2017-11-27 03:40:40
【问题描述】:

我是 word2vec 算法的忠实粉丝。我已经获得了谷歌研究团队制作的向量二进制文件,我想对此进行一些分析(我之前在比谷歌所做的小得多的数据集上进行过分析)。

我无法将文件 GoogleNews-vectors-negative300.bin.gz 导入 R。

我已经提取了它,并使用 rword2vec(在 github 上找到)从 bin 转换为 txt 文件。 包里面有个搜索功能,就是太慢了。

这就是为什么我现在尝试在 R 中导入文件并将其转换为 dataframe ,如果可能的话,使用结构:

name | vec1 | ... | vec300

我曾尝试内置 readBin(无法获取名称),也尝试使用带有 txt 的 readLines(未完成)或 readr 包和 read_lines(仅制作 12Mb 大向量)

你能指出我正确的方向吗?

【问题讨论】:

    标签: r word2vec


    【解决方案1】:

    我终于找到了办法。

    使用包rword2vec,可以使用包中提供的函数bin_to_txt或框架。有关详细信息,请参阅提供的插图。

    library(rword2vec)
    dist=distance(file_name = "GoogleNews-vectors-negative300.bin",search_word = "king",num = 10)
    dist
    
               word              dist
    1         kings 0.713804960250854
    2         queen 0.651095926761627
    3       monarch 0.641319692134857
    4  crown_prince 0.620422065258026
    5        prince 0.615999639034271
    6        sultan 0.586482524871826
    7         ruler 0.579756796360016
    8       princes 0.564655303955078
    9  Prince_Paras 0.543294668197632
    10       throne 0.542210519313812
    

    【讨论】:

      猜你喜欢
      • 2018-03-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-05-09
      • 2020-06-04
      • 2016-03-02
      • 2015-11-24
      • 1970-01-01
      相关资源
      最近更新 更多