将 word2vec GoogleNews-vectors-negative300.bin.gz 导入并使用到 R答案

【问题标题】：Importing and working with word2vec GoogleNews-vectors-negative300.bin.gz into R将 word2vec GoogleNews-vectors-negative300.bin.gz 导入并使用到 R
【发布时间】：2017-11-27 03:40:40
【问题描述】：

我是 word2vec 算法的忠实粉丝。我已经获得了谷歌研究团队制作的向量二进制文件，我想对此进行一些分析（我之前在比谷歌所做的小得多的数据集上进行过分析）。

我无法将文件 GoogleNews-vectors-negative300.bin.gz 导入 R。

我已经提取了它，并使用 rword2vec（在 github 上找到）从 bin 转换为 txt 文件。包里面有个搜索功能，就是太慢了。

这就是为什么我现在尝试在 R 中导入文件并将其转换为 dataframe ，如果可能的话，使用结构：

name | vec1 | ... | vec300

我曾尝试内置 readBin（无法获取名称），也尝试使用带有 txt 的 readLines（未完成）或 readr 包和 read_lines（仅制作 12Mb 大向量）

你能指出我正确的方向吗？

【问题讨论】：

标签： r word2vec

【解决方案1】：

我终于找到了办法。

使用包rword2vec，可以使用包中提供的函数bin_to_txt或框架。有关详细信息，请参阅提供的插图。

library(rword2vec)
dist=distance(file_name = "GoogleNews-vectors-negative300.bin",search_word = "king",num = 10)
dist

           word              dist
1         kings 0.713804960250854
2         queen 0.651095926761627
3       monarch 0.641319692134857
4  crown_prince 0.620422065258026
5        prince 0.615999639034271
6        sultan 0.586482524871826
7         ruler 0.579756796360016
8       princes 0.564655303955078
9  Prince_Paras 0.543294668197632
10       throne 0.542210519313812

【讨论】：