【发布时间】:2017-11-27 03:40:40
【问题描述】:
我是 word2vec 算法的忠实粉丝。我已经获得了谷歌研究团队制作的向量二进制文件,我想对此进行一些分析(我之前在比谷歌所做的小得多的数据集上进行过分析)。
我无法将文件 GoogleNews-vectors-negative300.bin.gz 导入 R。
我已经提取了它,并使用 rword2vec(在 github 上找到)从 bin 转换为 txt 文件。 包里面有个搜索功能,就是太慢了。
这就是为什么我现在尝试在 R 中导入文件并将其转换为 dataframe ,如果可能的话,使用结构:
name | vec1 | ... | vec300
我曾尝试内置 readBin(无法获取名称),也尝试使用带有 txt 的 readLines(未完成)或 readr 包和 read_lines(仅制作 12Mb 大向量)
你能指出我正确的方向吗?
【问题讨论】: