Fasttext：如何使用 fasttext 处理语料库？答案

【问题标题】：Fasttext: How to process a corpora with fasttext?Fasttext：如何使用 fasttext 处理语料库？
【发布时间】：2020-12-27 17:22:22
【问题描述】：

我是 fasttext 和 NLP 的新手。我有一个法语语料库 csv，其结构如下：

| value | sentence                       | pivot    |
|-------|--------------------------------|----------|
| 1     | My first [sentence]            | sentence |
| 0     | My second [word] in a sentence | word     |
| ..    | ...                            | ...      |

我想知道如何告诉fasttext处理括号[pivot]之间的枢纽词来构建我的模型，或者它是fasttext中的一个内置功能，他知道要处理哪个词？我真的很想知道有关 fasttext 的机制！我找到的文档是有限的。谢谢。

【问题讨论】：

我想更好地理解...你的目标是什么？给定句子，您想预测枢轴列中的单词？无论如何，我建议阅读教程：fasttext.cc/docs/en/supervised-tutorial.html fasttext.cc/docs/en/unsupervised-tutorial.html
@Anakin87 感谢您的 cmets，我在上面的数据样本上犯了一个拼写错误，第一列取 0 或 1，1 如果句子是指向道路，@987654327 @ 如果不。在这种情况下，我在监督学习中，我确实阅读了教程，并且能够构建我的模型，将我的第一列更改为 __label__0 或 __label__1 仅使用我的数据集的两列。使用 512 行的样本，我得到了 0.27 的精度和 0.27 的召回率

标签： corpus fasttext

【解决方案1】：

您可以通过这种方式使用fastText提取pivot列的词向量：

!git clone https://github.com/facebookresearch/fastText.git
!cd fastText
!pip install fastText
import fasttext.util
fasttext.util.download_model('fr', if_exists='ignore')  # French
model = fasttext.load_model('cc.en.300.bin')

vectors = []
dataset = pd.read_csv('path to csv file', sep='\t')
for data in dataset.pivot:
    vectors.append(model[data])

https://fasttext.cc/docs/en/crawl-vectors.html

【讨论】：