【问题标题】:Fasttext: How to process a corpora with fasttext?Fasttext:如何使用 fasttext 处理语料库?
【发布时间】:2020-12-27 17:22:22
【问题描述】:

我是 fasttext 和 NLP 的新手。我有一个 法语 语料库 csv,其结构如下:

| value | sentence                       | pivot    |
|-------|--------------------------------|----------|
| 1     | My first [sentence]            | sentence |
| 0     | My second [word] in a sentence | word     |
| ..    | ...                            | ...      |

我想知道如何告诉fasttext处理括号[pivot]之间的枢纽词来构建我的模型,或者它是fasttext中的一个内置功能,他知道要处理哪个词?我真的很想知道有关 fasttext 的机制!我找到的文档是有限的。谢谢。

【问题讨论】:

  • 我想更好地理解...你的目标是什么?给定句子,您想预测枢轴列中的单词?无论如何,我建议阅读教程:fasttext.cc/docs/en/supervised-tutorial.htmlfasttext.cc/docs/en/unsupervised-tutorial.html
  • @Anakin87 感谢您的 cmets,我在上面的数据样本上犯了一个拼写错误,第一列取 0 或 1,1 如果句子是指向道路,@987654327 @ 如果不。在这种情况下,我在监督学习中,我确实阅读了教程,并且能够构建我的模型,将我的第一列更改为 __label__0__label__1 仅使用我的数据集的两列。使用 512 行的样本,我得到了 0.27 的精度和 0.27 的召回率

标签: corpus fasttext


【解决方案1】:

您可以通过这种方式使用fastText提取pivot列的词向量:

!git clone https://github.com/facebookresearch/fastText.git
!cd fastText
!pip install fastText
import fasttext.util
fasttext.util.download_model('fr', if_exists='ignore')  # French
model = fasttext.load_model('cc.en.300.bin')

vectors = []
dataset = pd.read_csv('path to csv file', sep='\t')
for data in dataset.pivot:
    vectors.append(model[data])

https://fasttext.cc/docs/en/crawl-vectors.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-04-11
    • 2018-11-19
    • 2019-12-01
    • 2018-10-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多