【问题标题】:How do I limit word length in FastText?如何限制 FastText 中的字长?
【发布时间】:2018-05-31 14:56:52
【问题描述】:

我正在使用 FastText 在包含一长串没有空格的字符的语料库上计算 skipgrams。大约一个小时后,FastText 会生成一个模型,其中包含与语料库中长度为 50 个字符的“单词”相对应的向量(长度为 100)。

我尝试设置 -minn-maxn 参数,但这无济于事(我知道它不会,但还是尝试了),并且 -wordNgrams 参数仅适用于有空格的情况,我猜是(?!)。这只是表示状态的一长串字符,没有空格。

文档似乎没有关于此的任何信息(或者我可能遗漏了什么?)

【问题讨论】:

    标签: nlp word2vec fasttext


    【解决方案1】:

    该工具只接受您提供给它的任何以空格分隔的标记。

    如果您想截断或丢弃长度超过 50 个字符(或任何其他阈值)的标记,您需要自己预处理数据。

    (如果您的问题实际上是其他问题,请在问题中添加更多详细信息,显示您的语料库中的示例行、您如何在其上调用 fasttext、您如何查看不满意的结果以及您期望的令人满意的结果而是。

    【讨论】:

    • 是的,我想我必须在调用 fasttext 之前对文本进行预处理。谢谢!
    猜你喜欢
    • 2021-07-23
    • 1970-01-01
    • 1970-01-01
    • 2019-06-23
    • 1970-01-01
    • 1970-01-01
    • 2010-12-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多