【问题标题】:Spacy: what dataset format to categorize 1000 labels?Spacy:对 1000 个标签进行分类的数据集格式是什么?
【发布时间】:2021-06-19 11:31:18
【问题描述】:

我想用 spacy 对文本进行分类 我是基于spacy的texcat_demo项目,基于它,json应该是这样的

{"text": "Sorpresa: Ceferin comió con Piqué y Laporta",   "cats": {"AR": 0, "ES": 1, "PT": 0 } } 
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria","cats": {"AR": 0, "ES": 1, "PT": 0 } } 

但是这个 json 应该如何看待多个类别呢?,像这样

 {"text": "Sorpresa: Ceferin comió con Piqué y Laporta",   "cats": {"content": "news", "language": "spanish" } }
 {"text": "Puado, de calabazas al Madrid a una renovación prioritaria", "cats": {"content": "soccer", "language": "portuguese" } }

谢谢

【问题讨论】:

    标签: spacy multilabel-classification spacy-3


    【解决方案1】:

    你在 spaCy 论坛上问过the same question,但我会继续在这里回答:无论你有多少标签,格式都是一样的。 (你有其他理由吗?我不认为我们说任何地方都有限制......)

    还要注意 JSON 格式不是固定格式,重要的是在序列化之前创建 Doc 对象。有很多方法可以做到这一点,但spaCy tutorial projects 中有示例。

    【讨论】:

      猜你喜欢
      • 2016-07-31
      • 2020-04-27
      • 2019-06-20
      • 2020-10-02
      • 2017-11-08
      • 1970-01-01
      • 2018-06-23
      • 1970-01-01
      • 2014-11-16
      相关资源
      最近更新 更多