【发布时间】:2021-12-11 17:34:23
【问题描述】:
我需要训练(微调)NER 标记分类器来识别我们的自定义标记。 我发现最简单的方法是: Token Classification with W-NUT Emerging Entities
但现在我遇到了一个问题 - 计划如下: HuggingFace in Spark NLP - BERT Sentence.ipynb , 但是当我尝试时:
model.save_pretrained(<path on DBFS>)
我收到文件写入错误。据我了解,这是因为 transformers/keras 无法在 DBFS 等分布式文件系统上运行
有什么办法可以解决这个问题吗?
我无法将训练从数据块中移开,因为我正在使用数据库中的数据(实体)来创建训练文件
PS。也许我可以只使用 spark nlp 做同样的事情?最好使用相同的“仅标签”格式?
【问题讨论】:
标签: apache-spark nlp databricks huggingface-transformers johnsnowlabs-spark-nlp