使用大于 RAM 的数据集训练 Spacy 模型

【问题标题】：Train Spacy model with larger-than-RAM dataset使用大于 RAM 的数据集训练 Spacy 模型
【发布时间】：2022-01-21 14:09:46
【问题描述】：

我要求this question 更好地了解使用序列化到磁盘的DocBins 训练Spacy 模型与通过自定义数据加载功能加载Example 实例之间的一些细微差别。目标是训练一个 Spacy NER 模型，其中包含更多可以放入 RAM 的数据（或至少以某种方式避免将整个文件加载到 RAM 中）。尽管自定义数据加载器似乎是完成此任务的一种特定方式，但我写这个问题是为了更笼统地问：

如何在训练期间不加载整个训练数据集文件的情况下训练 Spacy 模型？

【问题讨论】：

标签： python-3.x spacy named-entity-recognition spacy-3

【解决方案1】：

您唯一的选择是使用自定义数据加载器或设置max_epochs = -1。见the docs。

【讨论】：

谢谢，@polm23。文档说：-1 means stream train corpus [] rather than loading in memory with no shuffling within the training loop. 会设置设置max_epochs = -1 并使用.spacy 文件（或许多.spacy 文件）在没有自定义数据加载器的情况下流式传输训练数据吗？
是的，它将流式传输数据。

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
2022-01-19
1970-01-01
2020-10-16
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-06
下载 2021-06-24
下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode