【发布时间】:2019-08-27 10:29:05
【问题描述】:
在实现 NLP 系统时,我想知道为什么 CSV 文件经常用于在学术界和常见的 Python 示例(特别是:基于 NLTK)中存储文本语料库。我个人遇到了一些问题,使用的系统会自动生成一些语料库并在以后访问它们。
这些问题来自CSV files:
- 难以自动备份
- 难以确保可用性
- 潜在的事务竞争和线程访问问题
- 难以在多个服务器上分发/分片
- 如果语料库变得复杂,架构不清晰或未定义
- 通过文件名访问是有风险的。它可以改变。
- 文件损坏可能
- 通常不用于文件访问的细粒度权限
使用MySQL 或MongooseDB 的问题:
- 初始设置,保持专用服务器与数据库实例联机运行
- 需要花时间创建和定义架构
CSV 的优点: - 理论上更容易自动压缩和解压缩内容 - 一些程序员比较熟悉 - 更容易通过 FTP 甚至电子邮件传输给其他学术研究人员
查看多篇学术文章,即使在更高级的 NLP 研究中,例如进行命名实体识别或语句提取,研究似乎也使用 CSV。
CSV 格式是否还有其他优点使其得到如此广泛的应用?行业系统应该使用什么?
【问题讨论】: