【发布时间】:2013-11-02 04:20:27
【问题描述】:
我正在尝试使用 Meteor 构建一个数据可视化应用程序来可视化大型数据集。数据目前存储在 CSV 格式的数据文件中,大小约为 64MB。
我正在使用 node-csv 插件将此数据文件加载到 Meteor 集合中(代码如下)。但是每 10k 条记录大约需要 1 分钟,按照这个速度,将整个文件加载到集合中大约需要 1.5 小时。在此期间,Meteor 服务器对 Web 请求没有响应。
这对我来说似乎异常缓慢。这是正常的吗? Meteor 是不是设计用于处理中等数量的数据?或者有没有比我发现的方法更好的方法来完成这个数据导入过程?
var csv = Meteor.require('CSV');
var fs = Meteor.require('fs');
var path = Npm.require('path');
function loadData() {
var basepath = path.resolve('.').split('.meteor')[0];
console.log('Loading data into Meteor...');
csv().from.stream(
fs.createReadStream(basepath+'server/data/enron_data.csv'),
{'escape': '\\'})
.on('record', Meteor.bindEnvironment(function(row, index) {
if ((index % 10000) == 0) {
console.log('Processing:', index, row);
}
Emails.insert({
'sender_id': row[0],
'recipient_id': row[1],
'recipient_type': row[2],
'date': row[3],
'timezone': row[4],
'subject': row[5]
})
}, function(error) {
console.log('Error in bindEnvironment:', error);
}
))
.on('error', function(err) {
console.log('Error reading CSV:', err);
})
.on('end', function(count) {
console.log(count, 'records read');
});
}
【问题讨论】:
-
我想不使用集合并直接访问数据库会快得多。话虽这么说,我需要更多信息才能给你一个真正的分析器。你什么时候运行
loadData?例如这是您本地开发数据库的初始化代码吗?你删除了autopublish包吗? -
您应该使用直接批量导入,而不是逐行插入。在某些数据库上,您可以暂时禁用约束、索引等,并等待直到最后一条记录被批量导入。这可能意味着提速一到两个数量级。
-
@DavidWeldon 它位于本地开发服务器的 Meteor.startup() 部分。即使删除了自动发布,它仍然需要相同的时间。
-
@TFuto 你能告诉我如何用 Meteor/MongoDB/NodeCSV 做到这一点吗?如果可以的话,我通常会进行批量导入,但我能找到的 Meteor+CSV 的唯一接口使用的是逐行回调。
-
考虑给插入函数一个回调。 “在服务器上,如果您不提供回调,则插入块,直到数据库确认写入,或者如果出现问题则抛出异常。” - docs.meteor.com#insert
标签: javascript node.js csv meteor