【发布时间】:2015-11-30 18:35:03
【问题描述】:
自去年以来,我一直使用 MongoDB 作为 1.5Tb+ 数据的主存储。一切都很好,但最近我决定对 14 000 000 个文档集合执行一些 map-reduce,我的生产实例出现故障。 请看详情:
我的配置:
Ubuntu 12.04.5 LTS、MongoDB 2.6.4、LVM(2 个 HDD、1.5TB+ 免费,总共 3TB+)、24GB RAM(几乎全部免费)
Mongo 配置是默认的(除了 logpath 和 dbpath 参数)
蒙古日志:
2014-08-28T07:33:41.147+0400 [DataFileSync] 777 个文件的刷新 mmap 耗时 16177 毫秒 2014-08-28T07:33:44.004+0400 [conn13] M/R: (1/3) 发射进度: 9920300 2014-08-28T07:33:47.178+0400 [conn13] M/R: (1/3) 发射进度: 9928100 2014-08-28T07:33:50.004+0400 [conn13] M/R: (1/3) 发射进度: 9967800 2014-08-28T07:33:53.115+0400 [conn13] M/R: (1/3) 发射进度: 10007800 2014-08-28T07:33:56.009+0400 [conn13] M/R: (1/3) 发射进度: 10048800 2014-08-28T07:33:59.050+0400 [conn13] M/R: (1/3) 发射进度: 10091200 2014-08-28T07:34:02.530+0400 [conn13] M/R: (1/3) 发射进度: 10102300 2014-08-28T07:34:05.510+0400 [conn13] M/R: (1/3) 发射进度: 10102400 2014-08-28T07:34:08.932+0400 [conn13] 严重:地址无效访问:0x7cc8b2fe70b4 2014-08-28T07:34:08.983+0400 [conn13] 严重:收到信号:7(总线错误)。 Backtrace:0x11e6111 0x11e54ee 0x11e55df 0x7f5a7031ecb0 0xf29cad 0xf32f28 0xf32770 0x8b601f 0x8b693a 0x982885 0x988485 0x9966d8 0x9a3355 0xa2889a 0xa29ce2 0xa2bea6 0xd5dd6d 0xb9fe62 0xba1440 0x770aef mongod(_ZN5mongo15printStackTraceERSo+0x21) [0x11e6111] mongod() [0x11e54ee] mongod() [0x11e55df] /lib/x86_64-linux-gnu/libpthread.so.0(+0xfcb0) [0x7f5a7031ecb0] mongod(_ZN5mongo16NamespaceDetails5allocEPNS_10CollectionERKNS_10StringDataEi+0x1bd) [0xf29cad] mongod(_ZN5mongo19SimpleRecordStoreV111allocRecordEii+0x68) [0xf32f28] mongod(_ZN5mongo17RecordStoreV1Base12insertRecordEPKcii+0x60) [0xf32770] mongod(_ZN5mongo10Collection15_insertDocumentERKNS_7BSONObjEbPKNS_16PregeneratedKeysE+0x7f) [0x8b601f] mongod(_ZN5mongo10Collection14insertDocumentERKNS_7BSONObjEbPKNS_16PregeneratedKeysE+0x22a) [0x8b693a] mongod(_ZN5mongo2mr5State12_insertToIncERNS_7BSONObjE+0x85) [0x982885] mongod(_ZN5mongo2mr5State14reduceInMemoryEv+0x175) [0x988485] mongod(_ZN5mongo2mr5State35reduceAndSpillInMemoryStateIfNeededEv+0x148) [0x9966d8] mongod(_ZN5mongo2mr16MapReduceCommand3runERKSsRNS_7BSONObjEiRSsRNS_14BSONObjBuilderEb+0xcc5) [0x9a3355] mongod(_ZN5mongo12_execCommandEPNS_7CommandERKSsRNS_7BSONObjEiRSsRNS_14BSONObjBuilderEb+0x3a) [0xa2889a] mongod(_ZN5mongo7Command11execCommandEPS0_RNS_6ClientEiPKcRNS_7BSONObjERNS_14BSONObjBuilderEb+0x1042) [0xa29ce2] mongod(_ZN5mongo12_runCommandsEPKcRNS_7BSONObjERNS_11_BufBuilderINS_16TrivialAllocatorEEERNS_14BSONObjBuilderEbi+0x6c6) [0xa2bea6] mongod(_ZN5mongo11newRunQueryERNS_7MessageERNS_12QueryMessageERNS_5CurOpES1_+0x22ed) [0xd5dd6d] mongod() [0xb9fe62] mongod(_ZN5mongo16assembleResponseERNS_7MessageERNS_10DbResponseERKNS_11HostAndPortE+0x580) [0xba1440] mongod(_ZN5mongo16MyMessageHandler7processERNS_7MessageEPNS_21AbstractMessagingPortEPNS_9LastErrorE+0x9f) [0x770aef]在我第一次运行 map-reduce 后,我创建了 db.repairDatabase(),但在第二次尝试 map-reduce(修复后)后,同样的崩溃再次发生。现在,我不知道如何完成我的 m/r
各位,有什么想法吗?
【问题讨论】:
-
这听起来更像是硬件问题,或者至少是文件系统问题。您可能想查看 Jira 问题中的 SERVER-12849。或者用类似那里的更多细节提出自己的票。
-
感谢回复。完全同意,看起来像为 mongo 团队提出另一个 Jira 将成为一个案例
-
在提交 Jira 问题之前,我会寻找 I/O 或磁盘问题的迹象,正如 Neil 链接的服务器问题中所建议的那样。 Signal 7 (bus error) 表示硬件故障,因此可能不需要从 MongoDB 服务器端进行太多调查。如果您有 I/O 问题,您可能需要更换硬件(如果这影响了您的数据完整性,可能还需要从备份中恢复)。数据库修复将是最后的手段(即,如果您没有合适的备份并且数据文件已损坏)。
-
刚刚检查了 /var/log/syslog 和 dmesg。不过,那里没有可疑活动。还有其他地方应该仔细检查吗?
-
解决了吗?您找到导致它的硬件问题了吗?
标签: mongodb