【发布时间】:2014-03-01 00:22:31
【问题描述】:
我想处理一些大文件,比如字数统计。
我只有一个 8 核和 128GB 内存的工作站。
在 Hadoop 上使用独立的伪分布式模式更好还是不使用 Hadoop 但研究并发性更好?
如果使用Hadoop更好,是否有任何规则来决定单个工作站上的配置包括mapper、reducer等的数量?
2014-03-02
以下是我的硬盘信息:
名称 MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sdc 8:32 0 2.7T 0 磁盘
├─sdc1 8:33 0 255M 0 部分
├─sdc2 8:34 0 8G 0 部分
├─sdc3 8:35 0 8G 0部分
├─sdc4 8:36 0 16G 0 部分
│ └─md3 9:3 0 15.3G 0 raid1 /
├─sdc5 8:37 0 32G 0 部分
│ └─md127 9:127 0 64G 0 raid5
│ └─vg01-scratch (dm-0) 252:0 0 63.9G 0 lvm /local/scratch
├─sdc6 8:38 0 64G 0 部分
├─sdc7 8:39 0 128G 0 部分
├─sdc8 8:40 0 256G 0 部分
├─sdc9 8:41 0 1T 0 部分
│ └─md125 9:125 0 2T 0 raid5
│ └─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
└─sdc10 8:42 0 1T 0 部分
└─md126 9:126 0 2T 0 raid5
└─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
sda 8:0 0 2.7T 0 磁盘
├─sda1 8:1 0 255M 0 部分
├─sda2 8:2 0 8G 0 部分
├─sda3 8:3 0 8G 0部分
├─sda4 8:4 0 16G 0 部分
│ └─md3 9:3 0 15.3G 0 raid1 /
├─sda5 8:5 0 32G 0 部分
│ └─md127 9:127 0 64G 0 raid5
│ └─vg01-scratch (dm-0) 252:0 0 63.9G 0 lvm /local/scratch
├─sda6 8:6 0 64G 0 部分
├─sda7 8:7 0 128G 0 部分
├─sda8 8:8 0 256G 0 部分
├─sda9 8:9 0 1T 0 部分
│ └─md125 9:125 0 2T 0 raid5
│ └─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
└─sda10 8:10 0 1T 0 部分
└─md126 9:126 0 2T 0 raid5
└─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
sdb 8:16 0 2.7T 0 磁盘
├─sdb1 8:17 0 255M 0 部分
├─sdb2 8:18 0 8G 0 部分
├─sdb3 8:19 0 8G 0 部分
├─sdb4 8:20 0 16G 0 部分
│ └─md3 9:3 0 15.3G 0 raid1 /
├─sdb5 8:21 0 32G 0 部分
│ └─md127 9:127 0 64G 0 raid5
│ └─vg01-scratch (dm-0) 252:0 0 63.9G 0 lvm /local/scratch
├─sdb6 8:22 0 64G 0 部分
├─sdb7 8:23 0 128G 0 部分
├─sdb8 8:24 0 256G 0 部分
├─sdb9 8:25 0 1T 0 部分
│ └─md125 9:125 0 2T 0 raid5
│ └─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
└─sdb10 8:26 0 1T 0 部分
└─md126 9:126 0 2T 0 raid5
└─vg03-data (dm-1) 252:1 0 4T 0 lvm /local/cargobay
sr0 11:0 1 1024M 0 只读存储器
非常感谢
【问题讨论】:
标签: hadoop