一、目的:

使用测试数据集测试hadoop-2.7.7集群性能。

二、环境:

2台虚拟机,CentOS Linux release 7.5.1804 (Core),内存3G,硬盘45G。

192.168.10.156 hmaster156

192.168.10.162 hslave162

三、测试过程:

3.1 数据集名称 

testdata1.6GB.csv(原始数据accidents_2005_to_2007.csv追加而得)

3.2 数据来源

https://www.kaggle.com/daveianhickey/2000-16-traffic-flow-england-scotland-wales#accidents_2005_to_2007.csv

3.3 上传数据的节点与数据存储路径

节点:hslave162

存储路径:/usr/local/hadoop-2.7.7/performance_test/

3.4 数据集规模

1.6GB,6270123行(条)数据

3.5 测试写入性能

#在hdfs构建目录/user/hadoop/performance_test/input

hdfs dfs -mkdir /user/hadoop/performance_test

hdfs dfs -mkdir /user/hadoop/performance_test/input

#将1.6GB测试数据从本地(hslave162)上传到hdfs

hdfs dfs -put testdata1.6GB.csv performance_test/input

3.6 测试结果分析

3.6.1 查看日志

访问http://192.168.10.162:8088/cluster

点击local logs

【Hadoop集群系列】使用测试数据集测试Hadoop-2.7.7集群性能

3.6.2 定位日志

查看hadoop-hadoop-datanode-xx162.log

3.6.3 查看执行开始时间与执行结束时间

开始时间: 

2019-11-19 21:07:35,668 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Receiving BP-2069466453-192.168.10.156-1573295110403:blk_1073742653_1829 src: /192.168.10.162:53674 dest: /192.168.10.162:50010

结束时间:

2019-11-19 21:08:32,141 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder: BP-2069466453-192.168.10.156-1573295110403:blk_1073742760_1936, type=LAST_IN_PIPELINE, downstreams=0:[] terminating 

3.6.4 结果统计

1.6GB数据从本地写入hdfs,耗时约2019-11-19 21:08:32,141 - 2019-11-19 21:07:35,668=58秒,平均写入速率(数据量)=1.6GB*1024/58s=28.25MB/s,平均写入速率(记录数/行)=6270123rec/58s=108105rec/s。

相关文章: