【问题标题】:distributed data allocation on hadoop [closed]hadoop上的分布式数据分配[关闭]
【发布时间】:2013-02-21 16:12:32
【问题描述】:

我想问几个物理机上的几个虚拟机中的hadoop数据分配。我发现了设计分配策略的论文,将文件块的副本分配给不同的物理机并保持每台物理机的块数平衡。以确保在一台物理机器(包含多个虚拟机)上没有全部堆栈的文件块副本。

我想尝试实施该文书工作。我一直坚持如何配置那些在由多个 VM 组成的分布式物理机上均匀分配的文件块副本。它是在 mapreduce 算法中编码还是在 hdfs 安装中配置?在纸面上,他们说他们将虚拟节点的位置信息添加到网络拓扑中。虚拟节点的网络位置可能会从 /default-rack 更改为 /Phy0。在物理节点的网络位置下方添加一层。

我不知道,如何在hadoop中配置它们??

【问题讨论】:

    标签: hadoop replication


    【解决方案1】:

    hadoop 中的这种配置称为机架感知。

    使用 core-site.xml 中的属性“topology.script.file.name”配置机架感知。

    如果未配置“topology.script.file.name”,则为任何 IP 地址传递 /default-rack,即,所有节点都放置在同一个机架上。

    在 hadoop 中配置机架感知包括两个步骤,

    1. 在 core-site.xml 中配置“topology.script.file.name”,

      <property>

      <name>topology.script.file.name</name>

      <value>core/rack-awareness.sh</value>

      </property>

    2. 根据需要实施 rack-awareness.sh 脚本, 可在此处找到示例机架感知脚本,

      http://wiki.apache.org/hadoop/topology_rack_awareness_scripts

    【讨论】:

    • 我如何追踪那些数据,那些文件块复制均匀分布在物理机上,确保没有文件块副本全部堆叠在一台物理机上??
    • 确定我是否按照机架感知进行配置,文件块副本均匀分布在物理机上?我从 IEEE 获得的想要实现的论文:虚拟云中的位置感知 MapReduce
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-06
    • 1970-01-01
    • 1970-01-01
    • 2011-03-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多