hadoop - 如果文件只有一条记录并且文件大小大于块大小，输入拆分形式如何？

【问题标题】：hadoop - how would input splits form if a file has only one record and the size of file is more than block size?hadoop - 如果文件只有一条记录并且文件大小大于块大小，输入拆分形式如何？
【发布时间】：2016-03-03 23:37:45
【问题描述】：

举例说明问题 -

我有一个大小为 500MB 的文件 (input.csv)

文件中只包含一行（记录）

那么文件将如何存储在 HDFS 块中以及如何计算输入拆分？

【问题讨论】：

标签： hadoop mapreduce hdfs input-split

【解决方案1】：

您可能需要检查此链接：How does Hadoop process records split across block boundaries? 注意提到的“远程阅读”。

您的问题中提到的单个记录将存储在许多块中。但是，如果您使用 TextInputFormat 进行读取，则映射器必须跨块执行远程读取以处理记录。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2015-08-13
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2023-03-23
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode