原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

可导入的文件格式
1. 文本文件
        (1)满足
以下格式的文本可以转化为流数据文件导入:
            
(行号,行文本)
            
(文件名,文件的全部内容)
            
(行号,行份的用正则表达式模式)
       
(2)可以解析为Lucene索引的文本:
               
精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
2.
ARFF文件
        
WEKA(来源)项目文本数据格式
       
可以<Int,Vector>格式生成流文件的数据
3.
邮箱文件
          

            
(邮件ID,电子邮件消息的文本正文)
            
没有HTML或附件支持
4.
CSV文件
        不导入行头和列头

        
没有“多个值,每列”选项
5.
Hadoop的流文件
        
规范的,没有变化。目前没有使用的元数据。
6.
Lucene索引
       
转换为流文件
            
精确的索引设计?

可导出的格式

    hadoop的流文件

    
文本行,可以使用toString()函数的类型
    
MatrixWritable ConfusionMatrix
   
可供MatrixWritable使用的CSV
    一个特殊的CSV格式集群
    
GraphML XML集群

流文件中存储的内容的格式
“简化的”

每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

复杂的数据结构被存储在集群。

这些都存储在一个自定义的数据结构。

相关文章:

  • 2021-10-15
  • 2021-11-17
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-02-15
  • 2021-11-11
  • 2021-11-01
猜你喜欢
  • 2022-01-07
  • 2021-10-14
  • 2022-12-23
  • 2021-10-14
  • 2021-12-21
相关资源
相似解决方案