测试数据源:20 Newsgroups (http://qwone.com/~jason/20Newsgroups/),其中包含20个领域的新闻,此次我们使用20news-bydate-train作为测试数据.。

其结构如下 

Spark机器学习:TF-IDF实例讲解

Spark Task:

对多篇文章提取其特征关键字以备检索、分类使用(关键字视为一个单词)

输入内容文件格式

(article_id,content...)

(article_id,content...)

(article_id,content...)

 

要求输出格式

(article_id,文章前20个特征关键字)

 

The Question to be solved:

1.虽然MLib提供了TF-IDF的实现,但是文章id无法跟踪.(提示:使用wholefile和zip函数)

2.MLib输出的结果是该文章所有单词对于的TF-IDF,格式必得转换

 

相关文章:

  • 2021-06-29
  • 2021-06-20
  • 2021-09-05
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-10-14
猜你喜欢
  • 2022-12-23
  • 2021-09-22
  • 2021-07-21
  • 2021-12-24
  • 2021-11-25
  • 2021-06-09
  • 2021-12-09
相关资源
相似解决方案