【发布时间】:2014-08-24 06:11:27
【问题描述】:
我有一个格式如下的 CSV 文件:
product_id1,product_title1
product_id2,product_title2
product_id3,product_title3
product_id4,product_title4
product_id5,product_title5
[...]
product_idX 是整数,product_titleX 是String,例如:
453478692, Apple iPhone 4 8Go
我正在尝试从我的文件创建 TF-IDF,以便我可以将它用于 MLlib 中的朴素贝叶斯分类器。
到目前为止,我正在使用 Spark for Scala,并使用我在官方页面和 Berkley AmpCamp 3 和 4 上找到的教程。
所以我正在阅读文件:
val file = sc.textFile("offers.csv")
然后我将它映射到元组RDD[Array[String]]
val tuples = file.map(line => line.split(",")).cache
在我将元组转换成对之后RDD[(Int, String)]
val pairs = tuples.(line => (line(0),line(1)))
但我被困在这里,我不知道如何从中创建 Vector 以将其转换为 TFIDF。
谢谢
【问题讨论】:
-
如果我能很好地理解您的问题,每个产品都可以出现多次。每个产品的出现次数是您的频率 (TF),我无法理解在您的情况下 IDF 是什么。你能详细说明一下吗?
-
tf-idf 是词频-逆文档频率的缩写,是一种数值统计数据,旨在反映一个词对集合或语料库中的文档的重要性。它通常用作信息检索和文本挖掘中的加权因子。
-
我不明白的是,在您的示例中,我没有看到 collection 或 corpus 的提及。
-
我的最后一条评论是 tf-idf 的定义,集合或语料库是一组您想要使用数据挖掘技术的文档。在我的例子中,我们将 CSV 行视为一个文档,集合或语料库是包含这些文档的 CSV 文件。
-
对不起,我还是不明白。这是我的理解:你想要每个产品的 TF-IDF。每条生产线有一种产品。您可以多次拥有相同的产品。知道这一点,并且根据您的最后评论,一个产品的 IDF 将是包含该产品的行数的倒数。在这种情况下,TF 会是什么?
标签: scala apache-spark apache-spark-mllib tf-idf