【问题标题】:RTextTools: Understanding 'algorithm_summary'RTextTools:了解'algorithm_summary'
【发布时间】:2017-05-30 21:13:37
【问题描述】:

我试图了解 RTextTools 如何提供一组出色的文档分类功能。

但是,在运行内置数据集时,我无法理解如何解释下表。 (不知道为什么有10行)

        SVM_PRECISION   SVM_RECALL  SVM_FSCORE  MAXENTROPY_PRECISION    MAXENTROPY_RECALL   MAXENTROPY_FSCORE
2           NaN             0               NaN                     0.5                 1               0.67    
12          NaN             0               NaN                     0                   0               NaN
14          NaN             0               NaN                     NaN                 0               NaN
15          NaN             0               NaN                     0                   0               NaN
16          NaN             0               NaN                     0.33                0.2             0.25
17          NaN             0               NaN                     NaN                 0               NaN
19         0.08         1               0.15                    0.14                0.5             0.22
20          NaN             0               NaN                     0.38                0.75            0.5
24          NaN             0               NaN                     NaN                 0               NaN
31          NaN             0               NaN                     NaN                 0               NaN

上表可以生成为

library(RTextTools)
data(NYTimes)
data <- NYTimes[sample(1:3100,size=100,replace=FALSE),]
matrix <- create_matrix(cbind(data["Title"],data["Subject"]), language="english", 
                        removeNumbers=TRUE, stemWords=FALSE, weighting=tm::weightTfIdf)
container <- create_container(matrix,data$Topic.Code,trainSize=1:75, testSize=76:100, 
                              virgin=FALSE)
models <- train_models(container, algorithms=c("MAXENT","SVM"))
results <- classify_models(container, models)
analytics <- create_analytics(container, results)
summary(analytics)
alg_summary <- analytics@algorithm_summary

【问题讨论】:

    标签: r text-classification


    【解决方案1】:

    来自docs

    algorithm_summary“data.frame”类的对象:存储精度, 每个算法的召回率和 F-score 统计数据,细分为 标签

    完整的 NYTimes 数据集中有 27 个不同的主题代码,您的样本可能包含其中的 10 个。因此有 10 行。

    【讨论】:

    • length(unique(NYTimes$Topic.Code)) 是 27。这些主题代码对应于标签。
    猜你喜欢
    • 2012-04-17
    • 2015-12-07
    • 1970-01-01
    • 2019-06-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-10
    相关资源
    最近更新 更多