【发布时间】:2012-06-07 18:10:46
【问题描述】:
我想对新闻数据集进行文本分类。我有很多功能,例如subject、keyword、summary 等...所有这些功能都存储在一个结构单元数组中,每个结构看起来像这样:
label: 'misc.forsale'
subj: ' Motorcycle wanted.'
keyword: [1x190 char]
reference: []
organization: ' Worcester Polytechnic Institute'
from: ' kedz@bigwpi.WPI.EDU (John Kedziora)'
summary: []
lines: ' 11'
vocab: [4x2 double]
我想用class = classify(test, train, target, 'diaglinear');对它们进行分类
但这些函数只接收数组作为输入,不接受单元格或结构体。
我无法将此元胞数组转换为一个多维数组,因为特征的数量各不相同(例如,一个主题有两个词,另一个主题有三个词)。
我能做什么?
【问题讨论】:
-
你不必先为每个文档提取一些特征,比如TF-IDF
-
是的,我做到了。但是你提到的这种方式,我没有单独使用主题,关键字。我认为这样我丢失了一些信息。
标签: matlab machine-learning data-mining classification document-classification