【发布时间】:2012-02-17 16:37:55
【问题描述】:
我正在使用 Orange(在 Python 中)执行一些数据挖掘任务。更具体地说,用于聚类。尽管我已经阅读了教程并阅读了大部分文档,但我仍然有一个问题。 文档和教程中的所有示例都假设我有一个制表符分隔的表格,其中包含数据。但是,没有什么可以说明如何从头开始创建新表。例如,我想为不同文档中的词频创建一个表。
也许我遗漏了一些东西,所以如果有人有任何见解,将不胜感激。
谢谢 乔治
编辑:
这就是我创建表格的方式
#First construct the domain object (top row)
vars = []
for var in variables:
vars.append(Orange.data.variable.Continuous(str(var)))
domain = Orange.data.Domain(vars, classed) #The second argument indicated that the last attr must not be a class
#Add data rows assuming we have a matrix
t = Orange.data.Table(domain, matrix)
【问题讨论】:
-
听,听!我找到的最好的东西是:orange.biolab.si/doc/reference/Orange.data.table。我改用
pandas -> R(啊!)作为我的工作流程的部分原因。 -
你可以使用
Orange.data.Table.from_numpy,这里比较适合。 -
添加一个快速助手 - 如果你到小部件侧边栏上的“数据”选项卡,并选择“Python 脚本”,默认(至少在 3.30 上)已经用 python 填写从 numpy 创建表的脚本。
标签: python data-mining orange