【问题标题】:Loading Text dataset into python weka wrapper将文本数据集加载到 python weka 包装器中
【发布时间】:2015-05-17 18:57:59
【问题描述】:

我在 Windows 7 上安装了 weka python 包装器。我尝试运行示例代码:

import weka.core.jvm as jvm
jvm.start()

data_dir = "E:/Files/Fourth/"

from weka.core.converters import Loader
loader = Loader("weka.core.converters.TextDirectoryLoader")
datasets = [
  data_dir + "File 1",
  data_dir + "File 2",
  data_dir + "File 3",
  data_dir + "File 4",
  data_dir + "File 5"

 ]
data = loader.load_file(datasets)
data.delete_last_attribute()
print(data)

我收到以下错误:

Traceback (most recent call last):
File "C:/Python27/weekaa.py", line 16, in <module>
data = loader.load_file(datasets)
File "C:\Python27\lib\site-packages\weka\core\converters.py", line 67, 
in load_file
self.enforce_type(self.jobject,   
"weka.core.converters.FileSourcedConverter")
File "C:\Python27\lib\site-packages\weka\core\classes.py", line 155, 
in  enforce_type
raise TypeError("Object does not implement or subclass " + 
intf_or_class  + "!")
TypeError: Object does not implement or 
subclass  weka.core.converters.FileSourcedConverter!

我通过将类路径添加到 weka.jar 或 python-weka-wrapper 来尝试解决上一个问题,但没有奏效。加载 .arff 文件类型时不会出现错误。

有没有办法加载文本文件?

注意:数据集中的每个文件都有一组文本文档文件(用于以后的聚类)

【问题讨论】:

    标签: python weka


    【解决方案1】:

    TextDirectoryLoader 不能与当前发布的 python-weka-wrapper 版本一起使用,因为它的操作方式对所有人都不同。现在在更新 (https://groups.google.com/forum/#!topic/python-weka-wrapper/hgfFMnEIKZg) 之后,TextDirectoryLoader 类已添加到 python weka 包装器中,可以按如下方式使用:

    from weka.core.converters import TextDirectoryLoader 
    text_dir = "/the/directory/you/want/to/load" 
    loader = TextDirectoryLoader(options=["-dir", text_dir, "-F","-charset", "UTF-8"]) 
    data = loader.load() 
    print(unicode(data)) 
    

    确保你有python weka wrapper的更新包,可以从这里下载

    [http://github.com/fracpete/python-weka-wrapper]

    并从源代码安装:python setup.py install

    【讨论】:

      猜你喜欢
      • 2015-05-19
      • 1970-01-01
      • 2020-03-20
      • 1970-01-01
      • 2017-11-16
      • 1970-01-01
      • 1970-01-01
      • 2011-11-11
      • 1970-01-01
      相关资源
      最近更新 更多