【问题标题】:Error in RStudio while running decision tree (mac)运行决策树时 RStudio 出错(mac)
【发布时间】:2018-11-20 16:59:30
【问题描述】:

我正在一个训练集上运行 CART 决策树,我使用 quanteda 对其进行了标记化,以完成常规文本分析任务。标记化生成的 DFM 被转换为数据框并附加了我预测的类属性。

与许多 DFM 一样,该表非常宽(33k 列),但仅包含大约 5,500 行文档。在我的训练集上调用 rpart 会返回堆栈溢出错误。

如果重要的话,为了帮助提高计算速度,我正在使用 doSNOW 库,这样我就可以在我的 4 个内核中的 3 个上并行运行模型。

我查看了at this answer,但不知道如何在我的 mac 工作站上执行相同的操作,以查看相同的解决方案是否适合我。有可能即使我增加 RStudio 的 ppsize,我仍然可能会遇到这个错误。

所以我的问题是如何增加 RStudio 的 maxppsize 在 Mac 上,或者更一般地说,如何修复此堆栈溢出以便我可以运行我的模型?

谢谢!

【问题讨论】:

    标签: r rstudio


    【解决方案1】:

    最后,我发现mac没有这个相同的命令行选项,因为RStudio的mac版本默认使用所有可用内存。

    所以我解决这个问题的方法是通过减少稀疏性来降低任务的复杂性。我通过删除至少 5% 的语料库中未出现的所有标记来清理文档术语矩阵。这足以将具有 33k 列的矩阵缩减为更易于管理的 3k 列,同时仍会产生具有高度代表性的 DFM。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-09-11
      • 2015-12-18
      • 1970-01-01
      • 2016-12-08
      • 2017-05-03
      • 2021-05-27
      • 1970-01-01
      • 2014-09-25
      相关资源
      最近更新 更多