【发布时间】:2021-05-21 22:00:38
【问题描述】:
我想使用许多 (>50K) 标记作为特征名称执行文本分类。但是mlr3 中的Task() 函数不允许列名中有很多字符,这些字符由make.names 传递,否则很好。以下是我目前找到的它们的列表:
mutate(token=str_replace(token, "à", "a")) %>%
mutate(token=str_replace(token, "ã", "a")) %>%
mutate(token=str_replace(token, "á", "a")) %>%
mutate(token=str_replace(token, "ø", "o")) %>%
mutate(token=str_replace(token, "ç", "c")) %>%
mutate(token=str_replace(token, "ô", "o")) %>%
mutate(token=str_replace(token, "é", "e")) %>%
mutate(token=str_replace(token, "é", "e")) %>%
mutate(token=str_replace(token, "í", "i")) %>%
mutate(token=str_replace(token, "î", "i")) %>%
mutate(token=str_replace(token, "è", "e")) %>%
mutate(token=str_replace(token, "ë", "e")) %>%
mutate(token=str_replace(token, "å", "a")) %>%
mutate(token=str_replace(token, "â", "a")) %>%
mutate(token=str_replace(token, "æ", "a")) %>%
mutate(token=str_replace(token, "ñ", "n")) %>%
如何使我的 data.frame 与 mlr3 兼容,而无需以这种方式手动替换所有特殊字符(反复试验)? make.names() 显然不行!
非常感谢您的帮助 :) 谢谢!
【问题讨论】: