【发布时间】:2013-09-08 13:15:35
【问题描述】:
如何在 java 中将-lrb-300-rrb-┬á922-6590 转换为-lrb-300-rrb- 922-6590?
尝试了以下方法:
t.lemma = lemma.replaceAll("\\p{C}", " ");
t.lemma = lemma.replaceAll("[\u0000-\u001f]", " ");
我可能遗漏了一些概念性的东西。将感谢任何指向解决方案的指针。
谢谢
【问题讨论】:
-
“unicode”是什么意思?任何非ASCII?
-
我假设那些嵌入的特殊字符是 unicode...
-
你所说的“unicode”是什么意思?根据standard definition,该字符串中的所有字符都是unicode,而不仅仅是“┬á”。