【发布时间】:2014-09-18 21:30:57
【问题描述】:
我有一些文本是日文的,但其中混入了一些非日文汉字。我注意到它是因为我使用的日文字体不支持它们,并且浏览器使用不同的字体呈现它们。据我所见,这些字符在日语中没有使用,所以它们是错误地到达那里的(文本来自 OCR)。我使用this 在文本中查找汉字,但它似乎连接了所有汉字,而不仅仅是汉字。有没有可靠的方法来检测那些非日语字符,比如检查 unicode 的某些部分?
我能想到的唯一解决方案是制作一个完整的(或者更像是找到一个)正在使用的汉字列表,并检查每个字符是否在列表中,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一点,我可能会以这种方式解决它。
【问题讨论】:
标签: javascript regex unicode