【问题标题】:Can I detect non-japanese chinese characters in text我可以检测文本中的非日文汉字吗
【发布时间】:2014-09-18 21:30:57
【问题描述】:

我有一些文本是日文的,但其中混入了一些非日文汉字。我注意到它是因为我使用的日文字体不支持它们,并且浏览器使用不同的字体呈现它们。据我所见,这些字符在日语中没有使用,所以它们是错误地到达那里的(文本来自 OCR)。我使用this 在文本中查找汉字,但它似乎连接了所有汉字,而不仅仅是汉字。有没有可靠的方法来检测那些非日语字符,比如检查 unicode 的某些部分?

我能想到的唯一解决方案是制作一个完整的(或者更像是找到一个)正在使用的汉字列表,并检查每个字符是否在列表中,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一点,我可能会以这种方式解决它。

【问题讨论】:

    标签: javascript regex unicode


    【解决方案1】:

    有没有可靠的方法来检测那些非日语字符,比如检查 unicode 的某些部分?

    没有。您需要简单地枚举所有日文字符,例如查找您的字体支持的所有字符:Finding out what characters a font supports

    (...)检查每个字符是否在列表中,但我怀疑它可能有点慢。

    不要使用列表,使用哈希集。如果您真的想要一个列表,请对其进行排序并使用二进制搜索。那应该不会太慢。

    【讨论】:

      猜你喜欢
      • 2012-07-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-30
      • 2021-11-25
      • 1970-01-01
      • 2017-10-14
      • 2019-04-11
      相关资源
      最近更新 更多