【发布时间】:2018-11-15 10:49:23
【问题描述】:
我不是泰米尔语,但是,对于我正在开发的简单 NLP 应用程序,我必须检测 python 字符串中的字符(与数字、标点符号、HTML 标签混合)是否是泰米尔语。如果没有,我只需要删除角色。这个概念很简单,但即使经过大量搜索,我也无法在 UTF-8 中找到泰米尔语字符范围。需要一些帮助。它是 ASCII 大写字母中的连续数字块,例如 65 到 90?还是我必须开发一些更复杂的东西来检查每个字符?
【问题讨论】:
-
“泰米尔语代码块”在 Google 上的热门搜索是什么?
标签: python string utf-8 character-encoding tamil