【发布时间】:2016-01-09 04:48:36
【问题描述】:
我的网站支持多种印度语言。用户可以动态更改语言。当用户输入一些字符串值时,我必须将字符串值拆分为单独的字符。所以,我正在寻找一种方法来编写一个适用于英语和一组精选印度语言的通用函数。我已经搜索了多个站点,但是,似乎没有通用的方法来处理此要求。有特定于语言的实现(例如,泰米尔语的 Open-Tamil 包实现了 get_letters),但我找不到一种通用的方法来拆分或迭代 unicode 字符串中的字符,同时考虑到字素。
我尝试过的众多方法之一:
name = u'தமிழ்'
print name
for i in list(name):
print i
#expected output
தமிழ்
த
மி
ழ்
#actual output
தமிழ்
த
ம
ி
ழ
்
#Here is another an example using another Indian language
name = u'हिंदी'
print name
for i in list(name):
print i
#expected output
हिंदी
हिं
दी
#actual output
हिंदी
ह
ि
ं
द
ी
【问题讨论】:
标签: python string unicode split