【发布时间】:2017-10-02 15:33:26
【问题描述】:
我想规范化用户通过<form> 发布的 Unicode(UTF-8) 字符串。是否有任何图书馆可以在 Elixir(或 Phoenix 或 Erlang)中处理这些东西?我习惯用 Python 做这件事,像下面这样,但我不知道 Elixir 有那些库。
import unicodedata
import zenhan
import jctconv
def normalize(strings, unistr = 'NFKC')
norm = unicodedata.normalize(unistr, strings)
zenhan = zenhan.z2h(norm, mode=2)
katahira = jctconv.kata2hira(zenhan)
return katahira
【问题讨论】:
-
顺便说一句,我终于自己写了这个库。 hex.pm/packages/japanese_zenhan
-
您对库的特别要求(在半角和全角日文字符之间进行转换)似乎与您的问题所暗示的并不完全相同,即规范化 UTF-8 字符广义的。下面的答案适用于广泛的问题。