在Ruby中输出唯一的unicode字符列表

【问题标题】：Outputting list of unique unicode characters in Ruby在Ruby中输出唯一的unicode字符列表
【发布时间】：2012-02-25 11:22:16
【问题描述】：

我在 Ruby 中解析一些包含 Unicode 字符的文本，我想在一个输出文件中转录为 ASCII 值，在另一个输出文件中转录为 HTML 编码。有没有一种简单的方法可以吐出文件中的非 ASCII 字符？例如：

\u00A0 #should become a " " in the text text file, but &nbsp; in the html output file

我将根据我的需要手动转录它们，并希望输出我需要从初始输入文件转录的唯一字符列表。

谢谢，
本

【问题讨论】：

标签： ruby regex unicode

【解决方案1】：

有一种方法可以帮助提取字符串中的字符：

"foo\u00A0bar".chars.to_a
# => ["f", "o", "o", " ", "b", "a", "r"]

由于其中一些字符可能是多字节 UNICODE 字符，您可能还希望将其扩展为字节，以便更彻底：

"foo\u00A0bar".chars.to_a.collect { |c| [ c, c.bytes.to_a ] }
# => [["f", [102]], ["o", [111]], ["o", [111]], [" ", [194, 160]], ["b", [98]], ["a", [97]], ["r", [114]]]

该数组分解了用于构造该字符的特定字节。在这种情况下，不间断空格显示为" "，但实际上在内部是[194, 160]。

【讨论】：