【问题标题】:Outputting list of unique unicode characters in Ruby在Ruby中输出唯一的unicode字符列表
【发布时间】:2012-02-25 11:22:16
【问题描述】:

我在 Ruby 中解析一些包含 Unicode 字符的文本,我想在一个输出文件中转录为 ASCII 值,在另一个输出文件中转录为 HTML 编码。有没有一种简单的方法可以吐出文件中的非 ASCII 字符?例如:

\u00A0 #should become a " " in the text text file, but   in the html output file

我将根据我的需要手动转录它们,并希望输出我需要从初始输入文件转录的唯一字符列表。

谢谢,

【问题讨论】:

    标签: ruby regex unicode


    【解决方案1】:

    有一种方法可以帮助提取字符串中的字符:

    "foo\u00A0bar".chars.to_a
    # => ["f", "o", "o", " ", "b", "a", "r"]
    

    由于其中一些字符可能是多字节 UNICODE 字符,您可能还希望将其扩展为字节,以便更彻底:

    "foo\u00A0bar".chars.to_a.collect { |c| [ c, c.bytes.to_a ] }
    # => [["f", [102]], ["o", [111]], ["o", [111]], [" ", [194, 160]], ["b", [98]], ["a", [97]], ["r", [114]]]
    

    该数组分解了用于构造该字符的特定字节。在这种情况下,不间断空格显示为" ",但实际上在内部是[194, 160]

    【讨论】:

      猜你喜欢
      • 2013-08-31
      • 2011-03-10
      • 2019-11-28
      • 1970-01-01
      • 2012-09-27
      • 2023-04-09
      • 1970-01-01
      • 2020-01-06
      相关资源
      最近更新 更多