【问题标题】:String literal to basic_string<unsigned char>字符串文字到 basic_string<unsigned char>
【发布时间】:2011-04-19 13:48:29
【问题描述】:

谈到国际化和 Unicode,我是个白痴的美国程序员。这是交易。

#include <string>
using namespace std;

typedef basic_string<unsigned char> ustring;

int main()
{
    static const ustring my_str = "Hello, UTF-8!"; // <== error here
    return 0;
}

这会引发意外的抱怨:

cannot convert from 'const char [14]' to 'std::basic_string&lt;_Elem&gt;'

也许我今天喝错了咖啡。我该如何解决?我可以保留基本结构吗:

ustring something = {insert magic incantation here};

?

【问题讨论】:

  • 不回答您的问题,但请阅读 i18n 上的这篇文章:joelonsoftware.com/articles/Unicode.html
  • 您可能需要提供自己的char_traits&lt;unsigned char&gt; 专业化。 AFAIK,&lt;string&gt; 仅提供 charwchar_t 的专业化。
  • 使用 std::string 会不会有问题?我猜您使用的是 utf-8,因此单个字符最终可能是负面的(可以这么说)。如果您消除 const 并将字符串类型转换为 unsigned char* 它将允许分配,但它看起来并不漂亮。
  • @Daryl:我使用的 libxml 传递了一堆 unsigned char*,所以我认为 std::string 是不行的

标签: c++ string unicode internationalization


【解决方案1】:

对不同的编码使用不同的字符类型的好处是当你把它们弄乱时编译器会向你咆哮。缺点是,您必须手动转换。

一些辅助函数来救援:

inline ustring convert(const std::string& sys_enc) {
  return ustring( sys_enc.begin(), sys_enc.end() );
}

template< std::size_t N >
inline ustring convert(const char (&array)[N]) {
  return ustring( array, array+N );
}

inline ustring convert(const char* pstr) {
  return ustring( reinterpret_cast<const ustring::value_type*>(pstr) );
}

当然,当要转换的字符串包含 ASCII 以外的任何内容时,所有这些都会默默地和致命地失败。

【讨论】:

  • 不知何故我无法使用convert 的第三个重载。我收到以下编译错误:error: cast from 'const char*' to 'std::__cxx11::basic_string&lt;unsigned char&gt;::value_type {aka unsigned char}' loses precision [-fpermissive] return ustring( reinterpret_cast&lt;ustring::value_type&gt;(pstr) );coliru link
  • @Patryk:我相信我现在已经解决了这个问题。对不起,我很久以前就弄错了。
  • 这就是我们的目标:)
【解决方案2】:

窄字符串文字被定义为const char,并且没有无符号字符串文字[1],因此您必须进行转换:

ustring s = reinterpret_cast<const unsigned char*>("Hello, UTF-8");

当然你可以把这么长的东西放到一个内联函数中:

inline const unsigned char *uc_str(const char *s){
  return reinterpret_cast<const unsigned char*>(s);
}

ustring s = uc_str("Hello, UTF-8");

或者您可以只使用 basic_string&lt;char&gt; 并在 99.9% 的时间处理 UTF-8 时摆脱它。

[1] 除非char 是无符号的,但不管它是否是实现定义的,废话,废话。

【讨论】:

  • @Steve,我知道这是旧的,但我很好奇,basic_string&lt;char&gt; 什么时候不能用于存储 UTF-8 编码的字符串?它只是存储一个从未让我失望过的字节序列。有没有我不知道的极端案例?
猜你喜欢
  • 1970-01-01
  • 2019-08-31
  • 1970-01-01
  • 2020-04-23
  • 2013-03-21
  • 1970-01-01
  • 1970-01-01
  • 2018-03-27
  • 2013-09-19
相关资源
最近更新 更多