R友好的希腊字符答案

【问题标题】：R friendly greek charactersR友好的希腊字符
【发布时间】：2019-04-05 09:08:59
【问题描述】：

我注意到我可以使用一些希腊字母作为名称，而其他字母要么是非法的，要么只是拉丁字母的别名。

基本上我可以使用β或µ（虽然β在打印时更改为ß，ß和β充当别名）

list(β = 1)
# $ß
# [1] 1
list(μ = 1)
# $µ
# [1] 1

α, Γ, δ, ε, Θ, π, Σ, σ, τ, Φ, φ 和 Ω 是允许的，但作为拉丁字母的别名。

list(α = 1)
# $a
# [1] 1

αa <- 42
aa
# [1] 42

GG <- 33
ΓΓ 
# [1] 33

我测试过的其他字母“不起作用”：

ι <- 1
# Error: unexpected input in "\"
Λ <- 1
# Error: unexpected input in "\"
λ <- 1
#Error: unexpected input in "\"

我对@987654332@ 感到惊讶，因为它是由包wrapr 的define_lambda 定义的，所以我认为这取决于系统。

我知道相似或相同的字符可以有不同的编码，其中一些不能很好地在应用程序之间复制/粘贴，这个问题的代码在粘贴回 RStudio 时返回描述的输出。

?make.names 说：

语法上有效的名称由字母、数字和点或下划线字符并以字母或不跟随的点开头一个数字

所以问题的一部分是：什么是字母？以及这里发生了什么？

更具体地说：

是否有希腊字符可以在所有 R 安装中安全使用，尤其是 µ 和 β（或 ß）可以安全地在包中使用。
为什么 λ ( intToUtf8(955) ) 在我的系统上不可用，而 wrapr 的用户似乎常用它。
是否有其他非拉丁字母（希腊或非希腊字母）可以安全地用于我的代码中？（例如，挪威语ø 看起来很酷，似乎可以在我的系统上运行）

这一切都是因为我正在寻找一个不会与现有或常用名称冲突的一个（或两个）字符函数名称，并且看起来有点时髦。 . 已经用过很多次了，我也用过..。

来自sessionInfo()：

R version 3.5.2 (2018-12-20)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=English_United Kingdom.1252  LC_CTYPE=English_United Kingdom.1252    LC_MONETARY=English_United Kingdom.1252
[4] LC_NUMERIC=C                            LC_TIME=English_United Kingdom.1252

【问题讨论】：

编码地狱。 assign("λ", 1); assign("α", 1); ls(); enc2native("λ"); enc2native("α"); enc2native("Γ")
这显然有效：assign("λ", 5); get("<U+03BB>")，但不是assign("λ", 5); print(λ)。有趣的发现这个问题。还有这个：assign("λ", 5); `<U+03BB>` 有效。
我想 assign("λ", 5); print(λ) 在您的本机编码为 utf-8 时有效：enc2utf8("λ")
ü, ä, ö, ß 在我的系统上运行良好，但这可能取决于区域设置。即使是德国人也不会自然而然地使用 ß 作为变量名，所以这可能会很好。
FWIW，我在 Ubuntu 上，没有收到任何错误/别名，也无法重现任何内容。

标签： r character-encoding

【解决方案1】：

无论如何我都不是专家，但让我们尝试分析问题。最后，编译器需要理解您的 R 代码，因此 make.names() 的源代码可能会有所帮助：

names <- as.character(names)
names2 <- .Internal(make.names(names, allow_))
if (unique) {
  o <- order(names != names2)
  names2[o] <- make.unique(names2[o])
}
names2

现在，.Internal() 调用 R 解释器（用 C 编写），所以我们需要更深入一点。负责处理 make.names() 请求的 C 代码可以在这里找到：https://github.com/wch/r-source/blob/0dccb93e114b00b2fcbe75e8721f11a8f2ffdff4/src/main/character.c

短片：

SEXP attribute_hidden do_makenames(SEXP call, SEXP op, SEXP args, SEXP env)
{
    SEXP arg, ans;
    R_xlen_t i, n;
    int l, allow_;
    char *p, *tmp = NULL, *cbuf;
    const char *This;
    Rboolean need_prefix;
    const void *vmax;

    checkArity(op ,args);
    arg = CAR(args);
    if (!isString(arg))
    error(_("non-character names"));
    n = XLENGTH(arg);
    allow_ = asLogical(CADR(args));
    if (allow_ == NA_LOGICAL)
    error(_("invalid '%s' value"), "allow_");
    PROTECT(ans = allocVector(STRSXP, n));
    vmax = vmaxget();
    for (i = 0 ; i < n ; i++) {
    This = translateChar(STRING_ELT(arg, i));
    l = (int) strlen(This);
    /* need to prefix names not beginning with alpha or ., as
       well as . followed by a number */
    need_prefix = FALSE;
    if (mbcslocale && This[0]) {
        int nc = l, used;
        wchar_t wc;
        mbstate_t mb_st;
        const char *pp = This;
        mbs_init(&mb_st);
        used = (int) Mbrtowc(&wc, pp, MB_CUR_MAX, &mb_st);
        pp += used; nc -= used;
        if (wc == L'.') {
        if (nc > 0) {
            Mbrtowc(&wc, pp, MB_CUR_MAX, &mb_st);
            if (iswdigit(wc))  need_prefix = TRUE;
        }
        } else if (!iswalpha(wc)) need_prefix = TRUE;
    } else {
        if (This[0] == '.') {
        if (l >= 1 && isdigit(0xff & (int) This[1])) need_prefix = TRUE;
        } else if (!isalpha(0xff & (int) This[0])) need_prefix = TRUE;
    }
    if (need_prefix) {
        tmp = Calloc(l+2, char);
        strcpy(tmp, "X");
        strcat(tmp, translateChar(STRING_ELT(arg, i)));
    } else {
        tmp = Calloc(l+1, char);
        strcpy(tmp, translateChar(STRING_ELT(arg, i)));
    }
    if (mbcslocale) {
        /* This cannot lengthen the string, so safe to overwrite it. */
        int nc = (int) mbstowcs(NULL, tmp, 0);
        if (nc >= 0) {
        wchar_t *wstr = Calloc(nc+1, wchar_t);
        mbstowcs(wstr, tmp, nc+1);
        for (wchar_t * wc = wstr; *wc; wc++) {
            if (*wc == L'.' || (allow_ && *wc == L'_'))
            /* leave alone */;
            else if (!iswalnum((int)*wc)) *wc = L'.';
        }
        wcstombs(tmp, wstr, strlen(tmp)+1);
        Free(wstr);
        } else error(_("invalid multibyte string %d"), i+1);
    } else {
        for (p = tmp; *p; p++) {
        if (*p == '.' || (allow_ && *p == '_')) /* leave alone */;
        else if (!isalnum(0xff & (int)*p)) *p = '.';
        /* else leave alone */
        }
    }
//  l = (int) strlen(tmp);        /* needed? */
    SET_STRING_ELT(ans, i, mkChar(tmp));
    /* do we have a reserved word?  If so the name is invalid */
    if (!isValidName(tmp)) {
        /* FIXME: could use R_Realloc instead */
        cbuf = CallocCharBuf(strlen(tmp) + 1);
        strcpy(cbuf, tmp);
        strcat(cbuf, ".");
        SET_STRING_ELT(ans, i, mkChar(cbuf));
        Free(cbuf);
    }
    Free(tmp);
    vmaxset(vmax);
    }
    UNPROTECT(1);
    return ans;
}

正如我们所见，使用了依赖于编译器的数据类型，例如 wchar_t (http://icu-project.org/docs/papers/unicode_wchar_t.html)。这意味着 make.names() 的行为取决于用于编译 R 解释器本身的 C 编译器。问题是 C 编译器不是很标准化，因此不能对字符的行为做出假设。包括操作系统、硬件、语言环境等在内的一切都可以改变这种行为。

总之，如果你想保存，我会坚持使用 ASCII 字符，尤其是在不同操作系统之间共享代码时。

【讨论】：