如何在 Mac OSX 上从 R 中的原始形态数据创建 Newick 树格式答案

【问题标题】：How to create Newick tree format from raw morphology data in R on Mac OSX如何在 Mac OSX 上从 R 中的原始形态数据创建 Newick 树格式
【发布时间】：2017-08-08 18:07:48
【问题描述】：

我正在尝试自学如何在 R 中为历史语言学做系统发育学。我找到了一个公共数据集 (https://www.cs.rice.edu/~nakhleh/CPHL/IEDATA_112603)，我想从中获取一个 Newick 格式树，这样我就可以按照以下说明将其可视化：https://www.r-phylo.org/wiki/HowTo/InputtingTrees。我在 Max OS 10.12.6 上运行 R 3.4.1。

这是我到目前为止所做的。我复制了数据并使用 R 和文本编辑器将其转换为 Nexus 数据文件。由于 Nexus（据我了解）无法区分单个字符 1 和 2 以及组合字符 12，因此我将原始数据集中超过 9 的所有值按顺序 (a-q) 转换为字母表中的字母。任何人都可以从这里下载：https://ucla.box.com/s/i4fbeagcw8lombg3xuhczfk3h0y7v54m

问题是，我找不到将原始数据解释为树的任何说明或代码或指导。我找到了一个 Python 脚本 (Convert csv to Newick tree)，但我不知道 Python。谁能指出我正确的软件/库/教程的方向，或者帮助我弄清楚下一步应该是什么？

【问题讨论】：

按照我理解 IEDATA 链接的方式，该表包含数据而不是树表示。需要根据模型从中计算出树。历史语言学中使用了哪些模型？您转换为 Nexus 格式的数据似乎没问题。
谢谢。我终于找到了一位可以帮助我的同事，他确认了你的回答，Nya。我需要做的是使用 R 的 Phangorn 包中的 as.phydat() 函数将语言数据转换为“系统发育数据”。我这样做的方法是在函数中指定“type = USER”，这让我可以为数据定义自己的级别。 cran.r-project.org/web/packages/phangorn/vignettes/… 有一个更详细的示例。这仍然有点超出我的想象，但我让这些功能正常工作，所以我已经完成了。

标签： r macos phylogeny ape-phylo

【解决方案1】：

我终于找到了一位可以帮助我的同事。我不需要将数据转换为 Newick 或 Nexus 以从中生成树，我需要将其转换为 phydat（请参阅 R 的 Phangorn 包）以从中生成树。我所做的是使用 R 的 Phangorn 包中的 as.phydat() 函数将语言数据转换为“系统发育数据”。我这样做的方法是在函数中指定“type = USER”，这让我可以为数据定义自己的级别。在 cran.r-project.org/web/packages/phangorn/vignettes/... 有一个更详细的示例。然后，我可以使用常规的 Phangorn 函数从中创建树。

【讨论】：

【解决方案2】：

在R 中使用Phangorn 可能是一个好方法（请查看“构建系统发育树”小插图）。

browseVignettes(package = "phangorn")

但是，为了正确推断树，我建议您使用具有更多选项的“正确”系统发育推断软件（phangorn 非常适合探索性分析，但可能会受到限制）。

我建议您使用 BEAST 软件，该软件具有专门针对系统发育语言学的完整教程 (https://www.luke.maurits.id.au/files/research/papers/beastling.pdf)。 github上的Luke Maurits教程解释得很好（https://github.com/lmaurits/BEASTling/blob/master/docs/tutorial.rst）。

此外，关于您的 NEXUS 文件中存在不明确字符状态的问题（即状态为 12，1 和 2），您可以在 nexus 文件中将它们编码为 (12)。例如，这是一个有效的 NEXUS 格式：

#NEXUS

BEGIN DATA;
DIMENSIONS NTAX=2 NCHAR=3;

MATRIX
t1 1(12)2
t2 111
;
END;

【讨论】：