【发布时间】:2015-11-02 15:06:29
【问题描述】:
我正在尝试处理 xml 文件的语料库以进行文本挖掘。有没有办法将多个文件导入到一个 xml 对象/数据库中,以后可以使用 XPath?
这是明智之举吗?我发现了一个类似的报告,将 xml 文件导入其他数据格式,例如数据帧或 tm 语料库对象Parsing multiple xml files to a Single Dateframe in R,但是将它们保持为 XML 格式应该使它们保持整洁,保持对上下文的访问,因为带注释的语料库可以有很深的树并制作查询语言不错,处理更简单?
非常感谢您的咨询。
【问题讨论】:
标签: xml r xpath text-mining corpus