【发布时间】:2020-11-25 05:43:17
【问题描述】:
基础 R 函数 diff 计算一阶差分,用于滞后数据比较。
我正在寻找 R 中可访问的 GNU diff 函数:https://www.computerhope.com/unix/udiff.htm
此功能对版本控制很有用,但在自然语言处理中也很有用,可识别两个相似文本元素之间的更改或编辑。这也是git等的底层引擎。
理想情况下,函数应该是 gnudiff(text1,text2),如果绑定到 quanteda 或其他库,那就太棒了。
如何获得两个文本元素的diff?
【问题讨论】:
-
您对哪些差异感兴趣?您可以查看
stringdist或similiars。您需要的只是 A 中的“差异”而不是 B 中的“差异”吗?对于后者,请参阅this