【发布时间】:2018-11-12 16:25:04
【问题描述】:
我想计算数据库中的 Jaro-Winkler 字符串距离。如果我将数据带入 R(使用 collect),我可以轻松使用 stringdist 包中的 stringdist 函数。
但我的数据非常大,我想在将数据拉入 R 之前过滤 Jaro-Winkler 距离。
有 Jaro-Winkler 的 SQL 代码(https://androidaddicted.wordpress.com/2010/06/01/jaro-winkler-sql-code/ 和 T-SQL 的版本),但我想我不确定如何最好地让该 SQL 代码与 dbplyr 一起工作。我很高兴尝试将 stringdist 函数映射到 Jaro-Winkler sql 代码,但我不知道从哪里开始。但即使是像直接从 R 对远程数据执行 SQL 代码这样更简单的事情也会很棒。
我曾希望 dbplyr 文档中的 SQL translation 可能会有所帮助,但我不这么认为。
【问题讨论】:
-
您能否提供一个包含示例数据代码的最小、完整、可验证的示例? stackoverflow.com/help/mcve
-
您可以直接进行 SQL 调用并在您的数据进入后使用 dplyr 吗?
标签: r stringdist dbplyr