【问题标题】:Cannot use bigquery udf (bqutil) in processing location: us-west-2无法在处理位置使用 bigquery udf (bqutil):us-west-2
【发布时间】:2022-02-01 18:24:16
【问题描述】:

我们正在尝试在 us-west2 中使用这些 - https://github.com/GoogleCloudPlatform/bigquery-utils/tree/master/udfs/community

第一个查询处理得很好,在美国

第二个查询不会运行

我们的数据集 models 在 us West 2 中。似乎来自第二个查询编辑器的所有查询都在 us-west 2 中处理,似乎 bqutil 不存在?在us-west2(我们的数据集都存在的地方)处理时,我们如何找到函数bqutil.fn.levenshtein

【问题讨论】:

标签: google-bigquery bigquery-udf


【解决方案1】:

要在 BigQuery 表中使用 levenshtein UDF,您需要在数据集所在的位置创建 UDF。

您可以参考下面的 UDF 和数据驻留在 us-west2 位置的屏幕截图。

UDF:

CREATE OR REPLACE FUNCTION
`stackdemo.fn_LevenshteinDistance`(in_a STRING, in_b STRING) RETURNS INT64 LANGUAGE js AS R"""

var a = in_a.toLowerCase();
var b = in_b.toLowerCase();
 if(a.length == 0) return b.length;
if(b.length == 0) return a.length;
var matrix = [];
// increment along the first column of each row
var i;
for(i = 0; i <= b.length; i++){
 matrix[i] = [i];
}
// increment each column in the first row
var j;
for(j = 0; j <= a.length; j++){
 matrix[0][j] = j;
}
// Fill in the rest of the matrix
for(i = 1; i <= b.length; i++){
 for(j = 1; j <= a.length; j++){
   if(b.charAt(i-1) == a.charAt(j-1)){
     matrix[i][j] = matrix[i-1][j-1];
   } else {
     matrix[i][j] =
       Math.min(matrix[i-1][j-1] + 1, // substitution
       Math.min(matrix[i][j-1] + 1, // insertion
       matrix[i-1][j] + 1)); // deletion
   }
 }
}
return matrix[b.length][a.length];
""";

查询:

SELECT
 source,
 target,
 `stackdemo.fn_LevenshteinDistance`(source, target) distance,
FROM UNNEST([
 STRUCT('analyze' AS source, 'analyse' AS target),
 STRUCT('opossum', 'possum'),
 STRUCT('potatoe', 'potatoe'),
 STRUCT('while', 'whilst'),
 STRUCT('aluminum', 'alumininium'),
 STRUCT('Connecticut', 'CT')
]);

输出:

【讨论】:

  • 这很有道理,谢谢!您是自己创建了这个 UDF,还是在网上某个地方找到了它?我在共享的仓库中找不到这个。
  • 另外,UDF 的函数脚本语法是什么?这是javascript吗?
  • 这很好用,太棒了,欣赏它
  • 嗨@Canovic,我从 Mikhail Berlyant 共享的线程链接中获取了代码参考,是的,UDF 是用 javascript 编写的。
  • 很高兴帮助你@Canovic
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-11-24
  • 1970-01-01
  • 2022-06-10
  • 1970-01-01
  • 1970-01-01
  • 2019-03-21
  • 2015-10-06
相关资源
最近更新 更多