【问题标题】:How to predict correct country name for user provided country name?如何为用户提供的国名预测正确的国名?
【发布时间】:2016-05-03 23:12:43
【问题描述】:

我正计划对我的数据进行一些数据调整。

情况-我有一个包含country 字段的数据。它包含用户输入的国家/地区名称(它可能包含拼写错误或同一国家/地区的不同国家/地区名称,例如美国/美国/美国代表美国)。我有一个正确的国家名称列表。

我想要什么- 预测它指的是哪个最近的国家。例如-如果给出U.S.,那么它将更改为USA(我们列表中的正确国家名称)。

有什么方法可以使用 Java 或 opennlp 或任何其他方法吗?

【问题讨论】:

    标签: java nlp string-matching text-mining opennlp


    【解决方案1】:

    您可以使用 Getty API 。它会给你国家名称的缩写。只需使用此 API。

    您也可以使用Levenshtein Distance 获取最接近的国家/地区名称。

    试试这个。会帮助你的。

    【讨论】:

    • Levenshtein 距离很有用!!但问题是,对于像USA 这样的国家,如果数据有United States,那么距离将远远超过应有的距离!!
    • @AyushBanka:那个时候,你可以使用我在回答中添加的 API。这个Git code 可以帮助你。您可以添加您的。
    【解决方案2】:

    您可以在您的文本框或选择中尝试 Google 的自动完成位置 api。 如果您将使用此 api,那么您将在键入时获得像自动完成智能一样的谷歌。 visit link

    【讨论】:

    • 我想用我得到的数据在后端进行数据调整。我不确定自动完成是否会有所帮助。如果我错了,请纠正我
    【解决方案3】:

    如果您有经过清理的城市或州信息,那么您可以查找国家/地区。

    您还可以在国家名称列表中定义别名,并将别名指向首选符号。例如,US、United States、USA 都是 U.S.A 的别名。您可以使程序附加到别名数据库,以便在使用时改进。您可能已经对数据进行了多次传递,并且还涉及到一定数量的手动工作。

    【讨论】:

      猜你喜欢
      • 2014-01-10
      • 2018-11-27
      • 2014-10-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多