【发布时间】:2015-09-30 08:14:37
【问题描述】:
我正在构建一个 twitter 机器人,它将监听如下推文:
Hey @twitterbot, I'm looking for restaurants around 123 Main Street, New York
或者,另一个例子:
@twitterbot, what's near Yonge & Dundas, Toronto? I'm hungry!
然后它会回复您希望这些问题返回的数据类型。我已经解决了大部分问题,但我被困在不应该那么难的事情上;从推文中提取地址。
我会将地址转发到地理编码服务以获取纬度/经度,因此我不需要以任何方式格式化或准备地址;我只需要将其与“我正在寻找附近的餐馆”或“我饿了!”等不相关的文本区分开来。
是否有任何 NLP 工具可以在文本块中执行此地址识别?对另一种方法有什么建议吗?因为 Google 的地理编码器可以处理如此广泛的地址格式(即使是像“多伦多伊顿中心”这样的兴趣点也算作地址),我不能使用正则表达式来提取地址。
换一种说法,我只是想删除任何不属于地址的文本。
我正在寻找的地址需要在美国/加拿大工作。
StackOverflow 上有一些类似的问题,但没有一个可以解决我能找到的确切问题。因为 Google 的地理编码器非常宽容,所以解决方案不必完美无缺,它只需要消除足够多的模糊,以便 Google 知道我想说什么。
我对 NLP 很陌生,因此我很感激有关该主题的任何指导。
【问题讨论】:
标签: google-maps machine-learning nlp street-address