【发布时间】:2016-09-12 01:26:40
【问题描述】:
我正在编写一个文本解析器,它应该从产品描述中提取特征。
例如:
text = "Canon EOS 7D Mark II Digital SLR Camera with 18-135mm IS STM Lens"
features = extract(text)
print features
Brand: Canon
Model: EOS 7D
....
我这样做的方法是使用结构化数据训练系统并提出可以将术语映射到特征的倒排索引。这工作得很好。
当文本包含50ml 或2kg 之类的度量时,反向索引将显示2kg -> Size 和50ml -> Size 例如。
这里的问题是,当我得到一个我以前没有见过的值时,比如13ml,它不会被处理。但是由于模式匹配一个大小,我们可以将其标记为大小。
我正在考虑通过预处理我从文本中获得的标记并寻找我知道的模式来解决这个问题。因此,当识别出新模式时,必须将其添加到预处理中。
我想知道,这是解决此问题的最佳方法吗?或者有更好的方法吗?
【问题讨论】:
标签: algorithm machine-learning nlp