【发布时间】:2015-08-28 10:31:48
【问题描述】:
我对解析半结构化文本很感兴趣。假设我有一个带有此类标签的文本:year_field、year_value、identity_field、identity_value、...、address_field、address_value 等等。
这些字段及其关联值可以在文本中的任何地方出现,但通常它们彼此靠近,更一般地,文本以(非常)粗略的矩阵组织,但通常值就在关联之后字段之间最终会包含一些不感兴趣的信息。
不同格式的数量可以多达几十个,而且没有那么死板(不要指望间距,而且可以添加和删除一些信息)。
我正在寻找机器学习技术来提取所有感兴趣的(字段、值)。
我认为度量学习和/或条件随机场 (CRF) 可能会有很大帮助,但我没有这方面的实践经验。
有人遇到过类似的问题吗?
关于这个主题的任何建议或文献?
【问题讨论】:
-
1. stats.stackexchange.com 可能更好 2. 范围广泛且基于意见 3. 外部资源的建议是题外话。发帖前请检查What topics can I ask about here?和What types of questions should I avoid asking?。
-
谢谢,确实 stats.stackexchange.com 是建模部分的更好地方。但是,我在这里询问的是软件部分,我承认这在我的查询中并不明显。
标签: parsing machine-learning information-retrieval information-extraction