【发布时间】:2013-07-16 12:42:54
【问题描述】:
我正在使用 MPQA 意见语料库,其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量(字节跨度)
例如850,861
string GATE_direct-subjective
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient"
intensity="medium"
polarity="negative"
如何将这些字节跨度匹配到文本文档中?我很感激任何想法!我更喜欢使用 Python,但使用 Java 的解决方案也可以。
【问题讨论】:
-
不清楚“匹配字节跨度到文本文档”是什么意思。你能展示一个示例字符串、一个示例偏移量和一个示例结果并解释它们是如何组合在一起的吗?
标签: java python nlp byte tagged-corpus