【问题标题】:Match byte spans from an annotation into a text document, Python or Java匹配字节范围从注释到文本文档、Python 或 Java
【发布时间】:2013-07-16 12:42:54
【问题描述】:

我正在使用 MPQA 意见语料库,其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量(字节跨度)
例如850,861

string  GATE_direct-subjective   
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient" 
intensity="medium" 
polarity="negative"

如何将这些字节跨度匹配到文本文档中?我很感激任何想法!我更喜欢使用 Python,但使用 Java 的解决方案也可以。

【问题讨论】:

  • 不清楚“匹配字节跨度到文本文档”是什么意思。你能展示一个示例字符串、一个示例偏移量和一个示例结果并解释它们是如何组合在一起的吗?

标签: java python nlp byte tagged-corpus


【解决方案1】:

我不是 100% 确定我是否正确理解了这个问题,但是如果您需要一个子字符串并且您有字符位置,那么解决方案很简单。

Python 解决方案:

>>> sometext = "Grant D is a great guy."
>>> character_offset = [0, 7]
>>> subString = sometext[character_offset[0]:character_offset[1]]
>>> print subString
Grant D
>>> 

【讨论】:

    猜你喜欢
    • 2017-04-08
    • 2014-05-26
    • 2015-12-22
    • 2018-01-04
    • 1970-01-01
    • 2021-08-04
    • 2010-12-18
    • 1970-01-01
    • 2017-02-13
    相关资源
    最近更新 更多