【发布时间】:2013-03-09 22:50:43
【问题描述】:
我正在尝试使用 python 从包含给定子字符串的字符串中获取句子。
我可以访问字符串(学术摘要)和带有开始和结束索引的亮点列表。例如:
{
abstract: "...long abstract here..."
highlights: [
{
concept: 'a word',
start: 1,
end: 10
}
{
concept: 'cancer',
start: 123,
end: 135
}
]
}
我遍历每个亮点,在摘要中找到它的开始索引(结束并不重要,因为我只需要在一个句子中获取一个位置),然后以某种方式需要识别出现索引的句子.
我可以使用nltk.tonenize.sent_tokenize 将摘要标记为句子,但这样做会使索引位置变得无用。
我应该如何解决这个问题?我想正则表达式是一种选择,但 nltk 标记器似乎是一种很好的方法,不使用它会很遗憾。或者通过查找自上一个句号以来的字符数以某种方式重置开始索引/感叹号/问号?
【问题讨论】:
-
这看起来像 JSON。
-
是的,我正在处理来自 API 端点的数据。
-
这可能很昂贵,但您可以遍历句子并根据长度重新计算句子的索引,然后搜索该索引