【发布时间】:2011-04-16 05:21:25
【问题描述】:
我有一个大字符串(更准确地说是 RSS 文章),我想在特定的 startIndex 和 endIndex 中获取单词。 String 提供了 substring 方法,但仅使用 int 作为其参数。我的开始和结束索引是 long 类型。
使用 long 类型的开始和结束索引从字符串中获取单词的最佳方法是什么?
我的第一个解决方案是开始修剪字符串并将其取下,以便我可以使用整数。不喜欢它要去的地方。然后我查看了Apache Commons Lang,但没有找到任何东西。有什么好的解决办法吗?
谢谢。
更新:
只是为了提供更多信息。
我正在使用一个名为General Architecture for Text Engineering (GATE) 的工具,它扫描一个字符串并返回一个注释列表。注释包含一个单词的类型(Person、Location 等)以及该单词的开始和结束索引。
对于 RSS,我使用 ROME,它读取 RSS 提要并在字符串中包含文章正文。
【问题讨论】:
-
为什么不分块读取数据集并使用常规子字符串(int,int)?
-
出于好奇,这些字符串到底有多大?
-
你真的得到了 8 GB 的 RSS 文章吗??
-
@Sagar 是的,我也想过。但我想也许有更好的方法(不确定到底有多好:P)。
-
@Pointy & @Roman :S 我从来没有想过要实际计算大小,但问题是,我使用一个库来扫描文本并为我提供某些单词的索引(不是实际单词!)。这些索引的类型为 long。我很确定它没有那么大......