【发布时间】:2014-08-24 19:37:53
【问题描述】:
按照书中的教程,使用以下代码将文本拆分成句子,
def sentences
gsub(/\n|\r/, ' ').split(/\.\s*/)
end
它可以工作,但是如果有一个换行符开始时没有句点,例如,
Hello. two line sentence
and heres the new line
每个句子的开头都有一个“\t”。所以如果我在上面的句子中调用方法,我会得到 p>
["Hello." "two line sentence /tand heres the new line"]
任何帮助将不胜感激!谢谢!
【问题讨论】:
-
我认为你在问什么不清楚。你到底想做什么,出了什么问题?
-
因此该方法应根据句点后跟空格将文本拆分为句子。
-
所以在上面的行中调用 .sentences 应该会导致 ["Hello", "two line sentence and heres the new line"] 但是当有新行时我得到一个 /t。跨度>
-
我认为问题的根源可能是制表符已经在这里了。您可以使用更激进的
gsub(/\s+/, ' ')来避免该问题。