【发布时间】:2012-06-16 14:55:58
【问题描述】:
我有很多文本,类似于以下段落,我想将其拆分为不带标点符号的单词('、"、,、.、newline 等).. 有一些例外。
最初被认为是印度南部喀拉拉邦的查拉库迪河系统的特有种,但现在被认为在包括 Periyar、Manimala 和 Pamba 河在内的周边排水系统中分布更广泛,尽管 Manimala 的数据可能存在问题,因为它似乎是P. denisonii的类型产地。
在 Achankovil 河流域,它与 P. denisonii 同域出现,有时同位出现。
在过去 15 年左右的时间里,野生种群可能减少了多达 50%,尽管栖息地也因农业和国内污染以及涉及爆炸物的破坏性捕鱼方法而退化,但主要是为了水族馆贸易而收集或有机毒素。
文字指的是P. denisonii,它是一种鱼。它是Genus species 的缩写。我希望这个参考是一个词。
所以,例如,这是我希望看到的那种数组:
Array
(
...
[44] given
[45] it
[46] seems
[47] to
[48] be
[49] the
[50] type
[51] locality
[52] of
[53] P. denisonii
[54] In
[55] the
...
)
将这些物种引用(如P. denisonii)与新句子(如end. New)区分开来的唯一因素是:
- P(对于 Puntius,如上述示例中的 P.)只有一个字母,总是大写
-
d(如 .denisonii)始终是小写字母或撇号 (
')
preg_split 可以使用什么正则表达式来给我这样的数组?我尝试了一个简单的explode( " ", $array ),但它根本不起作用。
提前致谢,
【问题讨论】:
-
您可以使用
explode和str_replace进行拆分,但我不确定P. denisonii...
标签: php regex preg-split