【发布时间】:2011-06-02 19:21:12
【问题描述】:
我有一个问题对专家来说应该很简单,但对我来说却很神秘:) 我想将文本(经过预处理,除了常规标点符号外没有特殊字符)解析为句子并执行两项任务类似于:
对于每个句子,找出单词的数量(Sentence Length)。然后对于文档,找到平均句子长度。无需报告任何句子级别的输出。请注意,该文档包含相当数量的专有名词,因此大写字母不一定表示句子的开头。但是本文档中的句子通常以“,”,“!”或“?”结尾。
对于每个句子,应用正则表达式模式。如果匹配,则给句子赋值,例如 1。对于整个文档,报告匹配数。同样,只需要文档级别的输出。
我想知道是否有任何方法可以做到这一点,最好是在 C# 或 VB 中。任何帮助将不胜感激。
=======================
示例段落:
This is an example of a paragraph! It contains three sentences? And the average sentence has many words.
示例模式:
"three"
输出:
number of sentences-3.
Average sentence length-6.
Number of matches-1.
【问题讨论】:
-
句子不以逗号结尾。你的意思是句号吗?
-
到目前为止,答案似乎没有考虑十进制数字和缩写。
标签: c# regex linq parsing text