【发布时间】:2018-10-13 05:51:56
【问题描述】:
我无法找出用于解析文本文件和识别段落的正确正则表达式。
我目前拥有的:
[\n\n]+
示例文本:
Das Pensionat Klinger war bereits etwas zusammengeschmolzen, als das junge Ehepaar daselbst eintrat。 Es war ein unfreundlicher, regnerischer 萨默格韦森。 Klagen überall ... aus der Schweiz -- vom Salzkammergut her, wo der berüchtigte »Schnürlregen« tagaus tagein herabgoß -- Klagen vom Ostseestrande und aus dem Engadin ... Klagen endlich auch aus dem lieblichen Gebirgsnest 在 Süd-Bayern, in welchem man durch schönes Wetter sonst arg verwöhnt 战争。
Ein so reizendes Stück Erde! Tief gelegen -- hoch gelegen, wie man's eben nehmen wollte, denn die zierlichen, wie aus der Spielzeugschachtel genommenen Häuschen kletterten hier waghalsig die Berge empor, versteckten sich dort eigenwillig unter breitästigen Obstbäumen tief 我喝醉了。 Aber die Sonne fand sie alle und übergoß sie mit breiten Strahlenfluten hellen Goldes, und der Bergwind, Wie er frisch und kühl vom Gebirge herunterfuhr, strich darüber hin -- und ringsumher griffen die Berge wie die Glieder einer gewaltigen Kette ineinander ... einige grün, dicht bewaldet, die anderen kahl und schroff, hoch oben nur mit kümmerlichem Fichtenwuchs bestanden, und etwelche unter ihnen stolz zu den Wolken aufragend, ewigen Schnee auf dem Haupt, und 在 den Falten des Obergewandes blauschimmerndes Gletschereis!
我不断收到反馈,在行尾我收到了一个标记,上面写着 TokenParagraph。
例如:
....并且有一个[这是它错过步骤的地方]
编辑:
尝试(\n|^).*?(?=\n|$)时
我明白了,
为 lexing-0.1.0.0 预处理可执行文件“Main”。 Tokens.x:22:8: 解析错误
%wrapper "basic"
$whiteSpace = [\ \t \f \v \r]
$digit = 0-9
$alpha = [a-zA-Z]
tokens :-
$whiteSpace+ ;
$digit+ ;
(\n|^).*\?(\?=\n|$) { \s -> TokenParagraph }
【问题讨论】:
-
我试过了,但收到解析错误..
-
你能把错误粘贴到你的问题中吗?
-
只是确认您使用的是haskell?
-
是的,Haskell Alex.. 创建一个词法分析器
标签: regex parsing haskell alex