【发布时间】:2011-11-12 10:59:42
【问题描述】:
我需要使用 Python 解析 DSL 文件。 DSL 文件是一个文本文件,其文本具有特殊标记,带有 ABBYY Lingvo 使用的标签。
看起来像:
activate
[m0][b]ac·ti·vate[/b] {{id=000000367}} [c rosybrown]\[[/c][c darkslategray][b]activate[/b][/c] [c darkslategray][b]activates[/b][/c] [c darkslategray][b]activated[/b][/c] [c darkslategray][b]activating[/b][/c][c rosybrown]\][/c] [p]BrE[/p] [c darkgray] [/c][c darkcyan]\[ˈæktɪveɪt\][/c] [s]z_activate__gb_1.wav[/s] [p]NAmE[/p] [c darkgray] [/c][c darkcyan]\[ˈæktɪveɪt\][/c] [s]z_activate__us_1.wav[/s] [c orange] verb[/c] [c darkgray] [/c][b]{{cf}}\~ sth{{/cf}} [/b]
[m1]{{d}}to make sth such as a device or chemical process start working{{/d}}
[m2][ex][*]• [/*][/ex][ex][*]{{x}}The burglar alarm is activated by movement.{{/x}} [/*][/ex]
[m2][ex][*]• [/*][/ex][c darkgray] [/c][ex][*]{{x}}The gene is activated by a specific protein.{{/x}} [/*][/ex]
{{Derived Word}}[m3][c darkslategray][u]Derived Word:[/u][/c] ↑<<activation>>{{/Derived Word}}
{{side_verb_forms}}[m3][c darkslategray][u]Verb forms:[/u][/c] [s]x_verb_forms_activate.jpg[/s]{{/side_verb_forms}}
现在我看到了使用regexps 解析此文件的唯一选项。但我怀疑它是否可以实现,因为这种格式的标签有一些层次结构,其中一些在其他的内部。
我不能使用特殊的 xml 和 html 解析器。它们非常适合创建文档的树形结构,但它们是为 html 和 xml 的特殊标签设计的。
以这种格式解析文件的最佳方法是什么?是否有任何用于此目的的 Python 库?
【问题讨论】:
-
“DSL”是一个通用术语。这是哪个特定 DSL?什么是域?有适用的标准吗?当您在 Google 上搜索“解析 D Python”(其中 D 是适用于 DSL 的标准定义)时,您得到了什么?
-
这是一个在俄罗斯非常流行的程序的字典文件格式。这是他们自己的格式,文件有
.dslextintion。所有信息都是俄文的,所以我认为在这里发布描述链接不是一个好主意。 -
我认为可以有一些通用模块来解析带有标签的文本文件。所以我决定在这里问。
-
“带有标签的文本文件”?这太模糊了,没有任何意义。 JSON、LaTex、RTF 都是“带标签的文本文件”。没有“通用解析器”。您只需要使用 DSL 的适用标准的 name 来搜索解析器。如果用 Google 找不到,那么它不存在。没有神奇的“带有标签的文本”,因为它太开放、太模糊、太模糊。
-
@S.Lott 谢谢。我在谷歌上找不到任何东西。这是他们当地的标准。我认为它们可能是一些允许基于嵌套标签结构创建树的引擎(通过提供文本和标签列表(在这种情况下,大多数标签都在方括号中))。
标签: python parsing tags markup