【发布时间】:2015-04-20 15:15:10
【问题描述】:
我正在使用一个名为 AntConc 的语料库语言学工具,其中您有一个文档,其中每个单词都被标记为词性(名词、形容词等),并且您使用特定的命令来提取匹配项。例如,如果我要查找一个名词(标记为 NN),我会使用 *_NN,它会查找文档中的每个名词。
我需要将我的 *_TAG 语法翻译成 python 正则表达式,但我不知道该怎么做。例如,我有一个短语:*_PP$ *_NN *_DT *_JJ *_NN(这会转化为所有格代词、名词、限定词、形容词、名词;它会找到诸如“她的声音完全重复”之类的东西),采用 TAG 格式。
如何将这样的事情更改为正则表达式?现在,我将只接受那些基本的东西。稍后我会担心弄清楚如何做“或”和“如果这样,那么这样”等等。
如果您需要有关标签的更多信息,请尝试搜索 POS 标签 CLAWS,它应该会给您一个列表。
非常感谢您的帮助!
【问题讨论】:
-
发布示例输入以及预期输出。
-
您好!我不是用 *_PP$ *_NN *_DT *_JJ *_NN = "所有格代词、名词、限定词、形容词、名词;'她的声音完全重复'"吗?你能更清楚你想要什么吗?我对python不太了解。谢谢!
-
@CarrieOtt 不清楚你想要什么。您想使用正则表达式将标签翻译成更易读的形式吗?或者您想构建一个与 POS 标签等效的正则表达式?请添加一些输入和预期输出以供我们理解。
-
您好!是的,我想构建一个与 POS 标签等效的正则表达式。只是我不知道从哪里开始这样做。很抱歉造成混淆!下面的答案似乎有你要找的输入输出示例。