【发布时间】:2013-06-09 05:20:46
【问题描述】:
我正在做一个关于统计机器翻译的项目,我需要从一个带有 POS 标记的文本文件中提取与正则表达式匹配的行号(任何带有粒子“out”的非分隔短语动词),然后写文件的行号(在 python 中)。
我有这个正则表达式:'\w*_VB.?\sout_RP' 和我的 POS 标记文本文件:'Corpus.txt'。 我想得到一个行号与上述正则表达式匹配的输出文件,并且输出文件每行应该只有一个行号(没有空行),例如:
2
5
44
到目前为止,我的脚本中只有以下内容:
OutputLineNumbers = open('OutputLineNumbers', 'w')
with open('Corpus.txt', 'r') as textfile:
phrase='\w*_VB.?\sout_RP'
for phrase in textfile:
OutputLineNumbers.close()
知道如何解决这个问题吗?
提前感谢您的帮助!
【问题讨论】:
标签: python regex nlp part-of-speech