【问题标题】:regex to eliminate field in bibtex file正则表达式消除 bibtex 文件中的字段
【发布时间】:2011-04-03 06:55:32
【问题描述】:

我正在尝试精简从参考管理器获得的围兜文本文件,因为它会留下额外的字段,当我将其放入 LaTeX 时最终会被破坏。

我要清理的一个特征条目是:

@Article{Kholmurodov:2001p113,
author = {K Kholmurodov and I Puzynin and W Smith and K Yasuoka and T Ebisuzaki}, 
journal = {Computer Physics Communications},
title = {MD simulation of cluster-surface impacts for metallic phases: soft landing, droplet spreading and implantation},
abstract = {Lots of text here.  Even more text.},
affiliation = {RIKEN, Inst Phys {\&} Chem Res, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},
number = {1},
pages = {1--16},
volume = {141},
year = {2001},
month = {Dec},
language = {English},
keywords = {Ethane, molecular dynamics, Clusters, Dl_Poly Code, solid surface, metal, Hydrocarbon Thin-Films, Adsorption, impact, Impact Processes, solid surface, Molecular Dynamics Simulation, Large Systems, DL_POLY, Beam Deposition, Package, Collision-Induced Desorption, Diamond Films, Vapor-Deposition, Transition-Metals, Molecular-Dynamics Simulation}, 
date-added = {2008-06-27 08:58:25 -0500},
date-modified = {2009-03-24 15:40:27 -0500},
pmid = {000172275000001},
local-url = {file://localhost/User/user/Papers/2001/Kholmurodov/Kholmurodov-MD%20simulation%20of%20cluster-surface%20impacts-2001.pdf},
uri = {papers://B08E511A-2FA9-45A0-8612-FA821DF82090/Paper/p113},
read = {Yes},
rating = {0}
}

我想删除月份、摘要、关键字等字段。其中一些是单行的,有些是多行的。

我已经在 Python 中尝试过,如下所示:

fOpen = open(f,'r')
start_text = fOpen.read()
fOpen.close()

# regex
out_text = re.sub(r'^(month).*,\n','',start_text)
out_text = re.sub(r'^(annote)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(note)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(abstract)((.|\n)*?)\},\n','',out_text)

fNew = open(f,'w')
fNew.write(out_text)
fNew.close()

我尝试在 TextMate 中运行这些正则表达式以查看它们是否有效,然后在 Python 中尝试它们,它们似乎没问题。

有什么建议吗?

谢谢。

【问题讨论】:

    标签: python regex parsing bibtex


    【解决方案1】:

    这个正则表达式怎么样(适用于多行和 dotall 标志):

    ^(?:month|annote|note|abstract)\s*=\s*\{(?:(?!\},$).)*\},[\r\n]+

    解释:

    ^ # 行首 (?: # 非捕获组 1 month|annote|note|abstract # 这些术语之一 ) # 结束非捕获组 1 \s*=\s* # 空格,等号,空格 \{ # 一个字面大括号 (?: # 非捕获组 2 (?! # 负前瞻 (如果后面没有...) \},$ # 大括号、逗号和换行符 ) # 结束负前瞻 . # ...然后匹配下一个字符,不管它是什么 )* # 结束非捕获组 2,重复 \}, # 一个大括号和一个逗号 [\r\n]+ # 至少一个换行符

    这个单一的表达式在一个步骤中整理出所有受影响的行。


    编辑/警告:请注意,一旦发生以下情况,此操作失败:

    隶属关系 = {RIKEN, Inst Phys {\&}, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},

    正则表达式无法处理嵌套结构。在这种情况下,没有纯正则表达式解决方案在所有情况下都是正确的,你能得到的最好的就是一个很好的近似值。

    问题是您是否 100% 确定上述情况不会发生(我认为您不会发生) - 或者您是否愿意承担风险。如果您不完全确定这不会成为问题 - 使用或编写解析器。

    【讨论】:

    • 是的 - 谢谢。我认为这可以完成工作。并感谢您的警告。幸运的是,在这种情况下,我认为我不应该遇到任何导致您建议的正则表达式失败的实例。
    • 哦 - 对于以后看到这个的人来说,这只是一件快速的事情。要使用这里建议的多行和 dotall 标志,您需要先编译正则表达式。所以:text_out = re.sub(re.compile(<regex>, re.DOTALL | re.MULTILINE), <replacement-txt>, original)) 请注意,要使用多个标志,请使用 | 或运算符将它们放在一起。
    • @dltussier:例如,在循环中重新使用时,编译正则表达式也会导致加速。顺便说一句,看到第一次使用的用户立即得到它 w/r/t 问题和评论格式是一种乐趣。 :-)
    猜你喜欢
    • 2018-03-09
    • 2013-06-08
    • 2020-03-10
    • 1970-01-01
    • 2017-01-21
    • 2016-06-01
    • 2018-02-28
    • 1970-01-01
    • 2018-04-18
    相关资源
    最近更新 更多