【发布时间】:2015-05-24 15:26:10
【问题描述】:
我正在尝试从公司在 EDGAR 上的 10-K 文件中提取股票代码。股票代码通常出现在一对 HTML 引号之间,例如“”或“”。相关文本的典型部分示例:
我们的普通股已在纽约证券交易所 (“NYSE”) 上市,代码为 “RXN”
此时我只是想弄清楚如何处理一个或多个引号的出现。我可以编写一个匹配一种特定类型引号的正则表达式:
re.findall(r'under[^<]*the[^<]*symbol[^<]*“*[^<]*\n',fileText)
但是,我无法编写查找不止一种引号的正则表达式。这个正则表达式什么也没产生:
re.findall(r'under[^<]*the[^<]*symbol[^<]*“*‘*’*“*[^<]*\n',fileText)
任何帮助将不胜感激。
【问题讨论】:
-
使用 html 解析器
-
(["'])((?:(?=(?:(\\))*)\3.|&#\d{3};)*?)\1? -
@PadraicCunningham 你能详细说明为什么这样做更可取吗?