【发布时间】:2016-10-26 23:16:42
【问题描述】:
我有一个文件 HTML,如下所示:
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
</table>
<br>
</div>
<a href="javascript:;" onmousedown="toggleDiv('20161023');">Sunday 23 ... </a></h3>
<br>
<div class="time_div" id="20161023" style="display:none">
<p class="dep_parag">Test automation on Sunday 23 October</p>
<table id="table" border="1" cellpadding="3" cellspacing="0">
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
<tr>
<td>SOMETHING1</td>
<td>SOMETHING2</td>
<td>SOMETHING3</td>
</tr>
如您所见,有一个表格行列表,除以一个带有一些 javascript 的部分(该部分以 开头,以 结尾)
这只是一个包含超过 300.000 个表格行的 html 页面的提取!
我必须删除带有 javascript 的部分,因为我只需要一个长的表格行列表,干净,它们之间没有任何内容。
与其手动操作,那太疯狂了,我想要一些东西(正则表达式)一键清理文件(我曾经在 NOTEPAD++ 上运行简单的正则表达式,但这对我来说有点难)
我在想这样的事情:
删除从到cellspacing="0">的所有行
或者
删除 中的所有行以及以下 8 行。
有人能这么温柔地帮我处理这个正则表达式吗?
非常感谢! :)
【问题讨论】:
-
不确定是否理解正确,尝试使用搜索模式正则表达式,将此正则表达式替换为空\r\n(.*\r\n){2}.*javascript.*\ r\n(.*\r\n){4}