【发布时间】:2021-10-04 19:13:04
【问题描述】:
我有一个 csv 文件,它在标签中包含双引号并用双引号括起来。需要用其他字符替换标签内的双引号。 例如。
"id"|"Name"|"Note"
"1"|"Sam"|"<Note> This is "a" Sample </Note>"
"2"|"Sam1"|"<Note> This "is "a" Sam"ple "</Note>"
期望的输出
"id"|"Name"|"Note"
"1"|"Sam"|"<Note> This is a Sample </Note>"
"2"|"Sam1"|"<Note> This is a Sample </Note>"
【问题讨论】:
-
"总是在一些<tag>...double quotes may be here...</tag>中吗? -
是的,只有一个标签是
,其中包含双引号,它是一个文本字段,因此双引号可以在 标签中的任何位置。由于该字段以双引号开头,应该以双引号结尾,但在 标签内双引号导致问题破坏逻辑 -
问题可以分2步解决。 第 1 步: 提取
<Note>标记之间的所有内容。 第 2 步: 将"替换为其他字符。这样的两步解决方案适合您吗? -
感谢您的回复,但 CSV 文件非常大,它包含 2 GB,所以如果一切都在一个步骤中会很好,我尝试了以下正则表达式,但它没有找到里面的所有双引号 标签。 "(?=[^)