【发布时间】:2018-08-20 01:05:10
【问题描述】:
我有一个大型文本文件,我将通过编程方式处理它,但遇到了散布在整个文件中的特殊字符的问题。该文件太大,无法扫描以查找特定字符。大多数其他不需要的特殊字符我已经能够使用一些正则表达式模式摆脱。但是有一个方框字符,类似于“□”。当我尝试从实际文本文件中复制字符并将其传递到此处时,我得到“�”,因此该框的示例来自 Windows 字符映射,其中包含代码“U+25A1”,我不确定如何解释或者如果它是我可以用于正则表达式搜索的东西。
有人知道如何在 UTF-8 编码文件中搜索类似于“□”的方框符号吗?
编辑:
这是文本文件中的一个示例:
"�当花苞出现时修剪棕榈树,或延迟修剪到棕榈树开花后,以防止棕榈花毛虫的侵扰。留下前五行。"
唯一的问题是,如原帖中所述,正方形被转换为菱形问号。
【问题讨论】:
-
请问您能提供示例输入和输出吗?
标签: regex text utf-8 special-characters