Python pandas 无法识别特殊字符答案

【问题标题】：Python pandas doesn't recognize special charactersPython pandas 无法识别特殊字符
【发布时间】：2018-02-10 16:02:45
【问题描述】：

我正在尝试在 python pandas 中使用df['column_name'].str.count("+")，但我收到了

“错误：无需重复”

。使用常规字符，该方法有效，例如df['column_name'].str.count("a") 工作正常。

另外，“^”符号也有问题。如果我使用df['column_name'].str.contains("^")，结果是不正确的——看起来“^”被解释为“”（空白）。

令人惊讶的是，如果我在常规的非 pandas 字符串上使用 .count("+") 和 .contains("^")，它们可以正常工作。

简单的工作示例：

df = pd.DataFrame({'column1': ['Nighthawks+', 'Dragoons'], 'column2': ['1st', '2nd']}, columns = ['column1', 'column2'])

当应用df["column1"].str.contains("^") 时，会得到“真，真”，但应该是“假，假”。

当申请df["column1"].str.count("+") 时会得到一个

“错误：无需重复”

但是，在 panda 之外，"bla++".count("+") 正确地给出了结果“2”。

有什么解决办法吗？谢谢

【问题讨论】：

标签： python pandas special-characters contains

【解决方案1】：

str.count() 中的特殊字符需要使用 反斜杠 用于正则表达式模式。（上面的@EdChum 有详细解释）。

另一方面，在str.contains() 中，我们不需要对正则表达式模式使用反斜杠。只需要添加regex=False 参数如df['a'].str.contains("+", regex=False)) 即可查找包含特殊字符的字符串。

【讨论】：

【解决方案2】：

你需要转义加号：

In[10]:
df = pd.DataFrame({'a':['dsa^', '^++', '+++','asdasads']})
df

Out[10]: 
          a
0      dsa^
1       ^++
2       +++
3  asdasads

In[11]:
df['a'].str.count("\+")

Out[11]: 
0    0
1    2
2    3
3    0
Name: a, dtype: int64

此外，当您执行 df['a'].str.count('^') 时，这只会为所有行返回 1：

In[12]:
df['a'].str.count('^')

Out[12]: 
0    1
1    1
2    1
3    1
Name: a, dtype: int64

你需要再次转义模式：

In[16]:
df['a'].str.count('\^')

Out[16]: 
0    1
1    1
2    0
3    0
Name: a, dtype: int64

编辑

关于普通字符串上的count 和Series 上的语义差异，python 上的count str 只是进行字符计数，但str.count 采用正则表达式模式。 ^ 和 + 是特殊字符，如果您要搜索这些字符，需要使用反斜杠进行转义

【讨论】：