【发布时间】:2010-11-12 10:34:15
【问题描述】:
计算字符串中字符出现次数的最简单方法是什么?
例如计算'a' 在'Mary had a little lamb' 中出现的次数。
【问题讨论】:
-
若要根据下面的最佳答案交叉检查结果,您也可以use this tool
-
您可能会找到最简单的编码方式,但最终,无论我们使用循环还是内置 count(),时间复杂度都保持不变。
计算字符串中字符出现次数的最简单方法是什么?
例如计算'a' 在'Mary had a little lamb' 中出现的次数。
【问题讨论】:
要查找句子中出现的字符,您可以使用以下代码
首先,我从句子中取出唯一字符,然后计算句子中每个字符的出现次数,其中也包括空格的出现。
ab = set("Mary had a little lamb")
test_str = "Mary had a little lamb"
for i in ab:
counter = test_str.count(i)
if i == ' ':
i = 'Space'
print(counter, i)
以上代码的输出如下。
1 : r ,
1 : h ,
1 : e ,
1 : M ,
4 : a ,
1 : b ,
1 : d ,
2 : t ,
3 : l ,
1 : i ,
4 : Space ,
1 : y ,
1 : m ,
【讨论】:
''.join()。
set(),它会循环检查集合中每个字母的count()。它将结果添加到字典的键中,然后打印字典,而不是在循环期间直接打印计数的答案(无论如何打印结果并不是主要思想)。因此重复。
' ' 作为键,' ' 的数量作为值。您可以根据需要使用pop 重命名字典的键,在这种情况下将' ' 重命名为space,这不会增加价值。我仍然撤回我的反对票,因为有人可能想要一个没有字典的解决方案。然而,这是重复的,主要技巧只是 set() 和 count(),你重复。
str = "count a character occurence"
List = list(str)
print (List)
Uniq = set(List)
print (Uniq)
for key in Uniq:
print (key, str.count(key))
【讨论】:
接受this user的评论:
import numpy as np
sample = 'samplestring'
np.unique(list(sample), return_counts=True)
输出:
(array(['a', 'e', 'g', 'i', 'l', 'm', 'n', 'p', 'r', 's', 't'], dtype='<U1'),
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1]))
检查's'。您可以按如下方式过滤这两个数组的元组:
a[1][a[0]=='s']
旁注:它的工作方式类似于collections 包中的Counter(),只是在 numpy 中,无论如何你经常会导入它。您也可以计算单词列表中的唯一单词。
【讨论】:
a = 'have a nice day'
symbol = 'abcdefghijklmnopqrstuvwxyz'
for key in symbol:
print(key, a.count(key))
【讨论】:
你可以使用循环和字典。
def count_letter(text):
result = {}
for letter in text:
if letter not in result:
result[letter] = 0
result[letter] += 1
return result
【讨论】:
最简单的方法是一行代码:
'Mary had a little lamb'.count("a")
但如果你想也可以使用它:
sentence ='Mary had a little lamb'
count=0;
for letter in sentence :
if letter=="a":
count+=1
print (count)
【讨论】:
这个简单直接的功能可能会有所帮助:
def check_freq(x):
freq = {}
for c in set(x):
freq[c] = x.count(c)
return freq
check_freq("abbabcbdbabdbdbabababcbcbab")
{'a': 7, 'b': 14, 'c': 3, 'd': 3}
如果需要理解:
def check_freq(x):
return {c: x.count(c) for c in set(x)}
【讨论】:
我知道要求是计算一个特定的字母。我这里写的是通用代码,没有使用任何方法。
sentence1 =" Mary had a little lamb"
count = {}
for i in sentence1:
if i in count:
count[i.lower()] = count[i.lower()] + 1
else:
count[i.lower()] = 1
print(count)
输出
{' ': 5, 'm': 2, 'a': 4, 'r': 1, 'y': 1, 'h': 1, 'd': 1, 'l': 3, 'i': 1, 't': 2, 'e': 1, 'b': 1}
现在如果你想要任何特定的字母频率,你可以像下面这样打印。
print(count['m'])
2
【讨论】:
a = "I walked today,"
c=['d','e','f']
count=0
for i in a:
if str(i) in c:
count+=1
print(count)
【讨论】:
我不知道“最简单”,但简单的理解可以做到:
>>> my_string = "Mary had a little lamb"
>>> sum(char == 'a' for char in my_string)
4
利用内置求和、生成器理解以及 bool 是整数的子类这一事实:字符与 'a' 相等的概率有多大。
【讨论】:
我是 pandas 库的粉丝,尤其是 value_counts() 方法。您可以使用它来计算字符串中每个字符的出现次数:
>>> import pandas as pd
>>> phrase = "I love the pandas library and its `value_counts()` method"
>>> pd.Series(list(phrase)).value_counts()
8
a 5
e 4
t 4
o 3
n 3
s 3
d 3
l 3
u 2
i 2
r 2
v 2
` 2
h 2
p 1
b 1
I 1
m 1
( 1
y 1
_ 1
) 1
c 1
dtype: int64
【讨论】:
Python-3.x:
"aabc".count("a")
str.count(sub[, start[, end]])
返回 [start, end] 范围内子字符串 sub 的非重叠出现次数。可选参数 start 和 end 被解释为切片符号。
【讨论】:
Python 3
有两种方法可以实现:
1) 带有内置函数count()
sentence = 'Mary had a little lamb'
print(sentence.count('a'))`
2) 不使用函数
sentence = 'Mary had a little lamb'
count = 0
for i in sentence:
if i == "a":
count = count + 1
print(count)
【讨论】:
正如其他答案所说,使用字符串方法 count() 可能是最简单的,但如果您经常这样做,请查看collections.Counter:
from collections import Counter
my_str = "Mary had a little lamb"
counter = Counter(my_str)
print counter['a']
【讨论】:
在不使用 Counter()、count 和正则表达式的情况下获取所有字符数的另一种方法
counts_dict = {}
for c in list(sentence):
if c not in counts_dict:
counts_dict[c] = 0
counts_dict[c] += 1
for key, value in counts_dict.items():
print(key, value)
【讨论】:
str.count(a) 是计算字符串中单个字符的最佳解决方案。但是,如果您需要计算更多字符,则必须读取整个字符串的次数与要计算的字符数一样多。
这项工作的更好方法是:
from collections import defaultdict
text = 'Mary had a little lamb'
chars = defaultdict(int)
for char in text:
chars[char] += 1
因此,您将拥有一个 dict,它返回字符串中每个字母的出现次数,如果不存在则返回 0。
>>>chars['a']
4
>>>chars['x']
0
对于不区分大小写的计数器,您可以通过子类化 defaultdict(基类是只读的)来覆盖 mutator 和 accessor 方法:
class CICounter(defaultdict):
def __getitem__(self, k):
return super().__getitem__(k.lower())
def __setitem__(self, k, v):
super().__setitem__(k.lower(), v)
chars = CICounter(int)
for char in text:
chars[char] += 1
>>>chars['a']
4
>>>chars['M']
2
>>>chars['x']
0
【讨论】:
Counter,它已经是collections中的一个类。
Counter 是一个更臃肿的纯 Python 类,defaultdict 的 __missing__ 是 written in C。对于像这样的简单任务(int 也在 C 中实现),这种方法稍微快一些。
np.unique(sample, return_counts=True) 可能有用。
“不使用count在字符串中查找你想要的字符”方法。
import re
def count(s, ch):
pass
def main():
s = raw_input ("Enter strings what you like, for example, 'welcome': ")
ch = raw_input ("Enter you want count characters, but best result to find one character: " )
print ( len (re.findall ( ch, s ) ) )
main()
【讨论】:
count 绝对是计算字符串中字符出现次数的最简洁有效的方法,但我尝试使用 lambda 提出解决方案>,类似这样:
sentence = 'Mary had a little lamb'
sum(map(lambda x : 1 if 'a' in x else 0, sentence))
这将导致:
4
此外,这样做还有一个好处是,如果句子是包含与上述相同字符的子字符串列表,那么由于使用了in,这也给出了正确的结果。看看:
sentence = ['M', 'ar', 'y', 'had', 'a', 'little', 'l', 'am', 'b']
sum(map(lambda x : 1 if 'a' in x else 0, sentence))
这也会导致:
4
但当然,这仅在这种特殊情况下检查单个字符(例如 'a')的出现时才有效。
【讨论】:
str.count(sub[, start[, end]])
返回
[start, end]范围内子字符串sub的非重叠出现次数。可选参数start和end被解释为切片符号。
>>> sentence = 'Mary had a little lamb'
>>> sentence.count('a')
4
【讨论】:
你可以使用count():
>>> 'Mary had a little lamb'.count('a')
4
【讨论】:
恕我直言,您可以添加上限或下限方法
def count_letter_in_str(string,letter):
return string.count(letter)
【讨论】:
spam = 'have a nice day'
var = 'd'
def count(spam, var):
found = 0
for key in spam:
if key == var:
found += 1
return found
count(spam, var)
print 'count %s is: %s ' %(var, count(spam, var))
【讨论】:
如果您想要不区分大小写(当然还有正则表达式的所有功能),正则表达式非常有用。
my_string = "Mary had a little lamb"
# simplest solution, using count, is case-sensitive
my_string.count("m") # yields 1
import re
# case-sensitive with regex
len(re.findall("m", my_string))
# three ways to get case insensitivity - all yield 2
len(re.findall("(?i)m", my_string))
len(re.findall("m|M", my_string))
len(re.findall(re.compile("m",re.IGNORECASE), my_string))
请注意,正则表达式版本的运行时间大约是其十倍,只有当 my_string 非常长或代码位于深度循环中时,这才可能成为问题。
【讨论】:
myString.count('a');
更多信息here
【讨论】:
可能是正则表达式?
import re
my_string = "Mary had a little lamb"
len(re.findall("a", my_string))
【讨论】:
len(re.findall('1',bin(10)))
bin(10).count('1')?