【发布时间】:2021-10-15 19:01:15
【问题描述】:
有一个数据框列,其中包含文本和单词列表。我想:
#清洁
- 删除特殊字符(. , ^ *...)
- 小写
- 用空格分隔文本中的每个单词
#创建另一个数据框,显示列表中包含的这些单词的出现情况,如下所示:
df = pd.DataFrame([["word1 word,! word3 word4* word split5^", "other data"], ["word2 word,* word3 word4 word5", "other data"]], columns=['Description1', 'other colum'])
lista = ['word1', 'word2','word3','word4','word split5']
#Wanted result
df2 = pd.DataFrame([["word1", "1"], ["word2", "1"], ["word3", "2"], ["word4", "2"], ["word split5", "1"]], columns=['Listed words', 'occurences'])
【问题讨论】:
-
您能否提供一个可供其他人使用的数据框的简短示例?然后我们可以尝试复制您的代码并解决您的问题
-
你能解释一下你的问题吗?很遗憾,我无法理解您的问题。
-
@flyinthelotion 我希望解释的变化现在有所帮助。谢谢!
-
@novonimo 我希望解释中的更改现在有所帮助。谢谢!
-
@BrianDove35 在您的示例中,
word split5^将被拆分为[word, split5],而不是word split5,还是我误解了?