【发布时间】:2020-03-25 13:18:39
【问题描述】:
我刚刚执行了熊猫系列对象,如下所示:
0 ['str1', 'str2', 'str3', 'str4', ...]
1 ['str5', 'str6', 'str7', 'str8', ...]
2 ['str9', 'str10', 'abcde.fghi', 'str12', ...]
.
.
.
在这里,我想保留格式,并用分隔符'.'分割'abcde.fghi'之类的字符串
- 将“abcde.fghi”替换为“abcde”
- 在“abcde”之后插入“fghi”,然后是“str12”
它需要保持这种格式。我想要的是以下内容:
2 ['str9', 'str10', 'abcde', 'fghi', 'str12', ...]
这一系列列表不仅仅是它们。大概有300000行,所以迭代中需要split函数。
+++ 我是在应用 nltk word_tokenize 后得到这个系列的。
lists_above=mydataframe['textcolum'].apply(word_tokenize)
但是,由于数据中有很多没有空格的句子,所以我正在尝试更多步骤
【问题讨论】:
-
[x for item in ['str9', 'str10', 'abcde.fghi', 'str12'] for x in item.split('.') ] -
大概看看在pandas中使用apply和刚刚提供的函数@futas
-
欢迎来到 Stack Overflow。到目前为止,您尝试过什么?
标签: python string pandas loops split