如何从数据集中提取信息并将其制成新的数据集？答案

【问题标题】：How to extract information from a dataset and make it into a new dataset?如何从数据集中提取信息并将其制成新的数据集？
【发布时间】：2018-11-01 07:29:54
【问题描述】：

我有一个数据集，其中包含许多列，按以下顺序排列：英文名称、国家/地区、濒危程度、发言者数量。

在濒危程度下，有4级易危、绝对濒危、极度濒危和灭绝。

我想将数据集分类到这些类别中并使其成为自己的数据集，仍然将其他数据保留在其他列中

this image has the columns name on it

在 jupyter notebook 上加载我的数据集 - 这是我所知道的

if os.path.isfile("data.csv"): filepath = "data.csv" df = pd.read_csv(filepath) df.head(300)

但我认为代码看起来像这样：

vulnerable = df[]

【问题讨论】：

请通过pandas tutorials和cookbook。
不要将数据帧作为图像发布，作为文本发布。

标签： python pandas jupyter-notebook

【解决方案1】：

你的意思是你想要每个濒危程度的数据框？

以下是“易受攻击”的示例：

vulnerable_df = df[df['Degree of endangerment'] == 'vulnerable']

这是因为

df['Degree of endangerment'] == 'vulnerable'

根据是否等于易受攻击给出一系列 True 或 False。 df[series_of_true_or_falses] 返回原始数据帧的副本，其中仅包含 series_of_true_or_falses 中的 True 索引。

【讨论】：

【解决方案2】：

除了ojunk贴的，还有一种方式是使用isin()：

import pandas as pd
df = pd.DataFrame({'Degree' : ['vulnerable', 'not vulnerable', 'endangered']})
vulnerable_df = df[df['Degree'].isin(['vulnerable'])]

输出：

       Degree
0  vulnerable

输出仅包含易受攻击的数据集。

【讨论】：