【发布时间】:2018-07-18 16:13:37
【问题描述】:
我正在使用 Kaggles 枪支暴力数据集。我的目标是使用 Tableau 对与那里的枪支犯罪相关的一些地区和细节进行交互式可视化。我的目标是把这个数据框变成整洁的格式。链接:
https://www.kaggle.com/jameslko/gun-violence-data/version/1
在这种情况下,有几列格式如下,我在 R 中遇到问题。大约有 20 列左右,这 4 列格式如下:
一点背景知识:犯罪可能涉及不止一把枪,并且参与者不止一个。因此,这些列包含由“||”分隔的每个枪支/参与者的信息。 0:, 1: ... 表示特定枪支/参与者的详细信息。
我的目标是捕获每列中的唯一实例并忽略 0:、1:、2:、...
到目前为止,这是我的代码:
df= read.csv("C:/Users/rmahesh/Desktop/gun-violence-data_01-2013_03-2018.csv")
df$incident_id = NULL
df$incident_url = NULL
df$source_url = NULL
df$participant_name = NULL
df$participant_relationship = NULL
df$sources = NULL
df$incident_url_fields_missing = NULL
df$participant_status = NULL
df$participant_age_group = NULL
df$participant_type = NULL
df$incident_characteristics = NULL
#Subset of columns with formatting issues:
df2 = df[, c('gun_stolen', 'gun_type', 'participant_age', 'participant_gender')]
我还没有遇到过这样的问题,并且希望得到任何帮助来解决我的问题。任何帮助将不胜感激!
Edit1:我已经创建了相关列的前 3 行。格式或多或少是相同的,有时会丢失一些列:
gun_stolen,gun_type,participant_age,participant_gender
0::Unknown||1::Unknown, 0::Unknown||1::Unknown, 0::25||1::31||2::33||3::34||4::33, 0::Male||1::Male||2::Male||3::Male||4::Male
0::Unknown||1::Unknown,0::22 LR||1::223 Rem [AR-15],0::51||1::40||2::9||3::5||4::2||5::15,0::Male||1::Female||2::Male||3::Female||4::Female||5::Male
0::Unknown,0::Shotgun,3::78||4::48,0::Male||1::Male||2::Male||3::Male||4::Male
【问题讨论】:
-
请发布数据样本,而不是屏幕截图和链接,以便我们下载整个内容。此外,您已标记此
tidyverse,但未使用任何tidyverse函数 - 那里的计划是什么? -
另外,来自
[tidyverse]wiki:“如果您的问题涉及 tidyverse 的一个或两个组件,例如 dplyr 或 ggplot2,请不要使用。使用 那些 标签,并标记r以获得更好的响应。”我正在相应地进行编辑。 -
@camille 感谢您回来。我删除了 tidyverse。现在发布数据样本,我应该怎么做?
-
除了数据样本之外,您还应该显示您期望/想要的相应输出。 (我知道整洁的数据对我意味着什么,但解释不同,通常这是在问题中包含的重要内容。关于提出 R 问题的一些一般指导:stackoverflow.com/questions/5963269/…)
-
@Frank 感谢您的回复。正如我所说,输出将是连续出现所有独特的事件。从概念上讲,我很难弄清楚如何做到这一点。至于数据,我应该如何发送?