【问题标题】:Programming in R (Bubble Chart visualization)R编程(气泡图可视化)
【发布时间】:2014-12-05 05:07:56
【问题描述】:

我有一个乘客出行频率数据集:

CountryOrigin - 拥有 40 多个国家/地区名称
(印度、澳大利亚、中国、日本、巴淡岛、巴厘岛、新加坡)
CountryDestination - 拥有 40 多个国家/地区名称 (印度、澳大利亚、中国、日本、巴淡岛、巴厘岛、新加坡)

       IND   AUS   CHI   JAP   BAT   SING
 IND     0     4    10    12    24     89
 AUS    19     0    12     9     7     20
 CHI    34    56     0     2     6     18
 JAP    12    17    56     0     2      2
 SING   56    34     7     3    35      0

我需要 x 轴上的起始位置名称和 y 轴上的目的地名称,频率应该表示为气泡的大小。

【问题讨论】:

标签: r visualization data-analysis bubble-chart


【解决方案1】:

对于这些(或任何类型的)情节,我会使用ggplot2。我们先创建一些测试数据:

countries = c('IND', 'AUS', 'CHI', 'JAP', 'BAT', 'SING')
frequencies = matrix(sample(1:100, 36), 6, 6, dimnames = list(countries, countries))
diag(frequencies) = 0

然后制作情节。首先,我们必须将矩阵数据转换为合适的格式:

library(reshape2)
frequencies_df = melt(frequencies)
names(frequencies_df) = c('origin', 'destination', 'frequency')

并使用ggplot2:

library(ggplot2)
ggplot(frequencies_df, aes(x = origin, y = destination, size = frequencies)) + geom_point()

【讨论】:

  • 是否可以避免在图表中映射频率0值!!
  • 这可以通过设置对角线上的值等于NA来完成。
【解决方案2】:

我想留下另一种方式来可视化这些数据。您可以通过使用 R 中的 circlizemigest 包来可视化人们是如何移动或旅行的。您必须进行大量编码,但是如果您按照 migest 中的演示进行操作,仍然可以创建您想要的东西。你需要一个矩阵和一个数据框来绘制这个图。但是,一旦你掌握了它们,你就可以使用演示中的代码。在此示例中,您会看到来自 6 个国家/地区的人们如何旅行。例如,在这个虚假数据中,澳大利亚人访问了日本、马来西亚和印度;到达这些国家的三条红线。如果线路更宽,这意味着更多的人访问了这些国家。同样,中国人访问了澳大利亚、日本和马来西亚。我把代码留在这里。

library(circlize)
library(migest)
library(dplyr)

m <- data.frame(order = 1:6,
            country = c("Ausralia", "India", "China", "Japan", "Thailand", "Malaysia"),
            V3 = c(1, 150000, 90000, 180000, 15000, 10000),
            V4 = c(35000, 1, 10000, 12000, 25000, 8000),
            V5 = c(10000, 7000, 1, 40000, 5000, 4000),
            V6 = c(7000, 8000, 175000, 1, 11000, 18000),
            V7 = c(70000, 30000, 22000, 120000, 1, 40000),
            V8 = c(60000, 90000, 110000, 14000, 30000, 1),
            r = c(255,255,255,153,51,51),
            g = c(51, 153, 255, 255, 255, 255),
            b = c(51, 51, 51, 51, 51, 153),
            stringsAsFactors = FALSE)

### Create a data frame
df1 <- m[, c(1,2, 9:11)]

### Create a matrix
m <- m[,-(1:2)]/1e04
m <- as.matrix(m[,c(1:6)])
dimnames(m) <- list(orig = df1$country, dest = df1$country)


### Sort order of data.frame and matrix for plotting in circos

df1 <- arrange(df1, order)

df1$country <- factor(df1$country, levels = df1$country)

m <- m[levels(df1$country),levels(df1$country)]


### Define ranges of circos sectors and their colors (both of the sectors and the links)

df1$xmin <- 0

df1$xmax <- rowSums(m) + colSums(m)

n <- nrow(df1)

df1$rcol<-rgb(df1$r, df1$g, df1$b, max = 255)

df1$lcol<-rgb(df1$r, df1$g, df1$b, alpha=200, max = 255)


##
## Plot sectors (outer part)
##

par(mar=rep(0,4))

circos.clear()

### Basic circos graphic parameters
circos.par(cell.padding=c(0,0,0,0), track.margin=c(0,0.15), start.degree = 90, gap.degree =4)

### Sector details
circos.initialize(factors = df1$country, xlim = cbind(df1$xmin, df1$xmax))

### Plot sectors

circos.trackPlotRegion(ylim = c(0, 1), factors = df1$country, track.height=0.1,
                      #panel.fun for each sector
                      panel.fun = function(x, y) {
                      #select details of current sector
                      name = get.cell.meta.data("sector.index")
                      i = get.cell.meta.data("sector.numeric.index")
                      xlim = get.cell.meta.data("xlim")
                      ylim = get.cell.meta.data("ylim")

                      #text direction (dd) and adjusmtents (aa)
                      theta = circlize(mean(xlim), 1.3)[1, 1] %% 360
                      dd <- ifelse(theta < 90 || theta > 270, "clockwise", "reverse.clockwise")
                      aa = c(1, 0.5)
                      if(theta < 90 || theta > 270)  aa = c(0, 0.5)

                      #plot country labels
                      circos.text(x=mean(xlim), y=1.7, labels=name, facing = dd, cex=0.6,  adj = aa)

                      #plot main sector
                      circos.rect(xleft=xlim[1], ybottom=ylim[1], xright=xlim[2], ytop=ylim[2], 
                                  col = df1$rcol[i], border=df1$rcol[i])

                      #blank in part of main sector
                      circos.rect(xleft=xlim[1], ybottom=ylim[1], xright=xlim[2]-rowSums(m)[i], ytop=ylim[1]+0.3, 
                                  col = "white", border = "white")

                      #white line all the way around
                      circos.rect(xleft=xlim[1], ybottom=0.3, xright=xlim[2], ytop=0.32, col = "white", border = "white")

                      #plot axis
                      circos.axis(labels.cex=0.6, direction = "outside", major.at=seq(from=0,to=floor(df1$xmax)[i],by=5), 
                                  minor.ticks=1, labels.away.percentage = 0.15)
                    })



##
## Plot links (inner part)
##

### Add sum values to df1, marking the x-position of the first links
### out (sum1) and in (sum2). Updated for further links in loop below.

df1$sum1 <- colSums(m)
df1$sum2 <- numeric(n)

### Create a data.frame of the flow matrix sorted by flow size, to allow largest flow plotted first
df2 <- cbind(as.data.frame(m),orig=rownames(m),  stringsAsFactors=FALSE)

df2 <- reshape(df2, idvar="orig", varying=list(1:n), direction="long",
           timevar="dest", time=rownames(m),  v.names = "m")

df2 <- arrange(df2,desc(m))

### Keep only the largest flows to avoid clutter
df2 <- subset(df2, m > quantile(m,0.6))

### Plot links

for(k in 1:nrow(df2)){
    #i,j reference of flow matrix
    i<-match(df2$orig[k],df1$country)
    j<-match(df2$dest[k],df1$country)

#plot link
circos.link(sector.index1=df1$country[i], point1=c(df1$sum1[i], df1$sum1[i] + abs(m[i, j])),
            sector.index2=df1$country[j], point2=c(df1$sum2[j], df1$sum2[j] + abs(m[i, j])),
            col = df1$lcol[i])

#update sum1 and sum2 for use when plotting the next link
df1$sum1[i] = df1$sum1[i] + abs(m[i, j])
df1$sum2[j] = df1$sum2[j] + abs(m[i, j])
}

【讨论】:

  • 你能解释一下这个可视化中定义的第二个外圈吗?谢谢!!
  • @LathaaVishwanathan 外圈表示旅客总数。有两条线。外面的粗线是旅行者的总数。里面的细线表示来自这些国家的旅行者。例如,较细的红线表示来自澳大利亚的旅客人数。您会看到三个读取行指向目的地,对吗?其余白色细线部分表示访客总数。您会看到到达那里的绿色、黄色和橙色线。也就是说,AUS 有来自日本、印度和中国的游客。有关更多详细信息,请查看 migest 演示。
  • 如果我们有一个非常大的数据框,即(200 行:200 列),我认为很难为 r、g 和 b 编写不同的颜色组合。有什么简单的方法可以解决!!
  • @LathaaVishwanathan 200 x 200 是巨大的。如果您可以通过对组(例如区域)进行分类来减小矩阵的大小,我认为您可能会有很好的可视化效果。
  • @LathaaVishwanathan 很高兴!希望你能找到你的方式。谢谢你给我机会在这里介绍migestidea。 +1!
猜你喜欢
  • 2019-11-04
  • 1970-01-01
  • 2014-01-01
  • 1970-01-01
  • 2023-03-12
  • 2011-03-14
  • 2021-09-20
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多