【问题标题】:Get time length of friendship in network R获取网络R中的友谊时间长度
【发布时间】:2020-12-07 02:35:00
【问题描述】:

我有一个包含 7 波青少年友谊的网络数据集。我正在尝试获取给定二元组的长度(定向友谊)。

样本有数据:

 ego    alter   wave
   1        5      1
   1        4      1
   1        5      2
   1        2      2
   1        3      2
   2        8      1
   2        8      2
   2        8      3
   3        4      1
   3        7      1
   3        6      1
   3        6      2
   3        7      3
   3        6      3

想要数据:

 ego    alter   friendship_length
   1        5     2  
   1        4     1 
   1        2     1 
   1        3     1  
   2        8     3        
   3        4     1 
   3        7     1 
   3        6     3    

这是我已经尝试过的:

edges_wide <- edges_long %>% 
              select(ego, alter, wave) %>%
              group_by(ego, alter) %>% 
              mutate(col=seq_along(ego))%>% # add a column indicator
              spread(key=col, value=wave)

这给了我这个:

 ego    alter   col3    col4    col5
   1        5      1       2      NA
   1        4      1      NA      NA                    
   1        2      2      NA      NA
   1        3      2      NA      NA
   2        8      1       2       3            
   3        4      1      NA      NA
   3        7      1       3      NA
   3        6      1       2       3

从这里我不确定如何获得定向友谊的波跨度(长度),包括不计算非连续提名(如 ego 3 alter 7)。

【问题讨论】:

  • 以下会生成您想要的输出,但我怀疑这是巧合。我不知道它在其他数据上的表现如何。 edges %&gt;% group_by(ego, alter) %&gt;% summarise(sum(wave == seq(wave)))
  • 对于完整的数据集,这似乎只适用于一次提名的朋友。任何出现在不止一个波中的对子,例如自我 3 和 7,友谊长度为 0。知道这是为什么吗?

标签: r dplyr tidyverse igraph data-manipulation


【解决方案1】:

这可能是一种糟糕的方法,但它奏效了!

edges_wide <- edges_long %>% 
              select(ego, alter, wave) %>%
              group_by(ego, alter) %>% 
              mutate(col=seq_along(ego))%>% # add a column indicator
              spread(key=col, value=wave) %>%
              rename(col1 = "1", col2 = "2", col3 = "3",
                     col4 = "4", col5 = "5", col6 = "6",
                     col7 = "7") 
          
edges_wide <- edges_wide %>% 
              mutate(wave1 = case_when(col1 == 1 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave2 = case_when(col1 == 2 | col2 == 2 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave3 = case_when(col1 == 3 | col2 == 3 | col3 == 3 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave4 = case_when(col1 == 4 | col2 == 4 | col3 == 4 | col4 == 4 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave5 = case_when(col1 == 5 | col2 == 5 | col3 == 5 | col4 == 5 | col5 == 5 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave6 = case_when(col1 == 6 | col2 == 6 | col3 == 6 | col4 == 6 | col5 == 6 | col6 == 6 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              mutate(wave7 = case_when(col1 == 7 | col2 == 7 | col3 == 7 | col4 == 7 | col5 == 7 | col6 == 7 | col7 == 7 ~ 1,
                                       TRUE ~ as.numeric(0))) %>%
              select(ego, alter, wave1, wave2, wave3, wave4, wave5, wave6, wave7)
                   
most_consecutive_val = function(x, val = 1) {
   with(rle(x), if(all(values != val)) 0 else max(lengths[values == val]))
}

edges_wide$span <- apply(edges_wide[-c(1:2)], MARGIN = 1, most_consecutive_val)

【讨论】:

    【解决方案2】:

    应该可以有一个更短的解决方案。

    如果我理解正确,您只想计算alter 和ego 有关系的后续波的第一次出现。因此,我们可以用row_number() 添加一个组ID,针对有时波在1 之后用min(wave)-1 开始的事实进行调整,然后只计算wave 和修改后的id 重合的观察值。对于给定的一对,只要在数据中跳过一个波,两个索引就会不同。

    d %>% 
      arrange(wave) %>% 
      group_by(ego, alter) %>%
      mutate(id = row_number() + min(wave) - 1) %>%
      summarise(friendship_lenght = sum(wave==id))
    
    # A tibble: 8 x 3
    # Groups:   ego [3]
        ego alter friendship_lenght
      <int> <int>             <int>
    1     1     2                 1
    2     1     3                 1
    3     1     4                 1
    4     1     5                 2
    5     2     8                 3
    6     3     4                 1
    7     3     6                 3
    8     3     7                 1
    

    编辑 处理新评论。我们要计算连续友谊关系的最长持续时间。 row_number() 可用于成对创建唯一的友谊阶段 ID。第一个连续波中的友谊都将被赋予相同的整数,以此类推所有后续连续的友谊。因此我们可以计算每个整数出现的次数,并取最大值:

    dd %>% 
      arrange(wave) %>% 
      group_by(ego, alter) %>%
      count(wave - row_number() ) %>% 
      summarise(friendship_lenght = max(n)) 
    
    # A tibble: 9 x 3
    # Groups:   ego [3]
        ego alter friendship_lenght
      <int> <int>             <dbl>
    1     1     2                 1
    2     1     3                 1
    3     1     4                 1
    4     1     5                 2
    5     2     8                 3
    6     3     4                 1
    7     3     6                 3
    8     3     7                 1
    9     3     8                 3
    

    数据

    library(dplyr)
    d <-  read.table(text = "
                 ego    alter   wave
       1        5      1
       1        4      1
                     1        5      2
                     1        2      2
                     1        3      2
                     2        8      1
                     2        8      2
                     2        8      3
                     3        4      1
                     3        7      1
                     3        6      1
                     3        6      2
                     3        7      3
                     3        6      3", header=T)
    
    
    dd <-  read.table(text = "
                     ego    alter   wave
                     1        5      1
                     1        4      1
                     1        5      2
                     1        2      2
                     1        3      2
                     2        8      1
                     2        8      2
                     2        8      3
                     3        4      1
                     3        7      1
                     3        6      1
                     3        6      2
                     3        7      3
                     3        6      3
                     3 8 2
                     3 8 3
                     3 8 8
                     3 8 6
                     3 8 7", header=T)
    

    【讨论】:

    • 啊,我没有具体说明,我确实想计算连续的友谊,即使它们出现在波浪的后面。例如,如果 A 在第一波、第三波、第四波和第五波中提名 B,那么他们的友谊长度应该是 3。这有意义吗?除了那部分之外,这一切都很好
    • 非常感谢!
    【解决方案3】:

    另一种可能性。

    首先,让我们创建一个计算连续序列长度的函数:

    get_seq_len <- function(s){
      if(length(s) == 0) return(0)
      if(length(s) == 1) return(1)
      consec_lengths <- rle(c(1, s[-1] - s[-length(s)]))$lengths
      return(consec_lengths[1])
    }
    

    我们可以验证它是否有效:

    get_seq_len(numeric(0))
    #> 0
    get_seq_len(1)
    #> 1
    get_seq_len(1:4)
    #> 4
    get_seq_len(c(1:4, 4:5))
    #> 4 (because not consecutive)
    get_seq_len(c(1,3))
    #> 1 (not consecutive)
    

    然后我们可以简单地使用嵌套来为每一对做到这一点:

    edges_long %>%
      group_by(ego, alter) %>%
      nest() %>%
      mutate(vec_waves = map(data, ~ as.numeric(unlist(.x)))) %>% # convert dataframe to vector
      mutate(len = map_dbl(vec_waves, get_seq_len))
    # A tibble: 8 x 5
    # Groups:   ego, alter [8]
    #     ego alter data             vec_waves   len
    #    <dbl> <dbl> <list>           <list>    <dbl>
    # 1     1     5 <tibble [2 x 1]> <dbl [2]>     2
    # 2     1     4 <tibble [1 x 1]> <dbl [1]>     1
    # 3     1     2 <tibble [1 x 1]> <dbl [1]>     1
    # 4     1     3 <tibble [1 x 1]> <dbl [1]>     1
    # 5     2     8 <tibble [3 x 1]> <dbl [3]>     3
    # 6     3     4 <tibble [1 x 1]> <dbl [1]>     1
    # 7     3     7 <tibble [2 x 1]> <dbl [2]>     1
    # 8     3     6 <tibble [3 x 1]> <dbl [3]>     3
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-05-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-03-26
      • 1970-01-01
      • 2015-07-01
      相关资源
      最近更新 更多