关系网络数据可视化：2. Python数据预处理

将数据中导演与演员的关系整理出来，得到导演与演员的关系数据，并统计合作次数

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

import warnings
warnings.filterwarnings(\'ignore\') 
# 不发出警告

# 读取数据

import os
# os.chdir(\'C:/Users/Hjx/Desktop/\')
os.chdir(r\'C:\Users\Administrator\Desktop\ch0304_data\')
df = pd.read_excel(\'豆瓣电影数据.xlsx\',sheetname=0,header=0)
print(\'数据总共%i条\' % len(df))
print(\'数据字段为：\n\',df.columns.tolist())
df.head(2)
# 查看数据

#数据清洗
data = df[[\'name\', \'导演\', \'主演\']]
data.dropna(inplace = True)
data.head()

data_yy = data[\'主演\'].str.split(\'/ \', expand=True)  
col_len1 = len(data_yy.columns)
data_yy.columns = [\'yy\'+str(i) for i in range(col_len1)]
data_yy.head()

data_dy = data[\'导演\'].str.split(\'/ \', expand=True)  
col_len2 = len(data_dy.columns)
data_dy.columns = [\'dy\'+str(i) for i in range(col_len2)]
data_dy.head()

data2 = data_dy.join(data_yy).join(data[\'name\'])
data2.head()

#拆分+合并

data_re = pd.DataFrame(columns=[\'name\',\'导演\',\'演员\'])  
# 创建一个空的Dataframe

col_yy = data_yy.columns
col_dy = data_dy.columns

for dy in col_dy:
    for yy in col_yy:
        data_i = data2[[\'name\', dy, yy]].dropna() # 提取数据
        data_i.columns = [\'name\', \'导演\', \'演员\'] ## 列名重命名
#         print(data_i)
        data_re = pd.concat([data_re, data_i]) # 添加数据
print(data_re.head())

# 遍历数据后，得到一个导演与演员的关系数据，并做去重处理
# 这里index是有重复的，但作为过程数据可忽略

# 汇总统计导演和演员的合作次数

result = data_re.groupby([\'导演\',\'演员\']).count()
result.reset_index(inplace=True)
result.columns = [\'导演\',\'演员\',\'合作次数\']
print(result.head())
# 按照导演-演员进行计数统计，得到结果数据
# reset_index() → 将所有索引级别转换为列

writer = pd.ExcelWriter(\'output.xlsx\')
result.to_excel(writer,\'sheet1\')
writer.save()
# 存为excel
# 注意：output.xlsx文件不能是打开状态

print(\'finished！\')