1.探索性数据分析（EDA，Exploratory Data Analysis）

1.数据读取

遍历文件夹，读取文件夹下各个文件的名字：os.listdir() 方法：用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。它不包括 '.' 和'..' 即使它在文件夹中。

1.1 CSV格式数据

（1）读取

### python导入csv文件的4种方法

# 1.原始的方式
lines = [line.split(',') for line in open('iris.csv')]
df = [[float(x) for x in line[:4]] for line in lines[1:]]

# 2.使用loadtxt，以下读取出来的不是dataframe，是列表形式 
import numpy as np 
lines = np.loadtxt('iris.csv',delimiter=',',dtype='str')# 逗号为分隔符 
df = lines[1:,:4].astype('float') 

# 3.使用read_csv 
import pandas as pd 
df = pd.read_csv('iris.csv') df=df.ix[:,:4]

# 4.使用read_table
# 分块读
reader1 = read_table(' 文件位置 ', names=' dataframe的列名 '，encoding='utf-8' ，sep='|' )
for chunk in reader1:
     print(chunk)

# 迭代读
reader2 = pd.read_table('tmp.sv', sep='|', iterator=True)
reader2.get_chunk(5)

pandas.read_csv可以读取CSV（逗号分割）文件、文本类型的文件text、log类型到DataFrame

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

View Code