文章目录
目标
- 3000字论文翻译
- datacamp四个课程
- 《机器学习》一章
完成情况
- 3584字论文翻译
- datacamp两个课程
- 《机器学习》未看
心得和学习成果
1.论文翻译
日后看论文可考虑全文翻译后再认真研读!!!效率很高!!!
2. datacamp–Intermediate (中级)Python for Data Science
visualization(可视化)
matplotlib(python的2D绘图库)
线图和散点图(plot&scatter)
import matplotlib.pyplot as plt
plt.plot()告诉python该干什么,画的是折线图
plt.scatter()只画点,不连线
plt.show()显示这个plot
plt.xscale()改变坐标轴的度量
当横轴代表时间时,线图plot更好;当表示横轴与纵轴之间的关系时,散点图scatter更好。
直方图(histogram)
用在考虑分布关系中
plt.hist(x,bins=?)生成直方图,x为数列对象,bins为要生成的组数
plt.clf()清理以便再次生成图像
customization(定制)
plt.xlabel() / plt.ylabel() 给坐标做标记
plt.title() 标题
plt.yticks(list) 改变横纵坐标上的刻度,将原坐标变为list
plt.xticks(tick_val,tick_lab) 将坐标轴上的数字换成标签
plt.scatter(x,y,s=list,c=col,alpha=0.8) s表示的list规定了每个点的大小,c表示颜色,col是列表,alpha是不透明度
例如:
plt.scatter(x = gdp_cap, y = life_exp, s = np.array(pop) * 2 , c=col,alpha=0.8)
plt.xscale('log')
plt.xlabel('GDP per Capita [in USD]')
plt.ylabel('Life Expectancy [in years]')
plt.title('World Development in 2007')
plt.xticks([1000,10000,100000], ['1k','10k','100k'])
# Show the plot
plt.show()
plt.text(x,y,"文本”) 添加文本,xy是添加文本的坐标
plt.grid(True) 是显示出图的网格
plt.text(1550, 71, 'India')
plt.text(5700, 80, 'China')
plt.grid(True)
在上述代码加入以下代码后,效果如下:
data structures(数据结构)
dictionaries(字典)
dict_name = {key:value,key:value,…}
dict_name[key] result:value
dict_name.keys() 此方法可查看此字典的所有key
dict_name[key] = value 可查看此时的key的对应value
dict_name[key] = value 可增加新的key:value
key in dict_name 可判断是否在其中,返回true/false
del(dict_name[key]) 可删除此键值对
pandas(数据分析包)
DataFrame
dataframe是一种存储表格数据的方法,可以在其中标记和列
创建dataframe有两种方法:
- 从dictionary创建,pd.DataFrame()
# Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr = [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
# Import pandas as pd
import pandas as pd
# Create dictionary my_dict with three key:value pairs: my_dict
my_dict = {'country':names,'drives_right':dr,'cars_per_cap':cpc}
# Build a DataFrame cars from my_dict: cars
cars = pd.DataFrame(my_dict)
# Print cars
print(cars)
dataframe_name.index = list_name 变换坐标,将dataframe的横纵坐标换成list里的名字,一般换纵坐标
- 从csv文件读入,pd.read_csv(路径)
pd.read_csv(路径, index_col=?) 当index_col=0时代表去掉第一列数据,即index值
Access
- 方括号
获取数据的方式最有效的是使用方括号
dataframe_name[‘column_name’] 给出了pandas行
dataframe_name[[‘column_name’]] 给出了pandas dataframe
dataframe_name[x:y] x,y是两个数字,是提取行数据的 - loc和iloc
loc是基于标签的,这意味着必须根据行和列标签指定行和列。iloc是基于整数索引的,因此必须按其整数索引指定行和列。
dataframe.loc[label] / dataframe.iloc[index] 都可取得指定的数据
control structures(控制结构)
英语词汇
horizontal axis 横轴
vertical axis 纵轴