Ipython:交互式的Python命令行
TAB:自动完成
?:内省,命令空间搜索
!:执行系统命令
%run:命令执行文件代码
Ipython常用魔术命令:
%quickref:显示Ipython的快速参考
%magic:显示所有魔术命令的详细文档
%debug:从最新的异常追踪的底部进入交互式命令调试器
%hist:打印命令的输入(可选输出)历史
%pdb:在异常发生后自动进入调试器
%paste:执行剪贴板中的Python代码
%cpaste:打开一个特殊提示符以便手工粘贴待执行的Python代码
%reset:删除interactive命名空间中的全部变量/名称
%page OBJECT:通过分页器打印输出OBJECT
%run script.py:在Ipython中执行一个Python脚本文件
%prun statement:通过cProfile执行statement,并打印分析器的输出结果
%time statement:报告statement的执行时间
%timeit statement:多次执行statement以计算系统平均执行时间,对那些执行时间非常小的代码有用
%who %who_is %whos:显示interactive命名空间中定义的变量,信息级别/冗余度可变
%xdel variable:删除variable,并尝试清除其在Ipython中的对象上的一切引用
Ipython快捷键:
Ctrl+P或上方向键:后向搜索命令历史中以当前输入的文本开头的命令
Crel+N或下方向键:前向搜索命令历史中以当前输入的文本开头的命令
Ctrl+R:按行读取的反向历史搜索(部分匹配)
Ctrl+shift+V:从剪贴板粘贴文本
Ctrl+C:中止当前正在执行的代码
Ctrl+A:将光标移动到行首
Ctrl+E:将光标移动到行尾
Ctrl+K:删除从光标开始至行尾的文本
Ctrl+U:清除当前行执行的所有文本
Ctrl+F:将光标向前移动一个字符
Ctrl+B:将光标向后移动一个字符
Ctrl+L:清屏
NumPy:数组运算:
Numpy是高性能科学计算和数据分析的基础包,他是pandas等其他各种工具的基础
Numpy:的主要功能:
ndarray,一个多维数组结构,高效且节省空间,无需循环对整组数组数据进行运算,读写磁盘数据的工具以及用于操作内存映射文件的工具,线性代数,随机数生成和傅里叶变换功能,用于集成C,C++等代码的工具
安装方法:pip install numpy
饮用方式:import numpy as np
ndarray:多维数组对象
创建ndarray:np.array()
ndarray:还可以是多维数组,但元素类型必须相同
常用属性:
T:数组的转置(对高维数组而言)
dtype:数组元素的数据类型
size:数组元素的个数
ndim:数组的维数
shape:数组的纬度大小(以元组形式)
dtype:bool_,int,float类型转换:astype()
创建ndarray:
array():将列表转换为数组,可选择显式指定dtype,
arange():range的numpy版,支持浮点数
?:可帮助查看方法参数
linspace():类似arange(),第三个参数为数组长度
zeros():根据指定形状和dtype创建全0数组
ones():根据指定形状和dtype创建全1数组
reshape()
Numpy:索引和切片
数组和标量之间的运算
a+1,a*3,1//a,a**0.5
同样大小数组之间的运算
a+b,a/b,a**b
数组的索引:
a[5],a2[2][3],a2[2,3]
数组的切片:a[5:8],a[:3],a2[1:2,:4],a2[:,:1] ,a2[:,1]
布尔型索引:
给定一个数组选出数组中所有大于5的数:a[a>5]
原理:a>5会对a中的每一个元素进行判断,返回一个布尔型数组,
布尔型索引:将同样大小的布尔数传进索引,会返回一个由所有True对应位置的元素的数组
问题二:给一个数组,选出数组中所有大于5的偶数.
问题三:给一个数组,选出数组中所有大于5的数和偶数
答案:a[(a>5)&(a%2==0)],a[(a>5)|(a%2==0)]
花式索引:
对于一个数组,选出第1,3,4,6,7个元素组成新的数组
a[[1,3,4,6,7]
对于一个二维数组,选出其第一列和第三列答案:
a[:,[1,3]]
NumPy:通用函数
通用函数:能同时对数组中所有元素进行运算的函数
常见通用函数:
一元函数:abs,sqrt,exp,log,ceil,floor,rint,trunc,modf,isnan,isinf,cos,sin,
二元函数:add,substract,multiply,divide,power,mod,maximum,mininum
数学和统计方法
sum:求和,mean:求平均数,std:求标准差,var:求方差,min:求最小值,max:求最大值
argmin:求最小值索引,argmax:求最大值索引
np.random:常用函数
rand:给定形状产生随机数组(0到1之间的数)
randint:给定形状产生随机整数
choice:给定形状产生随机选择(符合正态分布?)
shuffle:与random.shuffle相同打乱排序,改变原数组
uniform:给定形状产生随机数组
pandas:数据分析
pandas:是一个强大的Python数据分析的工具包,
pandas是基于NumPy构建的
pandas的主要功能:具备对其功能的数据结构DataFrame,Series,集成时间序列功能,
提供丰富的数学运算和操作,灵活的处理缺失数据
安装方法:pip install pandas
引用方法:import pandas as pd
Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成
series比较像列表(数组)和字典的结合体
创建方式:pd.Series([4,7,-5,3])
pd.Series([4,7,-5,3],index=['a','b','c','d'])
pd.Series({'a':1,'b':2})
pd.Series(0,index=['a','b','c','d'])
获取值数组和索引数组:values属性和index属性
Series特性:
Series支持Numpy模块的特性(下标):
从ndarray创建Series:Series(arr)
与标量运算:sr*2
两个Series运算:sr1+sr2
索引;sr[0],sr[[1,2,4]](花式索引)
切片:sr[0:2]
通用函数:np.abs(sr)
布尔值过滤:sr[sr>0]
Series支持字典的特性(标签):
从字典创建Series:Series(dic),
in运算:'a' in sr
键索引:sr['a'],sr[['a','b','d']]
pandas:Series数据对齐
pandas在运算时,会按索引进行对齐然后运算,如果存在不同的索引,则结果的索引是两个操作数索引的并集
例如:
sr1=pd.Series([12,23,34],index=['c','a','d'])
sr2=pd.Series([11,20,10],index=['d','c','a'])
sr1+sr2
sr3=pd.Series([11,20,10,14],index=['d','c','a','b'])
sr1+sr3
pandas:Series缺失数据
缺失数据:使用NaN(Not a Number)来表示缺失数据,其值等于np.nan,内置的None值也会被当做naN处理
处理确实数据的相关方法:
dropna():过滤掉值为NaN的行
fillna():填充缺失数据
isnull():返回布尔数组,缺失值对应为True
notnull():返回布尔数组,缺失值对应为False
过滤缺失数据:sr.dropna()或sr[data.notnull()]
填充缺失数据:fillna(0)
pandas:DataFrame
DataFrame是一个表格型的数据结构,含有一组有序的列
DataFrame可以被看做是由Series组成的字典,并且共用一个索引
创建方式:
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
csv文件读取与写入:
df.read_csv('filename.csv')
df.to_csv()
查看数据常用属性及方法:
index获取索引,T转置,columns获取列索引,values:获取值数组,describe():获取快速统计
DataFrame索引和切片
DataFrame有行索引和列索引
通过标签获取:df['A'],df[['a','b']],df['a'][0],df[0:10][['a','c']]
df.loc[:,['a','b']],df.loc[:,'a':'c'],df.loc[0,'a'],df.loc[0:10,['a','c']]
通过为止获取:df.iloc[3],df.iloc[3,3],df.iloc[0:3,4:6],df.iloc[1:5,:],df.iloc[[1,2,3],[0,3]]
通过布尔值过滤:
df[df['a']>0],df[df['a'].isin([1,3,5])],df[df<0]=0
数据对齐与缺失数据
DataFrame对象在运算时,同样会进行数据对齐,结果的行索引与列索引分别为两个操作数的行索引与列索引的并集,
DataFrame处理缺失数据的方法:
drop(axis=0,where='any',...)
fillna(),isnull(),notnull()
pandas:其他常用方法
pandas常用方法(使用Series和DataFrame):
mean(axis=0,skipna=False),sun(aixs=1),
sort_index(axis,...,ascending)按行或列索引排序
NumPy的通用函数同样适用pandas
pandas从文件读取:
读取文件:从文件名,URL,文件对象中加载数据
read_csv 默认分割符为csv
read_table 默认分割符为\t
读取文件函数主要参数:
sep:指定分割符,可用正则表达式如'\s+'
headerNone 指定文件无列名
name 指定列名
index_col 指定某列作为索引
skip_row 指定跳过某些行
na_values:指定某些字符串表示缺失值
parse_dates :指定某些列是否被解析为日期,布尔值或列表
写入到文件:to_csv
写入文件函数的主要参数:
sep,na_rep指定缺失值转换的字符串,默认为空字符串
header=False 不保存列名 index=False 不保存行索引 cols 指定输出的列,传入列表