pandas基础知识

 一点点补充,因为自己python基础知识用到的时候总要百度,索性自己总结下:

1.pandas 数据框选取数据

df_1[:3] #数据框前三行
df_1 = df.iloc[0:10000,0:3] #选取数据前多少行,前多少列;如果只需要多少列,[:,0:3]

2.将数据框中的数据替换为0

data.replace(np.NaN,0)
data['a'].replace(1,0)

3.pandas改变列顺序

原始数据框:

data_1:

cols = list(data_1)
cols.insert(0, cols.pop(cols.index('Name'))) #这里0,表示插入第一列
data_1 = data_1.loc[:, cols]
data_1

运行代码,更改列顺序:

4.pandas 合并数据框

纵向合并

df1.append(df2)

横向合并

new_data = pd.concat([df_1,df_2,df_3],axis=1,ignore_index=False) #按照索引合并

#内连接,外连接,通过哪个字段连接,需要自行判断
new_data = pd.merge(df_1,df_2,how = 'inner',on = 'id') 

5.pandas删除重复数据

data.drop_duplicates(subset = ['id'])

6.pandas 输出字段中前两位

data['new_id'] = data['id'].apply(lambda x: x[:2])

7.pandas 改变字段类型

data['kk'] = data['kk'].astype(dtype = 'str)

8.pandas 根据某个字段来统计另一个字段的数据量

data['stay'].groupby(data['gender']).value_counts()

9.pandas 改变数据框索引

data.set_index('id',drop = True) #drop表示去除原来的索引

10.value_counts() 使用

下面这个网址有这个方法的具体操作!

https://blog.csdn.net/Late_whale/article/details/103317396

## 实例
f_data = data.start.value_counts().reset_index() #data数据集中'start'字段个数统计
f_data.columns=['start','counts'] #将切片数据转化为数据框
f_data = f_data[f_data.counts<10] #符合条件的信息

11.pandas 删除某几列数据

df_3.drop(['基金类别','投资目标','投资理念'],axis = 1) #axis = 1表示列

12.统计某一列数据的空值个数

df_3['A'].isnull().sum()

未完待续。。。