ToB企服应用市场:ToB评测及商务社交产业平台

标题: pandas替换,加载,透视表 [打印本页]

作者: 风雨同行    时间: 2022-12-21 01:28
标题: pandas替换,加载,透视表
pandas的级联和合并

级联操作

pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:
  1. objs
  2. axis=0
  3. keys
  4. join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
  5. ignore_index=False
复制代码
合并操作

  1. df1 = DataFrame({'employee':['regina','ivanlee','baby'],
  2.                 'group':['Accounting','Engineering','Engineering'],
  3.                 })
  4. df2 = DataFrame({'employee':['regina','ivanlee','baby'],
  5.                 'hire_date':[2004,2008,2012],
  6.                 })
  7. pd.merge(df1,df2,on='employee')
复制代码

一对多合并
  1. df3 = DataFrame({
  2.     'employee':['regina','ivanlee'],
  3.     'group':['Accounting','Engineering'],
  4.     'hire_date':[2004,2016]})
  5. df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
  6.                        'supervisor':['Carly','Guido','Steve']
  7.                 })
  8. pd.merge(df3,df4)#on如果不写,默认情况下使用两表中公有的列作为合并条件
复制代码

多对多合并
  1. df5 = DataFrame({'group':['Accounting','Engineering','HR'],
  2.                 'supervisor':['Carly','Guido','Steve']
  3.                 })
复制代码
how 参数默认是inner,也可以是outer,right,left

key的规范化

内合并与外合并:out取并集 inner取交集

人口分析项目


  1. #导入文件,查看原始数据
  2. abb = pd.read_csv('../data/state-abbrevs.csv') #state(州的全称)abbreviation(州的简称)
  3. area = pd.read_csv('../data/state-areas.csv') #state州的全称,area (sq. mi)州的面积
  4. pop = pd.read_csv('../data/state-population.csv')#state/region简称,ages年龄,year时间,population人口数量
复制代码
  1. #将人口数据和各州简称数据进行合并
  2. abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer') 必须保证数据完整
  3. abb_pop.head()
复制代码
  1. #将合并的数据中重复的abbreviation列进行删除
  2. abb_pop.drop(labels='abbreviation',axis=1,inplace=True)
  3. #查看存在缺失数据的列
  4. #方式1:isnull,notll,any,all
  5. abb_pop.isnull().any(axis=0)
  6. #state,population这两列中是存在空值
复制代码
  1. #1.将state中的空值定位到
  2. abb_pop['state'].isnull()
  3. #2.将上述的布尔值作为源数据的行索引
  4. abb_pop.loc[abb_pop['state'].isnull()]#将state中空对应的行数据取出
  5. #3.将简称取出
  6. abb_pop.loc[abb_pop['state'].isnull()]['state/region']
  7. #4.对简称去重
  8. abb_pop.loc[abb_pop['state'].isnull()]['state/region'].unique()
  9. #结论:只有PR和USA对应的全称数据为空值
复制代码
  1. #为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
  2. #思考:填充该需求中的空值可不可以使用fillna?
  3.     # - 不可以。fillna可以使用空的紧邻值做填充。fillna(value='xxx')使用指定的值填充空值
  4.     # 使用给元素赋值的方式进行填充!
复制代码
  1. #1.先给USA的全称对应的空值进行批量赋值
  2. abb_pop.loc[abb_pop['state/region'] == 'USA']#将usa对应的行数据取出
  3. #1.2将USA对应的全称空对应的行索引取出
  4. indexs = abb_pop.loc[abb_pop['state/region'] == 'USA'].index
  5. abb_pop.iloc[indexs]
  6. abb_pop.loc[indexs,'state'] = 'United States'
  7. #2.可以将PR的全称进行赋值
  8. abb_pop['state/region'] == 'PR'
  9. abb_pop.loc[abb_pop['state/region'] == 'PR'] #PR对应的行数据
  10. indexs = abb_pop.loc[abb_pop['state/region'] == 'PR'].index
  11. abb_pop.loc[indexs,'state'] = 'PPPRRR'
复制代码
  1. #合并各州面积数据areas
  2. abb_pop_area = pd.merge(abb_pop,area,how='outer')
复制代码
  1. #我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行
  2. abb_pop_area['area (sq. mi)'].isnull()
  3. abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()] #空对应的行数据
  4. indexs = abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()].index
复制代码
  1. #找出2010年的全民人口数据(基于df做条件查询)
  2. abb_pop_area.query('ages == "total" & year == 2010')
复制代码
  1. #计算各州的人口密度(人口除以面积)
  2. abb_pop_area['midu'] = abb_pop_area['population'] / abb_pop_area['area (sq. mi)']
  3. abb_pop_area
复制代码
  1. #排序,并找出人口密度最高的州
  2. abb_pop_area.sort_values(by='midu',axis=0,ascending=False).iloc[0]['state']
复制代码
替换操作



我们要替换某列当中的数值
  1. df.replace(to_replace={0,36},value='jiarui')
  2. #将指定列的元素进行替换to_replase={列索引:被替换的值}
复制代码

映射操作

  1. dic = {
  2.     'name':['regina','ivanlee','regina'],
  3.     'salary':[15000,20000,15000]
  4. }
  5. df = DataFrame(data=dic)
复制代码

先指定给regina映射为zhangjiarui,首先建立一张映射关系表
  1. #映射关系表
  2. dic = {
  3.     'regina':'zhangjiarui',
  4.     'ivanlee':'liyifan'
  5. }
  6. df['e_name'] = df['name'].map(dic)
复制代码

map是Series的方法,只能被Series调用
运算工具

排序实现的随机抽样

  1. df = DataFrame(data=np.random.randint(0,100,size=(100,3)),columns=['A','B','C'])
  2. #生成乱序的随机序列
  3. np.random.permutation(10)
  4. #将原始数据打乱
  5. df.take([2,0,1],axis=1)
  6. df.take(np.random.permutation(3),axis=1)
复制代码
数据的分类处理

  1. df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
  2.                 'price':[4,3,3,2.5,4,2],
  3.                'color':['red','yellow','yellow','green','green','green'],
  4.                'weight':[12,20,50,30,20,44]})
复制代码
  1. #想要水果的种类进行分析
  2. df.groupby(by='item')
  3. <pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fac66bd1b20>
复制代码
  1. #查看详细的分组情况
  2. df.groupby(by='item').groups
复制代码

高级数据聚合

  1. def my_mean(s):
  2.     m_sum = 0
  3.     for i in s:
  4.         m_sum += i
  5.     return m_sum / len(s)
复制代码
可以通过自定义的方式设计一个聚合操作
  1. df.groupby(by='item')['price'].transform(my_mean) #经过映射
  2. df.groupby(by='item')['price'].apply(my_mean) #不经过映射
复制代码

数据加载

透视表


pivot_table有四个最重要的参数index、values、columns、aggfunc

交叉表

  1. #求出不同性别的抽烟人数
  2. pd.crosstab(df.smoke,df.sex)
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4