Python常用的第三方模块之数据分析【pdfplumber库、Numpy库、Pandas库、Mat ...

打印 上一主题 下一主题

主题 1376|帖子 1376|积分 4128

【pdfplumber库】从PDF文件中读取内容 


  1. import pdfplumber
  2. #打开PDF文件
  3. with pdfplumber.open('DeepSeek从入门到精通(20250204).pdf') as pdf:
  4.     for i in pdf.pages: #遍历页
  5.         print(i.extract_text()) #extract_text()方法提取内容
  6.         print(f'----------------第{i.page_number}页结束')
复制代码
【Numpy库】数据分析处理数据、矩阵等数据


示例:图像的灰度处理
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. #读取图片
  4. n1=plt.imread('Google.jpg')
  5. print(type(n1),n1) #数组,三位数组,最高纬度表示的是图像的高,次高纬度表示的是图像的宽,最低纬度[R,G,B]颜色
  6. plt.imshow(n1)
  7. #编写一个灰度的公式
  8. n2=np.array([0.299,0.587,0.114]) #创建数组
  9. #将数组n1(RGB)颜色值与数组n2(灰度公式固定值),进行点乘运算
  10. x=np.dot(n1,n2)
  11. #传入数组,显示灰度
  12. plt.imshow(x,cmap='gray')
  13. #显示图像
  14. plt.show()
复制代码
  1. <img alt=""  src="https://i-blog.csdnimg.cn/direct/b9e07428723643cb81f234a2023c9c4e.png"  />
复制代码
【Pandas库】数据分析、读取Excel


示例:利用Pandas库读取Excel
  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. #Pandas库:数据分析、读取Excel;Matplotlib库:数据可视化,绘制饼图、柱形图、折线图等
  4. #读取Excel文件
  5. df=pd.read_excel('商品商品_20241212115850.xls', dtype=object)  #dtype指定类型,解决pandas“读取整数带小数点”问题
  6. print('读取Excel文件如下:')
  7. print(df)
复制代码
控制台Exce文件显示不全题目



解决方案:读取Excel文件前,添加以下代码
  1. #pd.set_option()进行设置解决显示不全问题
  2. # 显示全部列
  3. pd.set_option('display.max_columns', None)
  4. # 显示全部行
  5. pd.set_option('display.max_row', None)
  6. # 设置数据的显示长度(解决自动换行)
  7. pd.set_option('display.width', None)
复制代码
  

 【Matplotlib库】数据可视化,绘制饼图、柱形图、折线图等

示例:利用Matplotlib库绘制饼图
  1. import pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt# Pandas库:数据分析、读取Excel;Matplotlib库:数据可视化,绘制饼图、柱形图、折线图等#pd.set_option()进行设置解决显示不全问题
  2. # 显示全部列
  3. pd.set_option('display.max_columns', None)
  4. # 显示全部行
  5. pd.set_option('display.max_row', None)
  6. # 设置数据的显示长度(解决自动换行)
  7. pd.set_option('display.width', None)
  8. #读取Excel文件df=pd.read_excel('商品商品_20241212115850.xls', dtype=object)  #dtype指定类型,解决pandas“读取整数带小数点”题目print('读取Excel文件如下:')print(df)#设置画布的大小plt.figure(figsize=(10,6))goodsName=df['商品名称']stock=df['现实可贩卖库存数']print(goodsName)print(stock)#绘制饼图plt.pie(stock,labels=goodsName,autopct='%1.1f%%',startangle=90) #labels就是扇形当中所的标签,autopct是设置饼图每个部分所占比例,%1.1f%%保存一位小数的百分比格式,角度startangle(可提供可不提供,提供了饼图会比力漂亮)#设置x,y轴刻度plt.axis('equal')plt.title('4月份商品剩余库存占比图')#显示出来plt.show()
复制代码
中文乱码题目 

解决方案:读取Excel文件后,添加以下代码:
  1. #解决matplotlib画图中文乱码问题
  2. #1.下载中文字体SimHei,下载链接:http://139.199.170.86/downloads/SimHei.ttf
  3. #2.安装SimHei字体到macOS,双击下载的字体文件,然后点击“安装字体”按钮。
  4. #3.找到Matplotlib的字体目录
  5. print('Matplotlib的字体目录:',mpl.get_data_path())
  6. #4.找到Matplotlib的缓存目录
  7. print('Matplotlib的缓存目录:',mpl.get_cachedir()) #/Users/用户名/.matplotlib
  8. #5.终端删除这个缓存文件夹:rm -rf rm -rf /Users/用户名/.matplotlib/*
  9. #6.Python脚本中配置Matplotlib使用新字体
  10. plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为SimHei
  11. plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
复制代码
最终展示情况:



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小小小幸运

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表