IT评测·应用市场-qidao123.com技术社区
标题:
Python随机抽取Excel数据并在处理后整合为一个文件
[打印本页]
作者:
梦应逍遥
时间:
2024-12-11 22:30
标题:
Python随机抽取Excel数据并在处理后整合为一个文件
本文介绍基于
Python
语言,针对一个
文件夹
下大量的
Excel
表格文件,基于其中
每一个文件
,
随机
从其中选取
一部分数据
,并将全部文件中
随机获取的数据
合并为一个新的
Excel
表格文件的方法。
起首,我们来明白一下本文的具体需求。现有一个
文件夹
,其中有大量的
Excel
表格文件(在本文中我们就以.csv格式的文件为例);如下图所示。
其中,每一个
Excel
表格文件都有着如下图所示的数据格式;其中的第1行体现每一列的名称,第1列则体现时间。
我们盼望实现的,就是从每一个
Excel
表格文件中,随机选取10行数据(第1行数据肯定不能被选进去,因为其为列名;第1列数据也不盼望被选进去,因为这个是体现时间的数据,我们后期不需要),并将这一文件夹中全部的
Excel
表格文件中每一个随机选出的10行数据合并到一起,作为一个新的
Excel
表格文件。
明白了需求,我们即可开始代码的撰写;本文用到的具体代码如下所示。
# -*- coding: utf-8 -*-
"""
Created on Fri May 19 01:47:06 2023
@author: fkxxgis
"""
import os
import pandas as pd
original_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/19_2022Data"
result_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/20_Train_Model"
result_df = pd.DataFrame()
for file in os.listdir(original_path):
if file.endswith(".csv"):
df = pd.read_csv(os.path.join(original_path, file))
sample_df = df.sample(n = 10, axis = 0)
sample_df = sample_df.iloc[ : , 1 : ]
result_df = pd.concat([result_df, sample_df])
result_df.to_csv(os.path.join(result_path, "Train_Model_1.csv"), index = False)
复制代码
代码中起首界说了原始数据文件夹(也就是有大量
Excel
表格文件的文件夹)路径和结果数据文件夹路径。然后,创建了一个空的DataFrame,用于存储抽样后的数据。
接下来是一个for循环,遍历了原始数据文件夹中的全部.csv文件,如果文件名以.csv末端,则读取该文件。然后,使用
Pandas
中的sample()函数随机抽取了该文件中的10行数据,并使用iloc[]函数删除了10行数据中的第1列(为了防止第1列体现时间的列被选中,因此需要删除)。最后,使用
Pandas
中的concat()函数将抽样后的数据添加到结果DataFrame中。
最后,使用
Pandas
中的to_csv()函数将结果DataFrame保存到结果数据文件夹中,文件名为Train_Model_1.csv,并设置index = False体现不保存索引。
运行上述代码,我们即可获得数据合并后的文件,且第1列数据也已经被剔除了。
至此,大功告成。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)
Powered by Discuz! X3.4