【数学建模导论】Task01 数据处置惩罚与拟合模子 - ToB企服应用市场:ToB评测及商务社交产业平台

# （1）Python创建一个数据框DataFrame：
import pandas as pd
import numpy as np
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data)
df
#（2）显示该 DataFrame 及其数据相关的基本信息：
df.describe()
（3）返回DataFrame df 的前5列数据：
df.head(5)
#（4）从 DataFrame df 选择标签列为 animal 和 age 的列
df[['animal', 'age']]
#（5）在 [3, 4, 8] 行中，列为 ['animal', 'age'] 的数据
df.loc[[3, 4, 8], ['animal', 'age']]
#（6）选择列为visits中等于3的行（: 在这里表示选取所有列。）
df.loc[df['visits']==3, :]
#（7）选择 age 为缺失值的行
df.loc[df['age'].isna(), :]
#（8）选择 animal 是cat且age 小于 3 的行
df.loc[(df['animal'] == 'cat') & (df['age'] < 3), :]
#（9）选择 age 在 2 到 4 之间的数据（包含边界值）
df.loc[(df['age']>=2)&(df['age']<=4), :] # 不能写联不等式，得拆开写
#（10）将 'f' 行的 age 改为 1.5
df.index = labels # 若要对DataFrame行索引操作，需要自行创建行索引。（DataFrame默认是没有激活行索引功能）
df.loc[['f'], ['age']] = 1.5
print(df)
#（11）对 visits 列的数据求和
df['visits'].sum()
#（12）计算每种 animal age 的平均值
df.groupby(['animal'])['age'].mean()

复制代码

#（1）创建pandas dataframe
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
'Budapest_PaRis', 'Brussels_londOn'],
'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
'12. Air France', '"Swiss Air"']})
df
#（2）FlightNumber列中有某些缺失值，缺失值常用nan表示，请在该列中添加10055与10075填充该缺失值。
df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df
#（3）由于列From_To 代表从地点A到地点B，因此可以将这列拆分成两列，并赋予为列From与To。
temp = df['From_To'].str.split("_", expand=True) # expand=True 参数被设置时，意味着可以将这列拆分成两列
temp.columns = ['From', 'To']
#（4）将列From和To转化成只有首字母大写的形式。
temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()
#（5）将列From_To从df中去除，并把列From和To添加到df中
df.drop('From_To', axis=1, inplace=True)
df[['From', 'To']] = temp
df
#（6）清除列中的特殊字符，只留下航空公司的名字。
# str.extract 是一个用于从字符串中抽取匹配正则表达式的部分的方法。
# 这里的正则表达式 r'([a-zA-Z\s]+)' 匹配一个或多个字母 (a-z, A-Z) 或空白字符（\s）。+表示字母和空格的模式可以重复一次或多次。
# expand=False 参数被设置时，意味着返回的将是 Series，
# expand=True 参数为默认值，意味着返回的将是 DataFrame。
df['Airline'] = df['Airline'].str.extract(r'([a-zA-Z\s]+)', expand=False).str.strip()
df
#（7）在 RecentDelays 列中，值已作为列表输入到 DataFrame 中。
# 我们希望每个第一个值在它自己的列中，
# 每个第二个值在它自己的列中，
# 依此类推。如果没有第 N 个值，则该值应为 NaN。
# 将 Series 列表展开成名为 delays 的 DataFrame，
# 重命名列delay_1，delay_2等等，
# 并将不需要的 RecentDelays 列替换df为delays。
delays = df['RecentDelays'].apply(pd.Series)
delays.columns = ['delay_%s' % i for i in range(1, len(delays.columns)+1)]
df = df.drop('RecentDelays', axis=1).join(delays, how='left') # 左连接：确保其结果会包含左侧DataFrame（即df）的所有行
df
#（8）将delay_i列的控制nan都填为自身的平均值。
for i in range(1, 4):
df[f'delay_{i}'] = df[f'delay_{i}'].fillna(np.mean(df[f'delay_{i}'])) # f 是为了创建格式化字符串字面量
df
#（9）在df中增加一行，值与FlightNumber=10085的行保持一致。
df = df._append(df.loc[df['FlightNumber'] == 10085, :], ignore_index=True)
df
#（10）对df进行去重，由于df添加了一行的值与FlightNumber=10085的行一样的行，因此去重时需要去掉。
df = df.drop_duplicates()
df

复制代码

# 模拟仿真研究该道路口一天平均有多少车经过
import numpy as np
import simpy
class Road_Crossing:
def __init__(self, env):
self.road_crossing_container = simpy.Container(env, capacity = 1e8, init = 0)
def come_across(env, road_crossing, lmd):
while True:
body_time = np.random.exponential(1.0/(lmd/60)) # 经过指数分布的时间后，泊松过程记录数+1
yield env.timeout(body_time) # 经过body_time个时间
yield road_crossing.road_crossing_container.put(1)
hours = 24 # 一天24h
minutes = 60 # 一个小时60min
days = 3 # 模拟3天
lmd_ls = [30, 20, 10, 6, 8, 20, 40, 100, 250, 200, 100, 65, 100, 120, 100, 120, 200, 220, 240, 180, 150, 100, 50, 40] # 每隔小时平均通过车辆数
car_sum = [] # 存储每一天的通过路口的车辆数之和
print('仿真开始：')
for day in range(days):
day_car_sum = 0 # 记录每天的通过车辆数之和
for hour, lmd in enumerate(lmd_ls):
env = simpy.Environment()
road_crossing = Road_Crossing(env)
come_across_process = env.process(come_across(env, road_crossing, lmd))
env.run(until = 60) # 每次仿真60min
if hour % 4 == 0:
print("第"+str(day+1)+"天，第"+str(hour+1)+"时的车辆数：", road_crossing.road_crossing_container.level)
day_car_sum += road_crossing.road_crossing_container.level
car_sum.append(day_car_sum)
print("每天通过交通路口的的车辆数之和为：", car_sum)

复制代码