五、数据处理与 ETL 流程编程实现
5.1 数据抽取与转换(ETL)
在 DRG/DIP 2.0 时代的医院成本管理中,数据抽取与转换(ETL)是将医院各个业务系统中的原始数据转化为可供成本管理分析利用的关键环节。这一过程涉及从医院 HIS 系统中抽取患者诊疗数据,并对其进行格式转换、字段映射等处理,以满足后续成本核算和分析的需求。
医院 HIS 系统是医院信息化管理的核心,包罗患者诊疗的全方位信息,如患者基本信息、诊疗记录、费用明细等。与 HIS 系统对接时,可接纳 API 接口或中心库的方式进行数据抽取。利用 API 接口对接时,需先与 HIS 系统的开发团队沟通,获取详细的接口文档,明白接口的请求方式(如 GET、POST)、请求参数以及返回数据的格式(如 JSON、XML)。以获取患者诊疗信息为例,若 HIS 系统提供的 API 接口为https://his.example.com/api/patient_info,请求方式为 POST,请求参数为患者的住院号inpatient_no,则在 PostgreSQL 中可利用http_request函数(需安装干系扩展,如http_post)来发送请求,示例代码如下:
- -- 安装http_post扩展(若未安装)
- CREATE EXTENSION IF NOT EXISTS http_post;
- -- 发送POST请求获取患者诊疗信息
- SELECT http_post('https://his.example.com/api/patient_info',
- '{"inpatient_no": "20230101001"}',
- 'Content-Type: application/json'
- );
复制代码 上述代码通过http_post函数向 HIS 系统的 API 接口发送 POST 请求,传递患者住院号信息,接口返回的患者诊疗信息可进一步处理和存储到 PostgreSQL 数据库中。
接纳中心库方式对接时,HIS 系统将数据定期同步到中心库(如 MySQL 数据库),PostgreSQL 再从中心库中抽取数据。可以利用dblink扩展来实现跨数据库连接和数据抽取。假设中心库为 MySQL,已安装mysql_fdw扩展并配置好连接参数,示例代码如下:
- -- 安装mysql_fdw扩展(若未安装)
- CREATE EXTENSION IF NOT EXISTS mysql_fdw;
- -- 创建外部服务器
- CREATE SERVER his_mysql_server
- FOREIGN DATA WRAPPER mysql_fdw
- OPTIONS (host '192.168.1.100', port '3306', dbname 'his_database');
- -- 创建用户映射
- CREATE USER MAPPING FOR current_user
- SERVER his_mysql_server
- OPTIONS (username 'his_user', password 'his_password');
- -- 导入中间库中的患者诊疗信息表
- IMPORT FOREIGN SCHEMA his_schema
- LIMIT TO (patient_info)
- FROM SERVER his_mysql_server INTO public;
复制代码 上述代码通过mysql_fdw扩展创建了与 MySQL 中心库的连接,导入了中心库中的患者诊疗信息表到 PostgreSQL 数据库中,以便后续进行数据处理。
从 HIS 系统抽取的数据往往需要进行格式转换和字段映射,以符合成本管理系统的数据模型。数据格式转换方面,日期格式可能在 HIS 系统中以不同的格式存储,如YYYY-MM-DD、MM/DD/YYYY等,而成本管理系统要求同一的日期格式。在 PostgreSQL 中,可利用to_date函数进行日期格式转换,示例代码如下:
- -- 将HIS系统中格式为MM/DD/YYYY的日期转换为YYYY-MM-DD格式
- UPDATE patient_info
- SET admission_date = to_date(his_admission_date, 'MM/DD/YYYY')
- WHERE his_admission_date ~ '^\d{2}/\d{2}/\d{4}$';
复制代码 字段映射是将 HIS 系统中的字段对应到成本管理系统中的字段。HIS 系统中的患者姓名字段可能为patient_name,而成本管理系统中为name,则可通过UPDATE语句进行字段映射,示例代码如下:
- -- 字段映射,将HIS系统中的patient_name映射到成本管理系统中的name
- UPDATE patient_info
- SET name = his_patient_name;
复制代码 在实际应用中,可能还需要处理复杂的数据结构,如 HIS 系统中可能将患者的多个诊断信息存储在一个字段中,以逗号分隔,而成本管理系统要求将每个诊断信息存储在单独的字段或数组中。可利用string_to_array函数将逗号分隔的诊断信息拆分为数组,示例代码如下:
- -- 将HIS系统中逗号分隔的诊断信息拆分为数组
- UPDATE patient_info
- SET diagnosis_array = string_to_array(his_diagnoses, ',');
复制代码 通过以上数据抽取与转换的编程实现,能够将医院 HIS 系统中的原始数据转化为符合成本管理系统要求的数据格式和结构,为后续的成本核算、分析和管理提供精确、可靠的数据基础。
5.2 时间窗口处理与增量抽取
在医院成本管理系统中,数据的持续更新和增长是常态。为了减少系统负载,提高数据处理效率,按医保结算周期(如月度)进行增量抽取数据是一种行之有用的方法。这种方法能够避免每次都对全量数据进行处理,仅抽取自上次抽取时间点以来发生变化的数据,从而明显低落数据传输和处理的工作量。
在 PostgreSQL 中,实现时间窗口处理和增量抽取可以借助数据库的时间戳字段和干系的查询语句。假设患者诊疗信息表PatientInfo中有一个UpdateTime字段,记录了每条记录的最后更新时间。要实现每月的增量抽取,可以利用以下步骤和代码示例:
首先,确定时间窗口。以月度为例,获取当前月份的起始时间和竣事时间。在 PostgreSQL 中,可以利用date_trunc函数和generate_series函数来天生时间窗口。获取当前月份的起始时间和竣事时间的代码如下:
- -- 获取当前月份的起始时间
- SELECT date_trunc('month', current_date) INTO start_date;
- -- 获取当前月份的结束时间
- SELECT (date_trunc('month', current_date) + INTERVAL '1 month - 1 day') INTO end_date;
复制代码 上述代码中,date_trunc('month', current_date)函数将当前日期截断到月份,得到当前月份的起始时间,存储在start_date变量中。(date_trunc('month', current_date) + INTERVAL '1 month - 1 day')则是在当前月份起始时间的基础上加上 1 个月再减去 1 天,得到当前月份的竣事时间,存储在end_date变量中。
接下来,根据时间窗口进行增量抽取。利用WHERE子句结合UpdateTime字段来筛选出在时间窗口内更新的记录。从PatientInfo表中抽取当前月份更新的患者诊疗信息的代码如下:
- -- 从PatientInfo表中抽取当前月份更新的记录
- SELECT *
- FROM PatientInfo
- WHERE UpdateTime BETWEEN start_date AND end_date;
复制代码 上述代码通过BETWEEN运算符,筛选出UpdateTime字段在start_date和end_date之间的记录,即当前月份更新的患者诊疗信息。
在实际应用中,还可以结合INSERT INTO...SELECT语句,将增量抽取的数据插入到另一个表中,用于后续的处理和分析。将当前月份更新的患者诊疗信息插入到MonthlyPatientInfo表中的代码如下:
- -- 将当前月份更新的记录插入到MonthlyPatientInfo表中
- INSERT INTO MonthlyPatientInfo
- SELECT *
- FROM PatientInfo
- WHERE UpdateTime BETWEEN start_date AND end_date;
复制代码 上述代码将从PatientInfo表中筛选出的当前月份更新的记录插入到MonthlyPatientInfo表中,方便对每月的增量数据进行单独处理和分析。
为了确保每次增量抽取的精确性和连续性,可以记录上次抽取的时间点。在每次抽取完成后,更新记录的时间点,以便下次抽取时能够精确获取自上次抽取以来的增量数据。可以利用一个单独的表来记录抽取时间点,假设该表名为ETLTimeStamp,包罗TableName(表名)和LastExtractTime(上次抽取时间)字段。更新和获取抽取时间点的代码如下:
- -- 更新ETLTimeStamp表中PatientInfo表的上次抽取时间为当前月份的结束时间
- UPDATE ETLTimeStamp
- SET LastExtractTime = end_date
- WHERE TableName = 'PatientInfo';
- -- 从ETLTimeStamp表中获取PatientInfo表的上次抽取时间
- SELECT LastExtractTime
- FROM ETLTimeStamp
- WHERE TableName = 'PatientInfo';
复制代码 上述代码中,第一条UPDATE语句将ETLTimeStamp表中PatientInfo表的LastExtractTime更新为当前月份的竣事时间,以便下次抽取时能够精确获取自上次抽取以来的增量数据。第二条SELECT语句则是从ETLTimeStamp表中获取PatientInfo
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |