IT评测·应用市场-qidao123.com

标题: CHARLS数据库提取数据和洗濯—基于R [打印本页]

作者: 民工心事    时间: 2024-6-11 08:24
标题: CHARLS数据库提取数据和洗濯—基于R
目录
CHARLS数据库提取数据和洗濯—基于R
0 告急内容
1 CHARLS离线数据库
2 CHARLS数据介绍
[1] "Demographic_Background.dta" 人口统计信息
[2] "Health_Status_and_Functioning.dta 健康状况
[3] “Biomarker.dta” 体检数据
[4] "Blood_20140429.dta" 血检数据
[5] "Family_Information.dta" 家庭结构
[6] "Household_Income.dta" 家庭收入、付出和资产
[7] "Individual_Income.dta"个人收入、付出和资产
[8] "Sample_Infor.dta" 样本信息
[9] "Weights.dta" 权重
[10] "Work_Retirement.dta" 工作、退休和养老金
[11] "housing_characteristics.dta" 住房情况
[12] "Exit_Module.dta" 殒命数据
[13] "COVID_Module.dta" 新冠数据
3 数据提取的代码实现—基于R




   诺维医学科研官网:https://www.newboat.top
  bilibili:文章对应的解说视频在此。熊大学习社 熊大学习社的个人空间-熊大学习社个人主页-哔哩哔哩视频
  Gitee开源:ioter: 玩转物联网
  CSDN玩转物联网专栏文章:https://blog.csdn.net/shx13141/category_11669532.html
  微信公众号:熊大学习社、诺维之舟
  公益网站,首页 | 公益网站 ,内有医学资料库
  诺维之舟AI:https://gpt4.nwzz.xyz 可在线使用GPT4
  

课程相关资料:
(1)学习资料,包罗CHARLS离线数据库、SCI论文思路复现代码-基于R、课本。关注公众号“熊大学习社”,回复“charls01”,获取资料链接。
谢谢您的支持,我们坚持学以致用、高效学习、质量服务,做好有质量的分享。
另外,服务合作请联系: 见客服二维码。
关注B站熊大学习社公众号诺维之舟、熊大学习社。您的一键三连是我最大的动力。

0 告急内容


这次直播课程的特点:手把手撸代码,随时互动交流,拉近和大家的间隔,建立研究密切感。
1 CHARLS离线数据库



官网地址:2020年天下追踪调查
中国健康与养老追踪调查(China Health and Retirement Longitudinal Survey,CHARLS) 是由北京大学国家发展研究院主持展开,是国家自然科学基金委资助的庞大项目。是一项持续的纵向调查,冒在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,社会、经济和健康状况,用以分析我国人口老龄化题目,推动老龄化题目的跨学科研究。
数据 | CHARLS
可自行注册账号,申请下载,需要审核通事后才能下载!


CHARLS离线数据库|干净原版|2020年最新,已放学习资料包。也可自行获取:CHARLS离线数据库|干净原版|2020年最新 | 公益网站
一共三个版本:
(1)Excel


(2)SPSS


(3)Stata



特点:案例均泉源于中国,更适合中国的科研工作者;无需实验验证;最新一期包罗疫情相关模块数据;数据公开
不敷:统计时间相对较短,2011年开始;第五轮数据受新冠疫情影响;肿瘤疾病数据少。
使用权限:需工作单位或学校邮箱申请;在致谢中添加相关内容。

2 CHARLS数据介绍

基线调查于2011-2012年在天下28个省、150个地区、450个村庄/城市社区开展,每两年追踪一次,现在已有5期数据, 最新一期为2020年数据(2023年11月16日公布)
CHARLS是中国首个具有天下代表性的中老年人口调查它以美国健康与退休研究(HRS)为蓝本,吸收和参考全球相关老龄调查的设计,比如英国、欧洲、日本、印度和韩国等。
CHARLS的访问应答率和数据质量活着界同类项目中位居前列。
CHARLS各轮调查均获得了北京大门生物医学伦理委员会的答应。
CHARLSI问卷内容:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消耗、资产,以及社区基本情况等。
(1)数据表有哪些,以2020年数据为例。






(2)数据项有哪些
查阅CHARLS_2020_Codebook,了解数据所表示的含义。文件在学习资料包。




[1] "Demographic_Background.dta" 人口统计信息

共42列数据。出生年代和出生地;居住和移民;户口信息;当前工作状态;当前工作的详细信息;失业和求职 教育;婚烟状况及历史。








ba002_1 ,2011年变量
从出生年代日到研究当天,盘算年岁!
  1.  # 计算年龄
  2.  # month==0, 按1算
  3.  d_demo$ba002_2[d_demo$ba002_2==0] <- 1
  4.  # day==0, 按1算
  5.  d_demo$ba002_3[d_demo$ba002_3==0] <- 1
  6.  # month==2, day==30或29时,将day==28
  7.  d_demo$ba002_3[d_demo$ba002_2==2 & (d_demo$ba002_3==30 | d_demo$ba002_3==29)] <- 28
  8.  ​
  9.  # 出生日期
  10.  d_demo$birth <- as.Date(paste(d_demo$ba002_1,d_demo$ba002_2,d_demo$ba002_3, sep='-'))
  11.  table(d_demo$ba002_1, useNA = 'ifan') # 54
  12.  table(d_demo$ba002_2, useNA = 'ifan')
  13.  table(d_demo$ba002_3, useNA = 'ifan')
  14.  d1 <- subset(d_demo, is.na(d_demo$birth))
  15.  nrow(d1) # 54
  16.  ​
  17.  # 年龄
  18.  d_demo$Age <- round(difftime('2021-3-12', d_demo$birth)/365)
  19.  d_demo$Age <- as.numeric(gsub("\\D", "", d_demo$Age))
复制代码


[2] "Health_Status_and_Functioning.dta 健康状况

共936列数据。总体健康状况:盛行症;生活方式(眼睛,听力,口腔健康,疼痛,骨折);生活行为(就寝,身体运动,社会联系,饮食,吸烟和饮酒);功能限定;认知(包罗数列测试);抑郁症



da059: Smoke or Not, 2011年变量








[3] “Biomarker.dta” 体检数据

说明文档: 数据 | CHARLS
血检数据使用手册 https://charls.charlsdata.com/Public/ashelf/public/uploads/document/2011-charls-wave1/application/blood_user_guide_en_20140429.pdf
基线体检问卷 https://charls.charlsdata.com/Public/ashelf/public/uploads/document/public_documents/application/Medical-questionnaire-2011.doc

[4] "Blood_20140429.dta" 血检数据


[5] "Family_Information.dta" 家庭结构

共789列数据。准备了17个子女的数据信息,包罗子女性别,年岁,婚烟;与告急被访者关系;户口;教育。
ca006_1_,子女性别


ca008_1_, 子女工作状态,工作还是门生




[6] "Household_Income.dta" 家庭收入、付出和资产

共855列数据。家庭收入和付出;家庭资产;
[7] "Individual_Income.dta"个人收入、付出和资产

共210列数据。个人收入及资产
[8] "Sample_Infor.dta" 样本信息

共8列数据。采访时间、是否殒命、是否横断面样本等
[9] "Weights.dta" 权重

共8列数据。家庭权重,个体权重
[10] "Work_Retirement.dta" 工作、退休和养老金

共160列数据。当前工作状态;当前工作的详细信息;失业和求职运动;退休;养老金。
[11] "housing_characteristics.dta" 住房情况




[12] "Exit_Module.dta" 殒命数据

共1129列数据。殒命数据、疾病。
xezdisease_1_,Cancer,癌症
xezdisease_2_,Chronic Lung Diseases,支气管肺病


xezdisease_3_: Heart Diseases,心脏病



xezdisease_4_,中风, Stroke


exda007,Stroke,中风,脑卒中
exda008,Stroke最近一次时间


[13] "COVID_Module.dta" 新冠数据

共100列数据。疾病防范意识、个人抱病和隔离、疫情期间个人运动、疫情期间居住地管控。
va001_s4, Masking, 戴口罩


3 数据提取的代码实现—基于R

手把手课程教学,逐行代码实现。
参考文章:The association between triglyceride-glucose index and its combination with obesity indicators and cardiovascular disease: NHANES 2003-2018


我们对应研究:甘油三酯-葡萄糖指数triglyceride-glucose index与脑卒中Stroke的关联性,基于CHARLS
【更多内容详见公众号:熊大学习社】







免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4