gwas数据获取怎样获取完整的GWAS summary数据(1)------GWAS catalog数据
IEU OpenGWAS project (mrcieu.ac.uk)UK Biobank - UK Biobank
GWAS Catalog https://img-blog.csdnimg.cn/5c7a14948c154558ba27c756fb462722.png
在孟德尔随机化(Mendelian randomization,MR)研究中,对于暴露数据我们只必要那些显著的SNP信息,如许的信息在各种GWAS数据库中都是很容易获取的。但是,关于了局的数据,由于必要SNP和了局不干系,以是很多时间这种不显著的效果无法直接从文章或者数据库中查询到,这时间我们必要下载完整的GWAS summary数据了,这种数据一般包含上百万乃至上万万的SNP信息,以是数据量比较大(压缩后在200M左右),盼望大家有所认识,有所预备。
接下来,我将先容怎样从GWAS catalog下载完整的GWAS summary 数据
起首,进入GWAS catalog的官网(https://www.ebi.ac.uk/gwas/),点击Summary statistics(如下图所示)
https://img-blog.csdnimg.cn/img_convert/f59ed3e956c33e2e46c65c54240c714d.webp?x-oss-process=image/format,png
进入Summary statistics后点击Available studies(如下图所示)
https://img-blog.csdnimg.cn/img_convert/8b5fcca8d5f0aca134c4f9058635379d.webp?x-oss-process=image/format,png
末了,你将进入如下界面(链接:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)
该界面重要由三部门构成
第一块是 “List of published studies with summary statistics“(如下图所示):这里的GWAS研究都是已经发表的,质量有保证,你可以在检索框(赤色标记处)里输入关键词检索感兴趣的表型。
https://img-blog.csdnimg.cn/img_convert/ee0cadee4dcc27c8e367153879002b00.webp?x-oss-process=image/format,png
第二块是 “List of prepublished/unpublished studies with summary statistics“(如下图所示):这里的GWAS研究是未发表见刊的(大概是来源于预印本),质量无法保证,你可以在检索框(赤色标记处)里输入关键词检索感兴趣的表型。这里的表型大概会比较新,是对已发表数据的补充。当你着实找不到数据时,不妨来这里试试。
https://img-blog.csdnimg.cn/img_convert/bbaa6ac7db1d72168e6ba314ca39733a.webp?x-oss-process=image/format,png
第三块是“Additional sources of summary statistics“(如下图所示):这里整理汇总了目前GWAS研究协作体(consortium)的干系信息。一般这些协作体会建有自己的网站来存储数据,我们可以到它们的官网上下载完整的GWAS summary 数据。图中用赤色标记的是冠心病研究的协作体。
https://img-blog.csdnimg.cn/img_convert/8cf72e740d239113794189ffec5c3698.webp?x-oss-process=image/format,png
GWAS catalog数据库是一个宝藏,米老鼠在这里抛砖引玉,盼望大家能更深入地研究利用它,也欢迎私信互换你的idea(微信:MedGen16)!
PS: GWAS catalog有时间必要开国外代理模式才能利用,小搭档们提前预备好哈!
ssgac
https://img-blog.csdnimg.cn/ff955e5cf082498b9d4f487b4c4de71a.png
https://img-blog.csdnimg.cn/dcd5f29a1005430b8021000d9df514a0.png
获取gwas的来源
https://img-blog.csdnimg.cn/be2244b60ab146c18d9a48d6b7ddf7d1.png
https://img-blog.csdnimg.cn/437a1fc0e17a45af84835e10407debe3.png
https://img-blog.csdnimg.cn/d8dfd8d4c66346d78d69c5b2d7220e64.png
https://img-blog.csdnimg.cn/9787592c945446edb126ad617cb61fc7.png
https://img-blog.csdnimg.cn/e97939e2b4654533bf84e53a490a9baf.png
https://img-blog.csdnimg.cn/20831a295f394000bae58f9caca44971.png
包含的数据
https://img-blog.csdnimg.cn/27d0ed573d864c19baa56e830552445c.png
https://img-blog.csdnimg.cn/5841819a2f054f4b8c8be780b73fba28.png
1 读取exposure数据
https://img-blog.csdnimg.cn/2a8b7969db664ec798291bfca210d22c.png
1.2 保存exposureshuju
https://img-blog.csdnimg.cn/b25c4deca91647a5927143572b575f3e.png
开始实操
读取暴露数据
读取了局数据
harmonize data
mr
敏感性分析
https://img-blog.csdnimg.cn/c74c6b56bea7426ea7d783182a97f8ca.png
显著且相互独立,获取工具变量
https://img-blog.csdnimg.cn/d6dd4944ba75416ea721ad8462f61056.png
https://img-blog.csdnimg.cn/60e2fbdabe4f4ffbb47076f6388984b7.png 优点就是快,缺点就是有大概
大概不相互独立 连锁不平衡
https://img-blog.csdnimg.cn/bf195c1f47924308ae0187bdca887a4d.png
5 * 10 -8
说明工具变量与暴露干系 与了局不干系。
大概丢掉了snp
https://img-blog.csdnimg.cn/41d463b493c148a8a793fd305a2ad7dc.png
step1 r读取暴露数据
https://img-blog.csdnimg.cn/2490fbfd7f36499f9283d6897200a9bb.png
https://img-blog.csdnimg.cn/f0703d2b8cf94a6d99731b3eb3b50cae.png
必要干系性设置 subset函数 5*10 -8
独立性设置 clump函数 去除连锁不平衡 ld r2越小越好,通常0.001 最大0.1.
取决于snp数 distance 500kb也可以
统计强度设置 f>10较好
https://img-blog.csdnimg.cn/ff9be91724db4c98a1170d9b6bd06fe8.png
1.1 必要干系性设置 subset函数 5*10 -8
https://img-blog.csdnimg.cn/57f4b47e840047c0bb829ba64db7bfa6.png
https://img-blog.csdnimg.cn/cab1d1e7b3824a0c9d361aa0dde3b48d.png
1.2修改文件的列名
https://img-blog.csdnimg.cn/3fe88fc92f95444b817357d214b24ef9.png
https://img-blog.csdnimg.cn/939c0c1ad48345599ef2c0fc67170a03.png
1.3 独立性设置 重新读取subset之后的暴露数据read_exposure_data
https://img-blog.csdnimg.cn/7fbf904de9d444aa97e0cd1f76fb371d.png
clump默认 ldr2<0.01
可以之后再clump clump_data
https://img-blog.csdnimg.cn/903ea3afd0d941f4be77eecfefb1de02.png
https://img-blog.csdnimg.cn/4b69473db5ec46dbb6c74cc4f1fa68ee.png
step2 读取outcomedata
https://img-blog.csdnimg.cn/18ee622c321b447badbb3d7a973d4d61.png
1 read.table
https://img-blog.csdnimg.cn/c6166b43eee443d4b79228bba7138eb1.png
2 merge 取交集
https://img-blog.csdnimg.cn/81dcee5c5e1d4474a3dc94703a6318c1.png
https://img-blog.csdnimg.cn/2a8c166bc421442694f1163299a5958c.png
2.1 改列名
https://img-blog.csdnimg.cn/d2d6ab2c3c744c37b9504e90601a6e33.png
3 read_out_come_data
https://img-blog.csdnimg.cn/5946679a5c864a36a3754b39ed52d013.png
小结
https://img-blog.csdnimg.cn/74d1370f857445a5a481b28989318f1a.png
效应等位基因
必要利用代码协调 A--.>T
https://img-blog.csdnimg.cn/366cede0386640f9aeb93df515e6c8c4.png
代理snphttps://img-blog.csdnimg.cn/8245f91d2c4e416eb5e95fdd5135a45c.png
https://img-blog.csdnimg.cn/4ce8ea7618e64f12ab5e153da11d866c.png
代理snp 设置为0.8 越大越说明他们之间存在连锁不平衡 说明他们之间相互影响大 他们相互替代的大概性就高
但是独立性设置时间要让ld r2尽大概小0.001
https://img-blog.csdnimg.cn/0fdd678c4c474fb1a13010e8df8fbd24.png
样本重叠了
暴露数据 50w
了局数据 100w
snp数据必须大于500w才能用 正常可达1000w
step3协调 harmonise
https://img-blog.csdnimg.cn/143d21e51a7d4e9ab246ff16ed3a1513.png
剔除回文序列
https://img-blog.csdnimg.cn/befdd861aab34acc9398beb69436d514.png
保存文件
https://img-blog.csdnimg.cn/ece0fba2e51c409fb59b7cbab4de730d.png
确保暴露的snp与了局不干系
snp与暴露要干系
https://img-blog.csdnimg.cn/4c2df8deb61046eeb70b00f7122bed89.png
snp与了局不干系 符合假设
https://img-blog.csdnimg.cn/440b28429be14ccab99da56b8d96836c.png
step4 mr
https://img-blog.csdnimg.cn/6774cf35d4e7464395b5731b1d5d270c.png
https://img-blog.csdnimg.cn/483bfa597e1249a793b218db5851119e.png
ivw为随机效应模型
https://img-blog.csdnimg.cn/6330eedb54be4e44b9714bdcad76098f.png
了局为一连变量利用 beta值 以0 为界
了局为分类变量时间 ,必要对数转化,利用or 以1为界
利用其他方法
https://img-blog.csdnimg.cn/4994aee9f9894783b7387e4ef6c75750.png
mr(dat,method_list=c())
画散点图时,选择想要的方法画图
5 效果可视化
https://img-blog.csdnimg.cn/e8e62486269740aa8598164c3eeae686.png
6 敏感性分析包括:异质性检测 多效性检测
异质性检测
https://img-blog.csdnimg.cn/04ad02c80d73406e82ac9a0a8094e180.png
https://img-blog.csdnimg.cn/9df9537264244e419df3719492e927d5.png
异质性《0.05 则存在异质性,
有异质性,对效果的可靠性不影响
nbdistribution 设置为1w,更正确
6.1 找出对异质性影响最大的snp run_mr_pressor
nb
https://img-blog.csdnimg.cn/ff0c10397366471bbe1854832c8f0d2e.png
https://img-blog.csdnimg.cn/02b30f3d424f42e9b67bf1177cbb54c5.png这个离群值对方向是否有影响 没影响则p>0.05
l列出离群值 p小于0.05 则说明存在异质性
https://img-blog.csdnimg.cn/bb13f351c11846c786265926c04f73a2.png
假如异质性很多,及时扔到几个snp,重新计算照旧会有异质性的
6.2 异质性可视化funnel plot
https://img-blog.csdnimg.cn/7856b46a36264059a4464a1025c42616.png
越对称 越好
也会存在 ;即使不存在异质性 漏斗图也不对称
6.2 多效应 mr_pleiotropy_test() 效果不好就退却,文章发不了
功能多效性 水平多效性
好比 snp大概通过别的表型作用于ad,而不是通过bmi这个表型来作用域ad
https://img-blog.csdnimg.cn/0a0ce2354c8b41f18174657a0d811787.png
https://img-blog.csdnimg.cn/0161811f4646486abcda838e9c50e101.png
0.078》0.05 没有多效性
利用egger_intercept来评估多效应
https://img-blog.csdnimg.cn/bf6cf08c84f641cb873c213f6d21309c.png
egger与y轴的截距 p值是来评估截距是否存在
假如p》0.05 ,则没有显著性,说明截距不存在
假如p《0.05,则有显著性。表明当snp为0时,对outcome存在非0的效应,说明snp大概通过影响其他表型来对了局产生影响。说明存在水平多效性。 如许的效果就不能利用
(snp对暴露的影响为0时,对了局仍产生非0影响,说明存在其他的中心因向来影响了局,具有水平多效性)
6.3 leave-one-out
https://img-blog.csdnimg.cn/ca6e2f046b344e39a8cc6b318e1da846.png
假如效果比较好,置信区间都应该再虚线的右边
丢第第一个rs3817334时,剩下的snp再去做
总结
https://img-blog.csdnimg.cn/34efca731b1e47ada601878d04460de5.png
利用r来分析
https://img-blog.csdnimg.cn/79a4ed3b4b6e4ebf9962423d37189744.png
1 提取暴露数据
https://img-blog.csdnimg.cn/b37dbbf2e69e4e9097431001b8728596.png
2 导入了局数据
https://img-blog.csdnimg.cn/317664701b9e481c81e13c7cfa5fc1ea.png
后续都一样
筛查snp的第二表型 假如存在第二表型 就要大概必要筛掉它
https://img-blog.csdnimg.cn/8df5c7a02340437e9976ef032c341679.pnghttps://img-blog.csdnimg.cn/bb5d29364a0940748ae47b5259d703ef.png
7 统计学效能计算 power
https://img-blog.csdnimg.cn/950c501d1c2142eca9dcd013aedd96e1.png
sample size 是总样本量
a默认0.05
k 病例数所占总数的比例
or值为计算出来的值
r2 是全部snp(60个)的r2加起来的值
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]