前几天咱们分享了看完不会来揍我 | 孟德尔随机化万字长文详解(二)—— 代码实操 | 附代码表明 + 效果解读,很多小同伴们反映在使用代码下载数据时会遇到各种网络或其他报错问题,令人头大的那种!不要慌!从数据库下载数据到本地的数据处理方法这就来啦!
- 如果小同伴们有需求的话,可以加入我们的交换群:一定要知道 | 永久免费的情况友爱型生信学习交换群又双叒叕来啦!| 伴随不定期群友爱物分享!在这里,你可以稍有克制地畅所欲言!
- 超等建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看!
- 如果有需要个性化定制分析服务的小同伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属办理方案!全程1v1答疑!!绝对包你满足!
直接开始!
数据要求
在举行**孟德尔随机化(Mendelian Randomization,MR)**分析时,关于曝露因子的 GWAS 数据,TwoSampleMR需要一个工具变量数据框,要求每行对应一个 SNP,至少需要 4 列最根本信息,包括:
- SNP - rsID,rsID 是 SNP 的唯一标识符。
- beta - 效应大小。如果是分类变量,我们就要使用log(OR),详见:看完不会来揍我 | 孟德尔随机化万字长文详解(二)—— 代码实操 | 附代码表明 + 效果解读。
- se - 效应大小的标准误差
- effect_allele - 效应等位基因
我们也可以提供以下对 MR 有用的其他信息:
- other_allele - 非效应等位基因
- eaf - 效应等位基因频率
- Phenotype - SNP具有效应的表型名称
我们还可以提供以下额外信息(非必须):
- chr - SNP 地点的染色体
- position - SNP 在染色体上的位置
- samplesize - 用于估计效应大小的样本大小
- ncase - 病例数量
- ncontrol - 对照组数量
- pval - SNP 与曝露因子关联的 P 值
- units - 以哪种单位出现效应
- gene - SNP 的基因或其他表明
注意注意:不同来源的数据可能列名会有些许差异,大家要注意哈!
大家在下载完成后可以检查一下数据是否符合要求,从数据库下载的还好,一样平常不会有问题,重要是大家从相关文献获取数据的时候要注意这个问题。
从 IEU 数据库获取数据
数据下载
IEU 数据库官网:https://gwas.mrcieu.ac.uk/
我们可以直接在中间的大框框里输入关键词,也可以点击右上角的datasets进入新的页面,在Trait contains的框框里输入关键词。比如我们这里就以body mass index(身体质量指数,也就是咱们常说的 BMI)作为关键词举行输入,然后点击 |