网络药理学：3、网药全流程：筛选疾病靶点之GeneCards、OMIM、TTD数据库使 - ToB企服应用市场:ToB评测及商务社交产业平台

Stelzer G, Rosen N, Plaschkes I, Zimmerman S, Twik M, Fishilevich S, Stein TI, Nudel R, Lieder I, Mazor Y, Kaplan S, Dahary D, Warshawsky D, Guan-Golan Y, Kohn A, Rappaport N, Safran M, Lancet D. The GeneCards Suite: From Gene Data Mining to Disease Genome Sequence Analyses. Curr Protoc Bioinformatics. 2016 Jun 20;54:1.30.1-1.30.33. doi: 10.1002/cpbi.5. PMID: 27322403.

复制代码

# @Time : 2025/1/16
# @Author : shanshan
# @CSDN : https://blog.csdn.net/zhiaidaidai
# Copyright (c) 2024, shanshan Group All Rights Reserved.
import pandas as pd
def get_gene_from_OMIM(OMIM_file_name, output_name):
df = pd.read_excel(OMIM_file_name, skiprows=4) # 跳过前4行非数据行
gene_locus_column = df['Gene/Locus'].dropna()
cleaned_genes = []
for item in gene_locus_column:
# 检查是否为字符串类型
if isinstance(item, str):
# 去除双引号并去除两端空格
item = item.replace('"', '').strip()
# 分割基因名并去除每个基因名两端的空格
genes = [gene.strip() for gene in item.split(',')]
cleaned_genes.extend(genes)
gene_df = pd.DataFrame(cleaned_genes, columns=['Gene/Locus'])
print("omim_df 's row is: ", len(gene_df))
gene_df.to_csv(output_name, index=False)
return gene_df
if __name__ == '__main__':
get_gene_from_OMIM(OMIM_file_name='OMIM-Gene-Map-Retrieval.xlsx', output_name='OMIM.csv')

复制代码

Hamosh A, Scott A F, Amberger J S, et al. Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders[J]. Nucleic acids research, 2005, 33(suppl_1): D514-D517.

复制代码

# @Time : 2025/1/16
# @Author : shanshan
# @CSDN : https://blog.csdn.net/zhiaidaidai
import csv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.edge.service import Service
from bs4 import BeautifulSoup
import time
import re
# ------------------------修改输入------------------------------
disease_name = "Esophageal cancer" # 替换为你要搜索的疾病名称
edge_driver_path = 'msedgedriver.exe' # 替换为你的 Edge 驱动路径
output_filename = 'TTD.csv' # 替换为你想要的输出文件名
# ------------------------修改输入完毕--------------------------
service = Service(edge_driver_path)
driver = webdriver.Edge(service=service)
# 打开目标网站首页
base_url = "https://db.idrblab.net/ttd/"
driver.get(base_url)
# 搜索
search_box = driver.find_element(By.NAME, "search_api_fulltext")
search_box.send_keys(disease_name)
search_box.send_keys(Keys.RETURN)
time.sleep(2)
# 获取页面 HTML
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
genes = []
# 提取所有带有特定class的表格
gene_tables = soup.find_all('table', {'class': 'ttd-table table table-bordered ttd-result-item'})
if not gene_tables:
print("未找到表格内容，请检查页面结构或搜索条件。")
else:
for gene_table in gene_tables:
for row in gene_table.find_all('tr'): # 跳过表头
cols = row.find_all('td')
if cols:
gene_name_full = cols[0].get_text(strip=True) # 假设基因名在第一列
# 使用正则表达式提取括号内的基因名
match = re.search(r'\(([^)]+)\)', gene_name_full)
if match:
gene_name = match.group(1)
genes.append(gene_name)
# 翻页提取基因名
page_number = 0
while True:
try:
next_page_link = driver.find_element(By.CSS_SELECTOR, 'ul.pager__items li.pager__item--next a')
if next_page_link and next_page_link.get_attribute('href'):
next_page_link.click()
time.sleep(2)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
gene_tables = soup.find_all('table', {'class': 'ttd-table table table-bordered ttd-result-item'})
for gene_table in gene_tables:
for row in gene_table.find_all('tr'): # 跳过表头
cols = row.find_all('td')
if cols:
gene_name_full = cols[0].get_text(strip=True) # 假设基因名在第一列
# 使用正则表达式提取括号内的基因名
match = re.search(r'\(([^)]+)\)', gene_name_full)
if match:
gene_name = match.group(1)
genes.append(gene_name)
else:
break
except Exception as e:
print(f"Error occurred: {e}")
break
driver.quit()
# 打印所有页的基因名
print("所有页基因名列表:")
for gene in genes:
print(gene)
# 输出为CSV文件
with open(output_filename, 'w', newline='') as csvfile:
csvwriter = csv.writer(csvfile)
csvwriter.writerow(['Gene Name']) # 写入标题
for gene in genes:
csvwriter.writerow([gene])

复制代码