python 实现一个简单的网页爬虫步调
迩来在学习python,以下为网页爬虫代码,供参考1、爬取指定网页的标题和全部的毗连
2、并将这些信息生存到一个文件中。
前置:因使用到网页干系的功能,故需导入requests、BeautifulSoup 库来完成
#导入网页干系的库
import requests
from bs4 import BeautifulSoup
#界说一个函数get_page()
def get_page(url):
response = requests.get(url) # 发送HTTP的get哀求
# 剖析相应内容为HTML(此处使用*.content,否则使用*.text有乱码)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取链接的文本内容,即标题
# *.title代表HTML文档中<title>标签,*.string属于则用于获取该标签内的直接文本内容
title = soup.title.string
&
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
页:
[1]