ToB企服应用市场:ToB评测及商务社交产业平台
标题:
爬虫细致爬链接
[打印本页]
作者:
灌篮少年
时间:
2022-9-5 23:02
标题:
爬虫细致爬链接
这里有一点 igs 在每个爬取的数据格式后面一定要加上 igs 比如以下
/类型(.*?)/igs
复制代码
igs 是一种数据格式,如果不加上会没结果,就好比 utf-8 一样,统一的数据格式
以下可以直接爬取网站的分类和电影地址
[code]let req = require('request')// let htUrl = "https://www.21cake.com/"let htUrl = "https://www.1905.com/vod/list/n_1_t_1/03p1.html"// 封装函数进行获取爬取页面的内容function getReq(url){ return new Promise(function (resolve, reject){ req.get(url,function (err,res,body){ if (err){ reject(err) } else { resolve({res,body}) } }) })}// 获取起始页的所有分类地址async function getClass() { let {response,body} = await getReq(htUrl) // console.log(body) let reg = /类型(.*?)/igs // 爬取内容的格式,如果是这个格式就进行爬取 let result = reg.exec(body)[1] let reg1 = /<a target="_blank" href="https://www.cnblogs.com/(.*?)".*?>(.*?)/igs let res; let arrClass = [] while (res = reg1.exec(result)){ let obj = { className:res[2], url:res[1] } arrClass.push(obj) } console.log(arrClass)}// 通过分类,获取页面中的电影链接async function getMov(url, moviesType) { let {response,body} = await req(url) let reg = /
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4