ToB企服应用市场:ToB评测及商务社交产业平台

标题: 爬虫细致爬链接 [打印本页]

作者: 灌篮少年 时间: 2022-9-5 23:02
标题: 爬虫细致爬链接
这里有一点 igs 在每个爬取的数据格式后面一定要加上 igs 比如以下

/类型(.*?)/igs

复制代码

igs 是一种数据格式，如果不加上会没结果，就好比 utf-8 一样，统一的数据格式
以下可以直接爬取网站的分类和电影地址
[code]let req = require('request')// let htUrl = "https://www.21cake.com/"let htUrl = "https://www.1905.com/vod/list/n_1_t_1/03p1.html"// 封装函数进行获取爬取页面的内容function getReq(url){ return new Promise(function (resolve, reject){ req.get(url,function (err,res,body){ if (err){ reject(err) } else { resolve({res,body}) } }) })}// 获取起始页的所有分类地址async function getClass() { let {response,body} = await getReq(htUrl) // console.log(body) let reg = /类型(.*?)/igs // 爬取内容的格式，如果是这个格式就进行爬取 let result = reg.exec(body)[1] let reg1 = /<a target="_blank" href="https://www.cnblogs.com/(.*?)".*?>(.*?)/igs let res; let arrClass = [] while (res = reg1.exec(result)){ let obj = { className:res[2], url:res[1] } arrClass.push(obj) } console.log(arrClass)}// 通过分类，获取页面中的电影链接async function getMov(url, moviesType) { let {response,body} = await req(url) let reg = /

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)