爬虫细致爬链接

[复制链接]
发表于 2022-9-5 23:02:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
这里有一点 igs 在每个爬取的数据格式后面一定要加上 igs 比如以下
  1. /类型(.*?)/igs
复制代码
 
igs 是一种数据格式,如果不加上会没结果,就好比 utf-8 一样,统一的数据格式
以下可以直接爬取网站的分类和电影地址
[code]let req = require('request')// let htUrl = "https://www.21cake.com/"let htUrl = "https://www.1905.com/vod/list/n_1_t_1/03p1.html"// 封装函数进行获取爬取页面的内容function getReq(url){    return new Promise(function (resolve, reject){        req.get(url,function (err,res,body){            if (err){                reject(err)            } else {                resolve({res,body})            }        })    })}// 获取起始页的所有分类地址async function getClass() {    let {response,body} = await getReq(htUrl)    // console.log(body)    let reg = /类型(.*?)/igs    // 爬取内容的格式,如果是这个格式就进行爬取    let result = reg.exec(body)[1]    let reg1 = /<a target="_blank" href="https://www.cnblogs.com/(.*?)".*?>(.*?)/igs    let res;    let arrClass = []    while (res = reg1.exec(result)){        let obj = {            className:res[2],            url:res[1]        }        arrClass.push(obj)    }    console.log(arrClass)}// 通过分类,获取页面中的电影链接async function getMov(url, moviesType) {    let {response,body} = await  req(url)    let reg = /
继续阅读请点击广告
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-9 04:53 , Processed in 0.079056 second(s), 28 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表