ToB企服应用市场:ToB评测及商务社交产业平台

标题: 爬虫细致爬链接 [打印本页]

作者: 灌篮少年    时间: 2022-9-5 23:02
标题: 爬虫细致爬链接
这里有一点 igs 在每个爬取的数据格式后面一定要加上 igs 比如以下
  1. /类型(.*?)/igs
复制代码
 
igs 是一种数据格式,如果不加上会没结果,就好比 utf-8 一样,统一的数据格式
以下可以直接爬取网站的分类和电影地址
[code]let req = require('request')// let htUrl = "https://www.21cake.com/"let htUrl = "https://www.1905.com/vod/list/n_1_t_1/03p1.html"// 封装函数进行获取爬取页面的内容function getReq(url){    return new Promise(function (resolve, reject){        req.get(url,function (err,res,body){            if (err){                reject(err)            } else {                resolve({res,body})            }        })    })}// 获取起始页的所有分类地址async function getClass() {    let {response,body} = await getReq(htUrl)    // console.log(body)    let reg = /类型(.*?)/igs    // 爬取内容的格式,如果是这个格式就进行爬取    let result = reg.exec(body)[1]    let reg1 = /<a target="_blank" href="https://www.cnblogs.com/(.*?)".*?>(.*?)/igs    let res;    let arrClass = []    while (res = reg1.exec(result)){        let obj = {            className:res[2],            url:res[1]        }        arrClass.push(obj)    }    console.log(arrClass)}// 通过分类,获取页面中的电影链接async function getMov(url, moviesType) {    let {response,body} = await  req(url)    let reg = /




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4