爬虫细致爬链接

打印 上一主题 下一主题

主题 859|帖子 859|积分 2577

这里有一点 igs 在每个爬取的数据格式后面一定要加上 igs 比如以下
  1. /类型(.*?)/igs
复制代码
 
igs 是一种数据格式,如果不加上会没结果,就好比 utf-8 一样,统一的数据格式
以下可以直接爬取网站的分类和电影地址
[code]let req = require('request')// let htUrl = "https://www.21cake.com/"let htUrl = "https://www.1905.com/vod/list/n_1_t_1/03p1.html"// 封装函数进行获取爬取页面的内容function getReq(url){    return new Promise(function (resolve, reject){        req.get(url,function (err,res,body){            if (err){                reject(err)            } else {                resolve({res,body})            }        })    })}// 获取起始页的所有分类地址async function getClass() {    let {response,body} = await getReq(htUrl)    // console.log(body)    let reg = /类型(.*?)/igs    // 爬取内容的格式,如果是这个格式就进行爬取    let result = reg.exec(body)[1]    let reg1 = /<a target="_blank" href="https://www.cnblogs.com/(.*?)".*?>(.*?)/igs    let res;    let arrClass = []    while (res = reg1.exec(result)){        let obj = {            className:res[2],            url:res[1]        }        arrClass.push(obj)    }    console.log(arrClass)}// 通过分类,获取页面中的电影链接async function getMov(url, moviesType) {    let {response,body} = await  req(url)    let reg = /
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

灌篮少年

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表