ToB企服应用市场:ToB评测及商务社交产业平台

标题: AIGC爬虫实战(一) [打印本页]

作者: 灌篮少年    时间: 2024-7-18 17:14
标题: AIGC爬虫实战(一)
前言

传统的网络爬虫系统服从较低且难以应对复杂多变的网页环境
基于AIGC技术的智能化爬虫,则可以大幅提升爬虫的自主性和适应性,从而更高效地完成网络数据的采集和分析任务
本文将通过一系列实战案例,深入探讨AIGC技术在网络爬虫开发中的详细应用
代码实现


首先安装一下request-promise和cheerio
  1. npm install request-promise
  2. npm install cheerio
复制代码
接下来我们开始书写我们的代码
  1. let request = require('request-promise') // 需要安装
  2. let cheerio = require('cheerio') // 需要安装
  3. let fs = require('fs')
  4. let basicUrl = 'https://movie.douban.com/top250'
  5. function getMovieInfo(node) {
  6.     let $ = cheerio.load(node)
  7.     let titles = $('.info .hd span')
  8.     titles = ([]).map.call(titles, t => {
  9.         return $(t).text()
  10.     })
  11.     let bd = $('.info .bd')
  12.     let info = bd.find('p').text()
  13.     let score = bd.find('.star .rating_num').text()
  14.     return { titles, info, score }
  15. }
  16. async function getPage(url, num) {
  17.     let html = await request({
  18.         url
  19.     })
  20.     console.log('连接成功!', `正在爬取第${num + 1}页数据`)
  21.     let $ = cheerio.load(html)
  22.     let movieNodes = $('#content .article .grid_view').find('.item')
  23.     let movieList = ([]).map.call(movieNodes, node => {
  24.         return getMovieInfo(node)
  25.     })
  26.     return movieList
  27. }
  28. async function main() {
  29.     let count = 25
  30.     let list = []
  31.     for (let i = 0; i < count; i++) {
  32.         let url = basicUrl + `?start=${25 * i}`
  33.         list.push(... await getPage(url, i))
  34.     }
  35.     console.log(list.length)
  36.     fs.writeFile('./output.json', JSON.stringify(list), 'utf-8', () => {
  37.         console.log('生成json文件成功!')
  38.     })
  39. }
  40. main()
复制代码
可以看到我们爬取的数据都在json文件中

可以看到我们的数据格式照旧有点问题的
接下来我们将第一个数据将它交给AI处理一下

可以看到AI给我们处理的不错,所以AI可以或许有效的进步我们爬取处理数据的服从
下篇文章我们将讲解一下怎样在项目中调用AI的API去快捷处理数据
总结

本文将通过实战案例,深入探讨AIGC技术在网络爬虫开发中的详细应用
基于AIGC技术的智能化爬虫,则可以大幅提升爬虫的自主性和适应性,从而更高效地完成网络数据的采集和分析任务,AI在项目中的鼎力大举利用可以或许有效得提升项目的能力

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4