爬虫-从入门到入狱

打印 上一主题 下一主题

主题 783|帖子 783|积分 2349

前言:
  1.   爬虫理论上是被禁止的,这里只讲方法,so,希望大家遵守法律法规,不要去爬敏感网站的数据,不要从事贩卖国家机密相关的相关事宜等。
复制代码
此次涉及到的知识点如下:
   

  • 利用json库截取json指定字符串
  • 利用argparse库实现参数化调用
  • 利用pymysql库实现数据库操作
  • 数据库长连接的使用
  pymysql库的使用

pymysql的库作用就是联动mysql数据库,我们这里需要知道的是如何创建数据库连接,如何创建游标对象,如何执行sql语句与事务的提交
首先这里介绍的是连接数据库的长连接的使用,一开始笔者使用连接数据库的方式是短链接。
我们实现与数据库交互的时候,需要先连接数据库,而后关闭连接,这个过程在断开的时候是会产生一个tcp timeout的时间的,如果大家插入数据库、与数据库交互的次数并不多,那当然是不受影响的。
但是大家如果做爬虫,需要批量的操作数据库的时候,若是采用短连接,每次连接数据库关闭数据库就都会产生一个tcp timeout的动作,这样的话可能会造成一个泛洪的效果,意外的造成了拒绝服务攻击。
示例代码如下:
[code]import pymysqlimport time​def short():  n=0  while n
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

兜兜零元

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表