羊蹓狼 发表于 2024-8-13 15:50:04

Python 爬虫技术 第06节 HTTP协议与Web基础知识

HTTP(Hypertext Transfer Protocol)是用于从Web服务器传输超文本到当地浏览器的传输协议。它是互联网上应用最为广泛的一种网络协议,几乎全部的网页数据都是通过HTTP协议进行传输的。下面,我将联合一个简单的Python案例来详细解说HTTP协议与Web基础知识。
HTTP协议基础

哀求与响应模子

HTTP遵循哀求/响应模子。客户端(通常是浏览器)发送一个HTTP哀求到服务器,服务器收到哀求后,会返回一个HTTP响应。
哀求结构

一个典型的HTTP哀求由三部分构成:

[*]哀求行 - 包含方法(GET, POST, PUT, DELETE等)、资源的URL和使用的HTTP版本。
[*]哀求头 - 包含客户端信息、认证信息、编码偏好、缓存控制等。
[*]哀求体 - 在POST、PUT等哀求中,包含要发送的数据。
响应结构

HTTP响应也由三部分构成:

[*]状态行 - 包括HTTP版本、状态码和形貌状态的短语。
[*]响应头 - 包含服务器信息、缓存控制、日期时间、内容类型等。
[*]响应体 - 现实的响应数据,比方HTML文档、图片、视频等。
Python案例:使用http.client模块发送HTTP哀求

http.client是Python尺度库的一部分,提供了发送HTTP哀求的功能。下面是一个使用http.client发送GET哀求的例子:
import http.client
import json

# 定义主机和端口
host = "www.example.com"
port = 80

# 创建连接
conn = http.client.HTTPConnection(host, port)

# 发送GET请求
conn.request("GET", "/")

# 获取响应
response = conn.getresponse()

# 打印状态码
print("Status:", response.status, response.reason)

# 读取响应数据
data = response.read().decode()

# 打印响应数据
print("Data:\n", data)

# 关闭连接
conn.close()
Python案例:使用requests库发送HTTP哀求

requests库是一个非常流行的第三方库,用于发送HTTP哀求。它比http.client更高级,更易用,支持更多功能。
import requests

# 发送GET请求
response = requests.get("http://www.example.com")

# 检查响应状态码
if response.status_code == 200:
    # 打印响应内容
    print(response.text)
else:
    print("Request failed with status code:", response.status_code)
Python案例:使用Flask框架创建Web服务器

Flask是一个轻量级的Web框架,非常得当用于构建小型Web应用程序或API服务。下面是一个简单的Flask应用示例:
from flask import Flask

app = Flask(__name__)

@app.route('/')
def home():
    return "Hello, World!"

if __name__ == '__main__':
    app.run(debug=True)
在这个例子中,我们创建了一个简单的Web服务器,它监听全部外部接口上的默认端口(5000),并在接收到哀求时返回"Hello, World!"的消息。
总结

HTTP协议是Web通讯的基础,明白其工作原理对于开发Web应用程序至关重要。Python提供了多种工具和库来处理HTTP哀求和响应,无论是客户端还是服务器端编程,都可以轻松实现。通过上述案例,你应该能够开始编写自己的HTTP客户端和服务器代码了。
当我们谈论扩展基于HTTP的Python代码时,可以考虑增加的功能有很多。这里,我将展示如何使用requests库来发送更复杂的HTTP哀求(如POST哀求),以及如何使用Flask框架来处理这些哀求。
使用requests发送POST哀求

假设我们有一个Web服务,它期望接收JSON格式的数据并通过POST哀求发送。下面是如何使用requests库发送如许一个哀求:
import requests
import json

url = "http://localhost:5000/data"# 假设这是你的Flask应用的URL

data = {
    "name": "John Doe",
    "age": 30,
    "city": "New York"
}

headers = {'Content-Type': 'application/json'}

response = requests.post(url, data=json.dumps(data), headers=headers)

if response.status_code == 200:
    print("Request successful!")
    print("Response:", response.json())
else:
    print("Request failed with status code:", response.status_code)
使用Flask接收POST哀求

接下来,我们将在Flask应用中添加一个端点来接收上述POST哀求:
from flask import Flask, request, jsonify

app = Flask(__name__)

@app.route('/data', methods=['POST'])
def receive_data():
    if request.headers['Content-Type'] == 'application/json':
      data = request.json
      print("Received data:", data)
      # 这里可以处理数据,例如保存到数据库
      return jsonify({"message": "Data received successfully"}), 200
    else:
      return jsonify({"error": "Invalid content type"}), 400

if __name__ == '__main__':
    app.run(debug=True)
扩展Flask应用

我们还可以为Flask应用添加更多的路由和功能。比方,添加一个GET哀求来获取数据:
@app.route('/data', methods=['GET'])
def get_data():
    # 假设这里有从数据库获取数据的逻辑
    data = {"name": "John Doe", "age": 30, "city": "New York"}
    return jsonify(data), 200
错误处理

在Flask中,可以使用错误处理器来处理各种HTTP错误:
@app.errorhandler(404)
def page_not_found(e):
    return jsonify({"error": "Resource not found"}), 404

@app.errorhandler(500)
def internal_server_error(e):
    return jsonify({"error": "Internal server error"}), 500
使用环境变量和设置

为了提高安全性,可以使用环境变量来管理敏感信息,如数据库URL、API密钥等:
import os

app.config['DATABASE_URL'] = os.getenv('DATABASE_URL')
然后,在摆设环境中设置这些环境变量:
export DATABASE_URL=postgres://user:pass@localhost/dbname
使用Flask扩展

Flask有很多扩展,可以简化常见的任务,如数据库集成、身份验证、表单处理等。比方,使用Flask-SQLAlchemy来集成SQLAlchemy ORM:
from flask_sqlalchemy import SQLAlchemy

db = SQLAlchemy(app)

class User(db.Model):
    id = db.Column(db.Integer, primary_key=True)
    username = db.Column(db.String(80), unique=True, nullable=False)
    email = db.Column(db.String(120), unique=True, nullable=False)
   
    def __repr__(self):
      return '<User %r>' % self.username
通过这些扩展和加强功能,你可以构建功能丰富且安全的Web应用程序。这只是一个开始,现实的应用大概涉及更复杂的业务逻辑、安全措施、性能优化和摆设策略。
既然我们已经讨论了如何使用requests库来发送POST哀求和使用Flask框架来接收和处理这些哀求,我们可以进一步美满代码,使其更具实用性。以下是几个方面的扩展:

[*]数据库集成:使用Flask-SQLAlchemy来长期化数据。
[*]身份验证:使用Flask-Login或Flask-JWT来管理用户身份验证。
[*]表单验证:使用WTForms来处理和验证表单数据。
[*]日志记录:使用logging模块来记录重要事件和错误。
[*]单元测试:使用pytest来编写和运行单元测试。
起首,让我们继承使用Flask-SQLAlchemy来管理用户数据:
安装Flask-SQLAlchemy

在终端中安装Flask-SQLAlchemy:
pip install Flask-SQLAlchemy
设置Flask-SQLAlchemy

在Flask应用中添加数据库设置:
from flask import Flask
from flask_sqlalchemy import SQLAlchemy

app = Flask(__name__)
app.config['SQLALCHEMY_DATABASE_URI'] = 'sqlite:///users.db'# 或者使用其他数据库
app.config['SQLALCHEMY_TRACK_MODIFICATIONS'] = False
db = SQLAlchemy(app)
创建数据库模子

界说一个用户模子:
class User(db.Model):
    id = db.Column(db.Integer, primary_key=True)
    name = db.Column(db.String(80), nullable=False)
    age = db.Column(db.Integer)
    city = db.Column(db.String(120))

    def __repr__(self):
      return f'<User {self.name}>'
创建数据库表

在应用运行前创建数据库表:
if __name__ == '__main__':
    db.create_all()
    app.run(debug=True)
修改POST路由以保存数据

更新receive_data函数以将数据保存到数据库:
@app.route('/data', methods=['POST'])
def receive_data():
    if request.headers['Content-Type'] == 'application/json':
      data = request.json
      new_user = User(name=data['name'], age=data['age'], city=data['city'])
      db.session.add(new_user)
      db.session.commit()
      return jsonify({"message": "Data received and saved successfully"}), 201
    else:
      return jsonify({"error": "Invalid content type"}), 400
添加GET路由以查询数据

添加一个路由来查询全部用户数据:
@app.route('/data', methods=['GET'])
def get_data():
    users = User.query.all()
    return jsonify(), 200
界说to_dict方法

在User类中添加一个方法来方便地将对象转换为字典:
class User(db.Model):
    # ...
   
    def to_dict(self):
      return {
            'id': self.id,
            'name': self.name,
            'age': self.age,
            'city': self.city
      }
日志记录

使用Python的logging模块记录关键操作:
import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

@app.route('/data', methods=['POST'])
def receive_data():
    # ...
    logger.info(f"New user data received: {data}")
    # ...
单元测试

使用pytest编写单元测试:
# tests/test_app.py
import pytest
from app import app, db
from app.models import User

@pytest.fixture
def client():
    app.config['TESTING'] = True
    client = app.test_client()
    with app.app_context():
      db.create_all()
    yield client
    with app.app_context():
      db.drop_all()

def test_receive_data(client):
    response = client.post('/data', json={
      "name": "Test User",
      "age": 25,
      "city": "Test City"
    }, content_type='application/json')
    assert response.status_code == 201
    assert User.query.count() == 1
以上步调将使你的应用更加健壮和实用,但请记住,现实摆设时大概必要考虑更多的细节,比方生产环境下的数据库设置、安全性、性能优化等。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Python 爬虫技术 第06节 HTTP协议与Web基础知识