【Python】HTMLParser：HTML分析

发表于 2026-1-26 10:09:34

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

html.parser 是 Python 标准库中的一个模块，用于分析和处置惩罚 HTML。它的核心类是 HTMLParser，这个类提供了多种方法，允许你处置惩罚 HTML 文档的各个部门。我们可以按以下几个模块来详细教学 html.parser 的功能和使用方法。
HTMLParser 类

HTMLParser 类是 html.parser 模块的核心类，用于分析HTML文档。通过继续这个类并重写其提供的回调方法，你可以自界说对HTML标签、属性和内容的处置惩罚方式。
初始化和根本使用

要使用 HTMLParser 类，通常必要继续它，并在子类中重写一些回调方法。这些方法会在分析过程中自动调用，允许你处置惩罚HTML文档的差异部门。
示例：自界说分析器

from html.parser import HTMLParser
# 创建自定义解析器类，继承HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print(f"Start tag: {
tag}")
if attrs:
for attr in attrs:
print(f" Attribute: {
attr}")
def handle_endtag(self, tag):
print(f"End tag: {
tag}")
def handle_data(self, data):
print(f"Data: {
data}")
# 创建解析器实例
parser = MyHTMLParser()
# 解析HTML字符串
html_string = "<html><head><title>Test</title></head><body><h1>Title</h1><p>Hello, World!</p></body></html>"
parser.feed(html_string)

复制代码

在这个例子中，MyHTMLParser 类继续了 HTMLParser，并重写了三个方法：handle_starttag、handle_endtag 和 handle_data。这些方法分别用于处置惩罚HTML文档中的开始标签、竣事标签和数据内容。
输出结果：

Start tag: html
Start tag: head
Start tag: title
Data: Test
End tag: title
End tag: head
Start tag: body
Start tag: h1
Data: Title
End tag: h1
Start tag: p
Data: Hello, World!
End tag: p
End tag

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

【Python】HTMLParser：HTML分析

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

飞不高