04解析库

## 概述

Python 的解析库是指用于将非结构化 / 半结构化数据（如 HTML 网页源码、XML 文档、JSON 字符串等）转换为可操作的结构化数据（如 Python 字典、列表、对象等），从而方便提取、筛选和处理信息的工具库。

在爬虫场景中，解析库是核心工具 —— 爬虫获取到网页源码或 API 响应后，需通过解析库提取目标数据（如标题、价格、链接等）。

根据处理的数据格式，解析库可分为以下几类

## HTML/XML 解析库（网页爬取核心）

主要用于解析 HTML 网页源码或 XML 文档，提取标签内的文本、属性等信息。

> Beautiful Soup

最常用的解析库之一，语法简洁、易用性强，支持多种解析器（如 Python 标准库的html.parser、lxml），能自动修复不规范的 HTML 标签（如未闭合标签），非常适合新手。
特点：专注于 “提取数据”，不擅长复杂的路径查询，适合简单到中等复杂度的 HTML 解析。

> lxml

基于 C 语言开发的高性能解析库，同时支持 HTML 和 XML，核心优势是速度快且支持XPath 语法（一种强大的路径查询语言，可快速定位标签），适合处理大型 HTML/XML 文档或需要复杂查询的场景。
特点：效率高、功能全，但语法稍复杂，常与 Beautiful Soup 结合使用（Beautiful Soup 用 lxml 作为解析器提升性能）。

> pyquery

语法模仿 jQuery，支持 CSS 选择器（如div.classname、#id），适合熟悉前端 jQuery 的开发者，解析 HTML 时像写前端代码一样直观。

## JSON 解析库

用于解析 JSON 格式数据（如 API 接口返回的响应），将 JSON 字符串转换为 Python 字典 / 列表。

> json（Python 标准库）

内置模块，无需额外安装，支持 JSON 与 Python 数据类型的相互转换（json.loads()解析字符串，json.dump()写入文件），满足绝大多数基础需求。

> simplejson

第三方库，是json模块的扩展，支持更多数据类型（如日期）和优化功能，兼容性更好，在处理复杂 JSON 时更灵活。

## 其他格式解析库

csv（Python 标准库）：解析 CSV 表格数据，适合处理结构化的表格信息。

pdfplumber/PyPDF2：解析 PDF 文件，提取文本、表格等内容。

xlrd/openpyxl：解析 Excel 文件（.xls/.xlsx），读取表格数据。

## 总结

网页爬取（HTML）首选：Beautiful Soup（简单）或lxml（高效 + XPath）；

API 数据（JSON）首选：内置json模块；

复杂 HTML/XML 且需路径查询：lxml（XPath）或pyquery（CSS 选择器）。