Python

简介
目录大纲
最新文档

08动态网页的处理

动态网页是指内容通过 JavaScript 动态生成、加载或修改的网页，其核心特点是：初始 HTML 中可能仅包含基础框架，实际数据（如列表、详情、交互结果）会在页面加载后通过 AJAX 异步请求、DOM 操作（如动态创建标签）或用户交互（如滚动、点击）触发加载。动态网页的核心是 “内容随用户操作或数据变化而实时更新”。与静态网页（内容一次性由服务器返回）相比，动态网页的处理难度更高...……

毛林 - 2025年10月27日 21:11

XPath（XML Path Language）是一种用于在 XML 和 HTML 文档中定位节点（元素、属性、文本等）的查询语言，由 W3C 制定。目前最广泛应用的是XPath 1.0（1999 年发布），后续版本（XPath 2.0/3.0/3.1）虽增强了功能，但在主流解析工具（如 lxml、浏览器开发者工具）中，XPath 1.0 仍是支持最完善、使用最广泛的版本。概念 XPat...……

毛林 - 2025年10月27日 21:09

06Beautiful Soup

BeautifulSoup 是 Python 生态中最受欢迎的 HTML/XML 解析库，由 Leonard Richardson 开发，旨在简化从非结构化的网页源码中提取数据的过程。能将复杂的 HTML/XML 文档转换为可导航的节点树，通过直观的 API 快速定位和提取标签、属性、文本等信息，是爬虫开发中解析网页内容的核心工具之一。特点作为专为数据提取设计的解析库，Beautifu...……

毛林 - 2025年10月27日 21:09

05lxml

lxml 是 Python 生态中功能强大且高性能的 XML 和 HTML 解析库，基于 C 语言编写的 libxml2 和 libxslt 库开发，兼具底层库的高效性和 Python 接口的易用性。广泛应用于爬虫开发、数据提取、XML 处理等场景，尤其在需要处理大型文档或复杂查询时表现突出。特性 lxml 的优势源于其底层依赖的 libxml2（XML 解析引擎）和 libxslt...……

毛林 - 2025年10月27日 21:07

04解析库

概述 Python 的解析库是指用于将非结构化 / 半结构化数据（如 HTML 网页源码、XML 文档、JSON 字符串等）转换为可操作的结构化数据（如 Python 字典、列表、对象等），从而方便提取、筛选和处理信息的工具库。在爬虫场景中，解析库是核心工具 —— 爬虫获取到网页源码或 API 响应后，需通过解析库提取目标数据（如标题、价格、链接等）。根据处理的数据格式，解析库可分为以下...……

毛林 - 2025年10月27日 21:06

Python

08动态网页的处理

07Xpath语法

06Beautiful Soup

05lxml

04解析库