- 简介
- 目录大纲
- 最新文档
01urllib库[了解]
urllib 是 Python 标准库中用于处理 URL 相关操作的核心模块集,无需额外安装即可使用,是实现简单网络爬虫、发送 HTTP 请求、解析 URL 等功能的基础工具。 它整合了多个子模块,覆盖从请求发送到异常处理、URL 解析的全流程,是新手学习网络爬虫时必须掌握的基础库之一。 概述 urllib 并非单一模块,而是由 4 个功能明确的子模块 组成,各模块分工协作,共同完成 URL...……
毛林 - 2025年9月7日 12:11
06Beautiful Soup
BeautifulSoup 是 Python 生态中最受欢迎的 HTML/XML 解析库,由 Leonard Richardson 开发,旨在简化从非结构化的网页源码中提取数据的过程。 能将复杂的 HTML/XML 文档转换为可导航的节点树,通过直观的 API 快速定位和提取标签、属性、文本等信息,是爬虫开发中解析网页内容的核心工具之一。 特点 作为专为数据提取设计的解析库,Beautifu...……
毛林 - 2025年9月7日 12:11
07Xpath语法
XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点(元素、属性、文本等)的查询语言,由 W3C 制定。 目前最广泛应用的是XPath 1.0(1999 年发布),后续版本(XPath 2.0/3.0/3.1)虽增强了功能,但在主流解析工具(如 lxml、浏览器开发者工具)中,XPath 1.0 仍是支持最完善、使用最广泛的版本。 概念 XPat...……
毛林 - 2025年9月7日 12:11
08动态网页的处理
动态网页是指内容通过 JavaScript 动态生成、加载或修改的网页,其核心特点是:初始 HTML 中可能仅包含基础框架,实际数据(如列表、详情、交互结果)会在页面加载后通过 AJAX 异步请求、DOM 操作(如动态创建标签)或用户交互(如滚动、点击)触发加载。 动态网页的核心是 “内容随用户操作或数据变化而实时更新”。 与静态网页(内容一次性由服务器返回)相比,动态网页的处理难度更高...……
毛林 - 2025年9月7日 12:11
02requests库
requests 是 Python 生态中最受欢迎的第三方 HTTP 客户端库,由 Kenneth Reitz 开发,旨在替代原生的 urllib 库。 它以简洁的 API、人性化的设计和强大的功能著称,几乎成为 Python 网络请求(包括爬虫开发、API 调用等)的首选工具。 概述 requests 构建在 urllib3 之上,封装了复杂的 HTTP 处理逻辑,提供了更直观、更易用的接...……
毛林 - 2025年9月7日 12:11