Python


  • 简介
  • 目录大纲
  • 最新文档

    01urllib库[了解]

    urllib 是 Python 标准库中用于处理 URL 相关操作的核心模块集,无需额外安装即可使用,是实现简单网络爬虫、发送 HTTP 请求、解析 URL 等功能的基础工具。 它整合了多个子模块,覆盖从请求发送到异常处理、URL 解析的全流程,是新手学习网络爬虫时必须掌握的基础库之一。 概述 urllib 并非单一模块,而是由 4 个功能明确的子模块 组成,各模块分工协作,共同完成 URL...……

    毛林 - 2025年9月7日 12:11


    06Beautiful Soup

    BeautifulSoup 是 Python 生态中最受欢迎的 HTML/XML 解析库,由 Leonard Richardson 开发,旨在简化从非结构化的网页源码中提取数据的过程。 能将复杂的 HTML/XML 文档转换为可导航的节点树,通过直观的 API 快速定位和提取标签、属性、文本等信息,是爬虫开发中解析网页内容的核心工具之一。 特点 作为专为数据提取设计的解析库,Beautifu...……

    毛林 - 2025年9月7日 12:11


    07Xpath语法

    XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点(元素、属性、文本等)的查询语言,由 W3C 制定。 目前最广泛应用的是XPath 1.0(1999 年发布),后续版本(XPath 2.0/3.0/3.1)虽增强了功能,但在主流解析工具(如 lxml、浏览器开发者工具)中,XPath 1.0 仍是支持最完善、使用最广泛的版本。 概念 XPat...……

    毛林 - 2025年9月7日 12:11


    08动态网页的处理

    动态网页是指内容通过 JavaScript 动态生成、加载或修改的网页,其核心特点是:初始 HTML 中可能仅包含基础框架,实际数据(如列表、详情、交互结果)会在页面加载后通过 AJAX 异步请求、DOM 操作(如动态创建标签)或用户交互(如滚动、点击)触发加载。 动态网页的核心是 “内容随用户操作或数据变化而实时更新”。 与静态网页(内容一次性由服务器返回)相比,动态网页的处理难度更高...……

    毛林 - 2025年9月7日 12:11


    02requests库

    requests 是 Python 生态中最受欢迎的第三方 HTTP 客户端库,由 Kenneth Reitz 开发,旨在替代原生的 urllib 库。 它以简洁的 API、人性化的设计和强大的功能著称,几乎成为 Python 网络请求(包括爬虫开发、API 调用等)的首选工具。 概述 requests 构建在 urllib3 之上,封装了复杂的 HTTP 处理逻辑,提供了更直观、更易用的接...……

    毛林 - 2025年9月7日 12:11



    毛林