Python


  • 简介
  • 目录大纲
  • 最新文档

    08动态网页的处理

    动态网页是指内容通过 JavaScript 动态生成、加载或修改的网页,其核心特点是:初始 HTML 中可能仅包含基础框架,实际数据(如列表、详情、交互结果)会在页面加载后通过 AJAX 异步请求、DOM 操作(如动态创建标签)或用户交互(如滚动、点击)触发加载。 动态网页的核心是 “内容随用户操作或数据变化而实时更新”。 与静态网页(内容一次性由服务器返回)相比,动态网页的处理难度更高...……

    毛林 - 2025年10月27日 21:11


    07Xpath语法

    XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点(元素、属性、文本等)的查询语言,由 W3C 制定。 目前最广泛应用的是XPath 1.0(1999 年发布),后续版本(XPath 2.0/3.0/3.1)虽增强了功能,但在主流解析工具(如 lxml、浏览器开发者工具)中,XPath 1.0 仍是支持最完善、使用最广泛的版本。 概念 XPat...……

    毛林 - 2025年10月27日 21:09


    06Beautiful Soup

    BeautifulSoup 是 Python 生态中最受欢迎的 HTML/XML 解析库,由 Leonard Richardson 开发,旨在简化从非结构化的网页源码中提取数据的过程。 能将复杂的 HTML/XML 文档转换为可导航的节点树,通过直观的 API 快速定位和提取标签、属性、文本等信息,是爬虫开发中解析网页内容的核心工具之一。 特点 作为专为数据提取设计的解析库,Beautifu...……

    毛林 - 2025年10月27日 21:09


    05lxml

    lxml 是 Python 生态中功能强大且高性能的 XML 和 HTML 解析库,基于 C 语言编写的 libxml2 和 libxslt 库开发,兼具底层库的高效性和 Python 接口的易用性。 广泛应用于爬虫开发、数据提取、XML 处理等场景,尤其在需要处理大型文档或复杂查询时表现突出。 特性 lxml 的优势源于其底层依赖的 libxml2(XML 解析引擎)和 libxslt...……

    毛林 - 2025年10月27日 21:07


    04解析库

    概述 Python 的解析库是指用于将非结构化 / 半结构化数据(如 HTML 网页源码、XML 文档、JSON 字符串等)转换为可操作的结构化数据(如 Python 字典、列表、对象等),从而方便提取、筛选和处理信息的工具库。 在爬虫场景中,解析库是核心工具 —— 爬虫获取到网页源码或 API 响应后,需通过解析库提取目标数据(如标题、价格、链接等)。 根据处理的数据格式,解析库可分为以下...……

    毛林 - 2025年10月27日 21:06



    毛林