简述
jsoup 是一个基于 Java 的库,用于处理基于 HTML 的内容。它提供了一个非常方便的 API 来提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。它实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。本参考将带您了解 jsoup 库中提供的简单实用的方法。
本参考资料是为初学者准备的,以帮助他们了解与 jsoup 库中可用功能相关的基本功能。
在您开始练习本参考中给出的各种类型的示例之前,我假设您已经了解基本的 Java 编程。
jsoup 库实现了 WHATWG HTML5 规范,并将 HTML 内容解析为与现代浏览器相同的 DOM。
jsonp 库提供以下功能。
-
多读支持 - 它使用 URL、文件或字符串读取和解析 HTML。
-
CSS 选择器 − 可以使用DOM 遍历或CSS 选择器查找和提取数据。
-
DOM 操纵 − 可以操作 HTML 元素、属性和文本。
-
防止XSS攻击 − 可以根据给定的安全白名单清理用户提交的内容,以防止 XSS 攻击。
-
美化HTML − 输出整洁的 HTML。
-
处理无效数据 − jsoup 可以处理未闭合标签、隐式标签,并且可以可靠地创建文档结构。