beautiful soup用法-ag真人游戏

beautiful soup是python的一个网页解析库，处理快捷; 支持多种解析器，功能强大。教程细致讲解beautiful soup的深入使用、节点选择器、css选择器、beautiful soup4的方法选择器等重要知识点，是学好爬虫的基础课程。

学习目标

1. 使用beautiful soup的步骤

简单的使用beautiful soup，大致可以分为三步：

从bs4库中导入beautifulsoup类实例化一个对象。

from bs4 import beautifulsoup
soup = beautifulsoup(markup, features)

在实例化的过程中，需要给beautifulsoup这个类传递两个参数: markup、features。

使用字符串变量。直接将html数据以字符串的形式传入。

# 使用第一步的html_str字符串变量
from bs4 import beautifulsoup
soup = beautifulsoup(html_str)

使用open()函数打开文件，将html数据以文件流的形式传入。

# 假设将html_str字符串写入了index.html中
from bs4 import beautifulsoup
soup = beautifulsoup(open(index.html))

指定解析器，beautifulsoup选择指定的解析器来解析文档

# 指定lxml作为解析器
from bs4 import beautifulsoup
soup = beautifulsoup(html_str, 'lxml')

未指定解析器，beautifulsoup选择最默认的解析器来解析文档

# 解析html_str选择最默认的解析器
from bs4 import beautifulsoup
soup = beautifulsoup(html_str)

如何使用beautiful soup解析html文档？

这个非常的简单，只需要使用beautiful soup类初始化一个对象，然后操作这个对象就可以了。

需要注意的是：在初始化的对象的时候，需要给beautiful soup类传递两个参数，html代码和html解析器

这部分的内容作为今后使用beautiful soup4的基础，需要同学熟练掌握这部分的内容。