创建BeautifulSoup对象
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
遍历
name 输出节点的标签。
bs = BeautifulSoup(content)
for node in bs.body.children:
print(node.name)
搜索节点
搜索节点的方法
- soup.find_all() 查找所有符合查询条件的标签节点,并返回一个列表。
- soup.find() 查找符合符合查询条件的第一个标签节点。
正则查找指定格式链接
如查找所有标签符合标签名为a,链接符合 /view/123.html的节点
soup.find_all('a', href = re.compile(r'/view/\d+\.html'))
获取节点名称
node.name
获取a节点的href属性
node['href']
node.get('href')
获取按节点的字符串内容
node.get_text()
删除节点
删除当前节点
node.extract()
删除父节点
node.parent.extract()
参考
- https://www.cnblogs.com/my1e3/p/6622306.html