创建BeautifulSoup对象

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

遍历

name 输出节点的标签。

    bs = BeautifulSoup(content)
    for node in bs.body.children:
        print(node.name)

搜索节点

搜索节点的方法

  • soup.find_all() 查找所有符合查询条件的标签节点,并返回一个列表。
  • soup.find() 查找符合符合查询条件的第一个标签节点。

正则查找指定格式链接

如查找所有标签符合标签名为a,链接符合 /view/123.html的节点

soup.find_all('a', href = re.compile(r'/view/\d+\.html'))

获取节点名称

node.name

获取a节点的href属性

node['href']
node.get('href')

获取按节点的字符串内容

node.get_text()

删除节点

删除当前节点

node.extract()

删除父节点

node.parent.extract()

参考

  • https://www.cnblogs.com/my1e3/p/6622306.html