通过使用BeautifulSoup选择所有div兄弟姐妹 - python

时间：2020-6-20

我有一个html文件，其结构如下:

<div>
</div

<div>
</div>

<div>
  <div>
  </div>
  <div>
  </div>
  <div>
  </div>
<div>

<div>
  <div>
  </div>
</div>

我想选择所有同级div，而不在第三和第四块中选择嵌套的div。如果使用find_all()，我将得到所有div。

python大神给出的解决方案

您可以找到父元素的直接子元素:

soup.select('body > div')

获取顶级div标记下的所有body元素。

您还可以找到第一个div，然后使用Element.find_next_siblings()捕获所有匹配的同级兄弟:

first_div = soup.find('div')
all_divs = [first_div] + first_div.find_next_siblings('div')

或者，您可以使用element.children generator并对它们进行过滤:

all_divs = (elem for elem in top_level.children if getattr(elem, 'name', None) == 'div')

其中top_level是直接包含这些div元素的元素。

推荐标签：beautifulsoup, css, html, python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

来看看欧阳娜娜的周报写的说实在还是有点意思的阿里巴巴员工…

国内211美硕，非科班ee转码，拿了华为上海无线15级，…

中财大三，想找个金融行业的实习，请问一下是去银行好还是去…

谁能想到，曾经财大气粗的字节，现在沦落到大中厂校招最扣了…

男朋友跟公司的UI搞到一起去了，这女的段位特别高，怎么办…

奉劝拿了百度offer，职级t3的应届生，都别来，被坑的…

回馈下45MA的朋友们，开个帖子免费接受下咨询，军队技术…

单身北漂姑娘，看中一套460房子，首付缺口40万，月供1…

阿里被罚182亿！！！！！　　经查，阿里巴巴集团在中国境…