Beautiful Soup - Cercando l'albero
Esistono molti metodi Beautifulsoup, che ci consentono di cercare un albero di analisi. I due metodi più comuni e utilizzati sono find () e find_all ().
Prima di parlare di find () e find_all (), vediamo alcuni esempi di diversi filtri che puoi passare a questi metodi.
Tipi di filtri
Abbiamo diversi filtri che possiamo passare a questi metodi e la comprensione di questi filtri è fondamentale poiché questi filtri vengono utilizzati più e più volte, attraverso l'API di ricerca. Possiamo utilizzare questi filtri in base al nome del tag, ai suoi attributi, al testo di una stringa o a un misto di questi.
Una stringa
Uno dei tipi più semplici di filtro è una stringa. Passando una stringa al metodo di ricerca, Beautifulsoup eseguirà una corrispondenza con quella stringa esatta.
Il codice sottostante troverà tutti i tag <p> nel documento -
>>> markup = BeautifulSoup('<p>Top Three</p><p><pre>Programming Languages are:</pre></p><p><b>Java, Python, Cplusplus</b></p>')
>>> markup.find_all('p')
[<p>Top Three</p>, <p></p>, <p><b>Java, Python, Cplusplus</b></p>]
Espressione regolare
Puoi trovare tutti i tag che iniziano con una data stringa / tag. Prima di ciò dobbiamo importare il modulo re per utilizzare l'espressione regolare.
>>> import re
>>> markup = BeautifulSoup('<p>Top Three</p><p><pre>Programming Languages are:</pre></p><p><b>Java, Python, Cplusplus</b></p>')
>>>
>>> markup.find_all(re.compile('^p'))
[<p>Top Three</p>, <p></p>, <pre>Programming Languages are:</pre>, <p><b>Java, Python, Cplusplus</b></p>]
Elenco
Puoi passare più tag da trovare fornendo un elenco. Il codice sottostante trova tutti i tag <b> e <pre> -
>>> markup.find_all(['pre', 'b'])
[<pre>Programming Languages are:</pre>, <b>Java, Python, Cplusplus</b>]
Vero
True restituirà tutti i tag che può trovare, ma nessuna stringa da sola -
>>> markup.find_all(True)
[<html><body><p>Top Three</p><p></p><pre>Programming Languages are:</pre>
<p><b>Java, Python, Cplusplus</b> </p> </body></html>,
<body><p>Top Three</p><p></p><pre> Programming Languages are:</pre><p><b>Java, Python, Cplusplus</b></p>
</body>,
<p>Top Three</p>, <p></p>, <pre>Programming Languages are:</pre>, <p><b>Java, Python, Cplusplus</b></p>, <b>Java, Python, Cplusplus</b>]
Per restituire solo i tag dalla zuppa di cui sopra -
>>> for tag in markup.find_all(True):
(tag.name)
'html'
'body'
'p'
'p'
'pre'
'p'
'b'
trova tutto()
Puoi utilizzare find_all per estrarre tutte le occorrenze di un particolare tag dalla risposta della pagina come:
Sintassi
find_all(name, attrs, recursive, string, limit, **kwargs)
Cerchiamo di estrarre alcuni dati interessanti da IMDB- "I film più votati" di tutti i tempi.
>>> url="https://www.imdb.com/chart/top/?ref_=nv_mv_250"
>>> content = requests.get(url)
>>> soup = BeautifulSoup(content.text, 'html.parser')
#Extract title Page
>>> print(soup.find('title'))
<title>IMDb Top 250 - IMDb</title>
#Extracting main heading
>>> for heading in soup.find_all('h1'):
print(heading.text)
Top Rated Movies
#Extracting sub-heading
>>> for heading in soup.find_all('h3'):
print(heading.text)
IMDb Charts
You Have Seen
IMDb Charts
Top India Charts
Top Rated Movies by Genre
Recently Viewed
Dall'alto, possiamo vedere find_all ci darà tutti gli elementi che corrispondono ai criteri di ricerca che definiamo. Tutti i filtri che possiamo usare con find_all () possono essere usati con find () e anche altri metodi di ricerca come find_parents () o find_siblings ().
trova()
Abbiamo visto sopra, find_all () viene utilizzato per scansionare l'intero documento per trovare tutti i contenuti ma qualcosa, il requisito è trovare un solo risultato. Se sai che il documento contiene solo un tag <body>, è una perdita di tempo cercare l'intero documento. Un modo è chiamare find_all () con limit = 1 ogni volta oppure possiamo usare il metodo find () per fare lo stesso -
Sintassi
find(name, attrs, recursive, string, **kwargs)
Quindi di seguito due metodi diversi danno lo stesso risultato:
>>> soup.find_all('title',limit=1)
[<title>IMDb Top 250 - IMDb</title>]
>>>
>>> soup.find('title')
<title>IMDb Top 250 - IMDb</title>
Negli output precedenti, possiamo vedere che il metodo find_all () restituisce un elenco contenente un singolo elemento mentre il metodo find () restituisce un singolo risultato.
Un'altra differenza tra il metodo find () e find_all () è:
>>> soup.find_all('h2')
[]
>>>
>>> soup.find('h2')
Se il metodo soup.find_all () non riesce a trovare nulla, restituisce un elenco vuoto mentre find () restituisce None.
find_parents () e find_parent ()
A differenza dei metodi find_all () e find () che attraversano l'albero, guardando i discendenti dei tag, i metodi find_parents () e find_parents () fanno il contrario, attraversano l'albero verso l'alto e guardano i genitori di un tag (o di una stringa).
Sintassi
find_parents(name, attrs, string, limit, **kwargs)
find_parent(name, attrs, string, **kwargs)
>>> a_string = soup.find(string="The Godfather")
>>> a_string
'The Godfather'
>>> a_string.find_parents('a')
[<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>]
>>> a_string.find_parent('a')
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
>>> a_string.find_parent('tr')
<tr>
<td class="posterColumn">
<span data-value="2" name="rk"></span>
<span data-value="9.149038526210072" name="ir"></span>
<span data-value="6.93792E10" name="us"></span>
<span data-value="1485540" name="nv"></span>
<span data-value="-1.850961473789928" name="ur"></span>
<a href="/title/tt0068646/"> <img alt="The Godfather" height="67" src="https://m.media-amazon.com/images/M/MV5BM2MyNjYxNmUt[email protected]._V1_UY67_CR1,0,45,67_AL_.jpg" width="45"/>
</a> </td>
<td class="titleColumn">
2.
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
<span class="secondaryInfo">(1972)</span>
</td>
<td class="ratingColumn imdbRating">
<strong title="9.1 based on 1,485,540 user ratings">9.1</strong>
</td>
<td class="ratingColumn">
<div class="seen-widget seen-widget-tt0068646 pending" data-titleid="tt0068646">
<div class="boundary">
<div class="popover">
<span class="delete"> </span><ol><li>1<li>2<li>3<li>4<li>5<li>6<li>7<li>8<li>9<li>10</li>0</li></li></li></li&td;</li></li></li></li></li></ol> </div>
</div>
<div class="inline">
<div class="pending"></div>
<div class="unseeable">NOT YET RELEASED</div>
<div class="unseen"> </div>
<div class="rating"></div>
<div class="seen">Seen</div>
</div>
</div>
</td>
<td class="watchlistColumn">
<div class="wlb_ribbon" data-recordmetrics="true" data-tconst="tt0068646"></div>
</td>
</tr>
>>>
>>> a_string.find_parents('td')
[<td class="titleColumn">
2.
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
<span class="secondaryInfo">(1972)</span>
</td>]
Esistono altri otto metodi simili:
find_next_siblings(name, attrs, string, limit, **kwargs)
find_next_sibling(name, attrs, string, **kwargs)
find_previous_siblings(name, attrs, string, limit, **kwargs)
find_previous_sibling(name, attrs, string, **kwargs)
find_all_next(name, attrs, string, limit, **kwargs)
find_next(name, attrs, string, **kwargs)
find_all_previous(name, attrs, string, limit, **kwargs)
find_previous(name, attrs, string, **kwargs)
Dove,
find_next_siblings() e find_next_sibling() i metodi itereranno su tutti i fratelli dell'elemento che vengono dopo quello corrente.
find_previous_siblings() e find_previous_sibling() metodi itereranno su tutti i fratelli che vengono prima dell'elemento corrente.
find_all_next() e find_next() i metodi itereranno su tutti i tag e le stringhe che vengono dopo l'elemento corrente.
find_all_previous e find_previous() i metodi itereranno su tutti i tag e le stringhe che vengono prima dell'elemento corrente.
Selettori CSS
La libreria BeautifulSoup per supportare i selettori CSS più comunemente usati. Puoi cercare elementi usando i selettori CSS con l'aiuto del metodo select ().
Ecco alcuni esempi:
>>> soup.select('title')
[<title>IMDb Top 250 - IMDb</title>, <title>IMDb Top Rated Movies</title>]
>>>
>>> soup.select("p:nth-of-type(1)")
[<p>The Top Rated Movie list only includes theatrical features.</p>, <p> class="imdb-footer__copyright _2-iNNCFskmr4l2OFN2DRsf">© 1990-2019 by IMDb.com, Inc.</p>]
>>> len(soup.select("p:nth-of-type(1)"))
2
>>> len(soup.select("a"))
609
>>> len(soup.select("p"))
2
>>> soup.select("html head title")
[<title>IMDb Top 250 - IMDb</title>, <title>IMDb Top Rated Movies</title>]
>>> soup.select("head > title")
[<title>IMDb Top 250 - IMDb</title>]
#print HTML code of the tenth li elemnet
>>> soup.select("li:nth-of-type(10)")
[<li class="subnav_item_main">
<a href="/search/title?genres=film_noir&sort=user_rating,desc&title_type=feature&num_votes=25000,">Film-Noir
</a> </li>]