Python: estrai l'URL dal testo
L'estrazione dell'URL si ottiene da un file di testo utilizzando un'espressione regolare. L'espressione recupera il testo ovunque corrisponda al modello. A tale scopo viene utilizzato solo il modulo re.
Esempio
Possiamo prendere un file di input contenente alcuni URL ed elaborarlo tramite il seguente programma per estrarre gli URL. Ilfindall()viene utilizzata per trovare tutte le istanze che corrispondono all'espressione regolare.
File Inout
Viene mostrato il file di input di seguito. Che contiene gli URL teo.
Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.tutorialspoint.com to learn further on a variety of subjects.
Ora, quando prendiamo il file di input sopra e lo elaboriamo tramite il seguente programma, otteniamo l'output richiesto che fornisce solo gli URL estratti dal file.
import re
with open("path\url_example.txt") as file:
for line in file:
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
print(urls)
Quando eseguiamo il programma sopra, otteniamo il seguente output:
['http://www.google.com.']
['https://www.tutorialspoint.com']