Data mining - Mining World Wide Web

Il World Wide Web contiene enormi quantità di informazioni che forniscono una ricca fonte per il data mining.

Sfide nel web mining

Il Web pone grandi sfide per la scoperta di risorse e conoscenze sulla base delle seguenti osservazioni:

  • The web is too huge- La dimensione del Web è enorme e in rapido aumento. Sembra che il Web sia troppo vasto per il data warehousing e il data mining.

  • Complexity of Web pages- Le pagine web non hanno una struttura unificante. Sono molto complessi rispetto ai tradizionali documenti di testo. Ci sono enormi quantità di documenti nella libreria digitale del web. Queste librerie non sono disposte in base a un particolare ordine ordinato.

  • Web is dynamic information source- Le informazioni sul web vengono aggiornate rapidamente. I dati come notizie, mercati azionari, meteo, sport, acquisti, ecc. Vengono aggiornati regolarmente.

  • Diversity of user communities- La comunità di utenti sul Web è in rapida espansione. Questi utenti hanno background, interessi e scopi di utilizzo diversi. Ci sono più di 100 milioni di postazioni di lavoro connesse a Internet e ancora in rapido aumento.

  • Relevancy of Information - Si ritiene che una determinata persona sia generalmente interessata solo a una piccola porzione del web, mentre il resto della porzione del web contiene le informazioni che non sono rilevanti per l'utente e possono sommergere i risultati desiderati.

Struttura del layout della pagina Web di data mining

La struttura di base della pagina web è basata sul Document Object Model (DOM). La struttura DOM si riferisce a una struttura ad albero in cui il tag HTML nella pagina corrisponde a un nodo nell'albero DOM. Possiamo segmentare la pagina web utilizzando tag predefiniti in HTML. La sintassi HTML è flessibile, quindi le pagine web non seguono le specifiche W3C. Non seguire le specifiche del W3C può causare errori nella struttura ad albero DOM.

La struttura DOM è stata inizialmente introdotta per la presentazione nel browser e non per la descrizione della struttura semantica della pagina web. La struttura DOM non può identificare correttamente la relazione semantica tra le diverse parti di una pagina web.

Segmentazione della pagina basata sulla visione (VIPS)

  • Lo scopo di VIPS è estrarre la struttura semantica di una pagina web in base alla sua presentazione visiva.

  • Una tale struttura semantica corrisponde a una struttura ad albero. In questo albero ogni nodo corrisponde a un blocco.

  • A ogni nodo viene assegnato un valore. Questo valore è chiamato grado di coerenza. Questo valore viene assegnato per indicare il contenuto coerente nel blocco in base alla percezione visiva.

  • L'algoritmo VIPS estrae prima tutti i blocchi appropriati dall'albero HTML DOM. Dopodiché trova i separatori tra questi blocchi.

  • I separatori si riferiscono alle linee orizzontali o verticali in una pagina web che si incrociano visivamente senza blocchi.

  • La semantica della pagina web è costruita sulla base di questi blocchi.

La figura seguente mostra la procedura dell'algoritmo VIPS -