Machine learning per l'analisi dei dati
L'apprendimento automatico è un sottocampo dell'informatica che si occupa di attività come riconoscimento di schemi, visione artificiale, riconoscimento vocale, analisi del testo e ha un forte legame con le statistiche e l'ottimizzazione matematica. Le applicazioni includono lo sviluppo di motori di ricerca, filtri antispam, riconoscimento ottico dei caratteri (OCR) tra gli altri. I confini tra data mining, riconoscimento di modelli e campo dell'apprendimento statistico non sono chiari e sostanzialmente si riferiscono tutti a problemi simili.
L'apprendimento automatico può essere suddiviso in due tipi di attività:
- Apprendimento supervisionato
- Apprendimento senza supervisione
Apprendimento supervisionato
L'apprendimento supervisionato si riferisce a un tipo di problema in cui sono presenti dati di input definiti come matrice X e siamo interessati a prevedere una risposta y . Dove X = {x 1 , x 2 ,…, x n } ha n predittori e due valori y = {c 1 , c 2 } .
Un'applicazione di esempio potrebbe essere quella di prevedere la probabilità di un utente Web di fare clic sugli annunci utilizzando le caratteristiche demografiche come predittori. Questo è spesso chiamato per prevedere la percentuale di clic (CTR). Quindi y = {clic, non - clic} e i predittori potrebbero essere l'indirizzo IP utilizzato, il giorno in cui è entrato nel sito, la città dell'utente, il paese tra le altre funzionalità che potrebbero essere disponibili.
Apprendimento senza supervisione
L'apprendimento senza supervisione affronta il problema di trovare gruppi simili tra loro senza avere una classe da cui imparare. Esistono diversi approcci al compito di apprendere una mappatura dai predittori per trovare gruppi che condividono istanze simili in ogni gruppo e sono diversi tra loro.
Un esempio di applicazione dell'apprendimento senza supervisione è la segmentazione dei clienti. Ad esempio, nel settore delle telecomunicazioni un compito comune è segmentare gli utenti in base all'utilizzo che danno al telefono. Ciò consentirebbe al reparto marketing di indirizzare ogni gruppo con un prodotto diverso.