Posizione: Casa > internet >

Qual è il processo di Data Mining?

  

Il processo di data mining è uno strumento per scoprire i modelli statisticamente significative in una grande quantità di dati. Si tratta in genere cinque fasi principali, che includono la preparazione, di esplorazione dei dati, costruzione di modelli, la distribuzione, e la revisione. Ogni fase del processo comporta un diverso insieme di tecniche, ma la maggior parte utilizza una qualche forma di analisi statistiche.

Prima che il processo di data mining può iniziare, i ricercatori in genere insieme gli obiettivi di ricerca. Questa fase di preparazione di solito determina quali tipi di dati devono essere studiati, quali tecniche di data mining deve essere utilizzato, e in quale forma prenderà il risultato. Questa fase iniziale del processo può essere cruciale per la raccolta di informazioni utili.

Il prossimo passo nel processo di data mining è l'esplorazione. Questo passaggio richiede di solito la raccolta dei dati richiesti da un deposito di raccolta di informazioni o entità. Poi, gli esperti di data mining in genere preparare il set di dati grezzi per l'analisi. Questa fase consiste di solito di raccolta, di pulizia, l'organizzazione e il controllo di tutti i dati per gli errori.

Questi dati preparati di solito entra nella terza fase del processo di data mining, costruzione di modelli. Per ottenere questo risultato, i ricercatori di solito prelevare campioni piccolo test di dati e di applicare una varietà di tecniche di data mining per loro. La fase di modellazione è spesso usato per determinare il miglior metodo di analisi statistiche necessarie per ottenere i risultati desiderati.

Ci sono quattro principali tecniche che possono essere applicate nel processo di data mining. Il primo è di classificazione, che organizza i dati in gruppi o categorie predefinite. Nella seconda tecnica, chiamata clustering, i ricercatori consentire al computer di organizzare i dati in gruppi, come si sceglie. Una terza tecnica di data mining cerca associazioni tra le variabili. Il quarto aspetto tipicamente per i modelli sequenziali nei dati che possono essere utilizzati per prevedere le tendenze future.

La fase finale del processo di data mining di distribuzione. Per fare questo, le tecniche di scelta nel modello vengono applicati ai dati più grandi insieme, ed i risultati sono analizzati. Il rapporto che viene da questo passaggio è presente di solito i modelli si trovano in tutto il processo, comprese le eventuali classificazioni, raggruppamenti, associazioni, o pattern sequenziali esistenti nel set di dati.

Review è spesso un passo importante finale. Questa fase del processo coinvolge solitamente ripetendo modelli di data mining con un nuovo set di dati per assicurarsi che il set principale era il rappresentante di tutta la popolazione di dati. I risultati non possono prevedere le tendenze della popolazione più ampia, se il campione di dati non è esattamente lo rappresentano.

----------------------------------
Articolo correlato:
----------------------------------