Breve explicación del proceso KDD

Home > Blog > Digital > Breve explicación del proceso KDD

Cuando se habla de extraer conocimientos de una ingente cantidad de datos, instantáneamente nos viene a la cabeza el término minería de datos. Aunque realmente la minería de datos es una fase más de un proceso de descubrimiento de conocimiento en base de datos conocido como KDD (Knowledge Discovery in Databases).

El proceso KDD es un proceso utilizado para llevar a cabo la extracción automatizada de conocimiento partiendo de grandes volúmenes de datos, el cual es de naturaleza iterativa, por lo tanto, es aplicable tantas veces como sea necesario hasta obtener la información necesaria.

Normalmente el proceso KDD tiene como motivación la detección de información que permita resolver los problemas o necesidades que surgen en las empresas y es a menudo solicitado por directivos y/o stakeholders. El conocimiento que se pretende extraer con el proceso KDD debe ser no trivial, implícito, previamente desconocido y potencialmente útil.

Ilustración 1. Realización de ensaIlustración 1. Realización de ensayos "Sniff" y "Spray" yos "Sniff" y "Spray"

Como puede apreciarse en la figura anterior el proceso KDD consta de las siguientes etapas:

1. Recopilación de datos

Recopilación de datos de diferentes fuentes integrándose en un único reposito de llamado data warehouse, aparte de la información interna de la organización, se puede recopilar e integrar información de fuentes externas. Los datos deben guardarse de forma segura y confiable. Los almacenes pueden ser físicos o lógicos.

La salida de esta fase es precisamente el data warehouse.

 

2. Selección, Limpieza, transformación

Una vez recopilados todos los datos, durante esta fase, se seleccionan los datos que se entienden como más importantes dentro del data warehouse y se transforman para poder procesarse con mayor facilidad. el resultado de esta fase se le conoce como vista minable.

Esta fase se descompone de tres subfases:

  • Selección de datos: Mediante técnicas de filtrado de registros y de atributos y se eliminan los datos irrelevantes para el análisis posterior.
  • Limpieza de datos: Tarea muy importante dentro de todo el proceso ya que un data warehouse que ha almacenado años y años de datos puede contener valores inexistentes o incluso valores que sí existen pero que son erróneos.
  • Transformación de datos: Esta tarea consiste en transformar los datos pre procesados ya que en la fase posterior a data Mining se aplicarán una serie de algoritmos sobre estos datos.

3. Minería de datos

Esta fase es la más representativa del proceso KDD y es habitual utilizarla para referirse a todo el proceso. En ella se aplican algoritmos de minería de datos sobre la vista minable con el objeto de obtener modelos.

Un modelo, en este contexto, es una representación simbólica y resumida de los datos analizados que permite extraer conclusiones a partir de ellos de manera cómoda y eficaz.

4. Interpretación y evaluación de los modelos obtenidos

Como entrada a esta fase, se utiliza el modelo o patrón obtenidos en la fase anterior, los cuales son analizados y evaluados para convertirse en conocimiento.

Lo último en Ensayos de laboratorio