Minería de datos con Weka

Photo by Andrea Lightfoot on Unsplash

La aplicación Weka, desarrollada por la Universidad de Waikato, en Nueva Zelanda, es una aplicación de minería de datos, de software libre, bajo la licencia GNU (General Public License).

Esta universidad, publicó el libro “Data Mining: Practical Machine Learning Tools and Techniques”, y crearon el Weka MOOC para quien quiera aprender sobre estas herramientas.

Weka soporta algunas de las tareas estándard que se llevan a cabo en la minería de datos, como por ejemplo:

  • Pre-procesado de datos: Revisar el formato de los datos, cómo están escritos, cómo están codificados, si todos tienen o no el mismo formato, si son o no datos comparables, si están o no dentro de los mismo rangos de valores, si hay huecos vacíos, si hay datos redundantes, etc. Revisas la calidad de los datos con los que trabajas. Es una de las tareas más importantes, porque son los cimientos sobre los que vas a construir tus análisis.
  • Clustering o agrupación de datos: Creas grupos de datos, y al grupo lo llamas “cluster”. Los agrupas por características similares. Por ejemplo, las técnicas de ontologías en bases de datos agrupan datos para estandarizar las consultas y encontrar con más facilidad lo que buscas. Realmente, la ontología podría surgir o no después de los análisis de minería de datos, porque aún no sabes qué relación existe entre los datos. Lo que haces con el clustering es buscar esos grupos.
  • Clasificación estadística: Este trabajo consiste en identificar a qué grupo de categorías pertenece una observación realizada. Una clasificación es un ejemplo de reconocimiento de patrones. Este trabajo se puede realizar cuando partes de un grupo de observaciones que ya se han identificado correctamente, y las siguientes observaciones las comparas con este grupo de partida.

Weka tiene muchas más funcionalidades. En 2006, Pentaho Corporation compró una licencia exclusiva para usar Weka para inteligencia de negocio (BI) en sus aplicaciones. En 2015, Hitachi Data Systems compró Pentaho. En su wiki puedes consultar muchísima información.

Para especialistas sobre estas herramientas, les puede interesar el libro “The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science” de la editorial O’Reilly publicado recientemente, en marzo 2019. También puede ser interesante MapReduce y Hadoop.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.