Blog

20
Nov 2015

Lenguaje R para la gestión de grandes volúmenes de datos estadísticos

Posteado Por Catrian

EL lenguaje de programación R permite la gestión de grandes volúmenes de información estadística gracias a us variedad de librerías, su capacidad de visualización gráfica y el hecho de ser de código abierto.

Algunas de las características que han generalizado el uso de este lenguaje son su lenguaje robusto, en donde, a pesar de tener una curva de aprendizaje compleja, es robusto y efectivo para el manejo de datos estadísticos. Es orientado a objetos con una sintaxis similar a C o C++ por lo que se hace sencillo para desarrolladores familiarizados con estos lenguajes. Además es un lenguaje que está en constate evolución y con una amplia documentación. Permite una fácil preparación de los datos mediante la programación de script, lo que reduce el tiempo que se emplea en la preparación de los datos para su visualización. Gracias a su flexibilidad, permite el uso de cualquier tipo de archivo (.txt, .csv, JSON, EXCEL… ). R es un lenguaje que permite gestionar grandes volúmenes de datos gracias a la implementación de paquetes adicionales; en proyectos de gran volumen la escalabilidad es muy importante. Teniendo en cuenta que es de código abierto, las posibilidades son casi ilimitadas ya que cualquier desarrollador puede manipularlo para su proyecto específico y hacer uso de librerías adicionales disponibles en repositorios. Un aspecto muy importante de R es la visualización de datos de forma sencilla, entregando librerías específicas para graficar los datos usados.

Algunas librerías muy útiles para R son:

  • plyr: este paquete de R permite hacer operaciones en los subgrupos de un gran conjunto de datos. Dispone de distintas funciones para operar con esos datos: ddply, daply, dlply, adply o ldply.
  • reshape2: este paquete de R permite la transformación de los datos entre los formatos Ancho (Wide) y Largo (Long). Está basado en dos funciones claves como melt y cast. Melt coge los datos en formato Wide y los convierte al formato Long. La función cast hace el mismo proceso, pero al revés.
  • ggplot2: es un paquete que proporciona a R todo lo necesario para hacer gráficos de una forma asequible. Es una librería realmente potente: permite todo tipo de visualizaciones (barras, puntos, líneas, áreas…); tiene sistema de coordenadas para hacer gráficos de mapas; o escalas. ggplot2 se puede combinar con otras librerías para crear, por ejemplo, tendencias con los datos.
  • rgl: paquete para la creación de gráficos en 3D en tiempo real. Utiliza un backend de renderizado OpenGL (Open Graphics Library, una especificación estándar que define un conjunto de funciones para escribir aplicaciones de visualización de datos).
  • randomforest: es un método de clasificación mediante el uso de árboles de decisión (una técnica de machine learning estándar) aplicado a grandes volúmenes de datos. Se puede usar tanto en el aprendizaje supervisado como en el no supervisado.

Más información en la página del proyecto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

* Campo obligatorio