Big Data: Arquitectura y Análisis de Datos
Cada minuto de cada día se generan millones de datos en bruto que necesitan ser recopilados, analizados, gestionados y de los cuales se obtiene valor. ¿Cómo se logra? Gracias al Big Data, una tecnología que permite establecer patrones y comportamientos y ayudar así al tejido empresarial en la toma de decisiones. Es por eso que los Data Scientist son una figura fundamental hoy en día y la demanda de profesionales cualificados es constante.
Con este curso podrás obtener la certificación de Data Science de la mano de IBM
Además, tendrás acceso al curso de Data Science de IBM, una de las empresas más importantes del sector. Un total de 75 horas, repartidas en clases teóricas, laboratorios y estudios de caso con las que obtendrás experiencia técnica para ser un hacha del análisis de datos. ¿Te parece poco? Pues cursándolo tendrás la posibilidad de obtener el certificado oficial.
Objetivos
Adentrar al alumno en el mundo de la programación
Familiarizarse con el ecosistema Big Data y cómo usarlo en la resolución de problemas
Visualizar los datos de una manera correcta para conseguir una clara interpretación de los mismos
Conocer y poner en práctica las diferentes técnicas para la explotación de datos
Preparar proyectos orientados al Big Data incluyendo los elementos fundamentales
Plan de estudios
Big Data: arquitectura y análisis de datos
Módulo 1: introducción al Big Data
Ecosistema Big Data
Definición de componentes y arquitectura
Disponibilidad, Escalabilidad y Resiliencia
Introducción a Hadoop y MapReduce
Estrategias Basadas en Datos
Cuadros de Mando (Dashboards)
Business Intelligence vs Big Data
Entornos de procesamiento
Cloud Computing
Internet de las Cosas (IoT)
Casos de uso de Big Data: ejemplos en la industria
Módulo 2: El dato y su ciclo de vida
Datos
El Dato
Calidad del dato
Derechos sobre los datos
Ciclo de vida del dato
Fuentes de datos
Adquisición de datos
Tratamiento, Carga y procesamiento
Almacenamiento de datos
Análisis para la explotación
Visualización y Storytelling para la explotación
La selección de los elementos visuales
Toma de decisiones
Módulo 3: Almacenamiento escalable de datos
Sistemas distribuidos (Hadoop)
Bases de datos no estructuradas (MongoDB)
Bases de datos de grafos (Neo4j o Spark graph x)
Módulo 4: Arquitectura Big Data
El ecosistema Hadoop
Introducción a Hadoop
Herramientas del ecosistema Hadoop
Cluster y sistemas distribuidos (HDFS, MapReduce)
Análisis de datos con Hive y Pig
Procesamiento de datos con Spark
Spark RDD (Resilient Distributed Datsets)
Spark Streaming
Spark SQL
Módulo 5: Análisis para la exportación de dato
Perfiles de datos
Científicos de datos
Ingeniero de datos
Análisis Exploratorio de datos
Estadística descriptiva
Distribución de los datos
Exploración de datos categóricos y binarios
Correlación
Exploración de 2 o más variables
Técnicas de muestreo de datos
Selección aleatoria
Selección Bias
Selección por distribución estadística
Contraste de hipótesis
Testeo de muestras A/B
Testeo de hipótesis
Significancia estadística y P-value
P-Value
Regresión y Predicción
Regresión Linear
Regresión Multilineal
Interpretar los resultados de una regresión
Predecir usando regresión
Aprendizaje Supervisado
Conceptos
Algoritmos: Arboles de decisión
Aprendizaje No supervisado
Componentes principales
Algoritmos: K-Means, Clusters Jerárquicos
Introducción al Deep Learning
Conceptos fundamentales
Redes Neuronales
Módulo 6: Presentación proyectos Big Data y storytelling
Presentación de un proyecto big data
La importancia del contexto
La audiencia y su importancia
Componentes para la presentación de un proyecto Big Data
Ideas de diseño