Cursos BIG DATA

Cursos BIG DATA

Big Data Analytics (intensivo)

  • Fecha: Miércoles 5 de abril
  • Horario: 9:30 am – 7 pm
  • Inversión: $4,000*
  • Comunidad UNAM: $3,000*
  • Sede: Centro de Capacitación SaXsa

*más IVA, en caso de requerir factura

Streaming Analytics

  • Fecha: Sábado 22 de abril
  • Horario: 9 am – 4 pm
  • Inversión: $4,000*
  • Comunidad UNAM: $3,000*
  • Sede: Centro de Capacitación SaXsa

*más IVA, en caso de requerir factura

Big data Analytics

  • Fecha: Sábado 20 y 27 de mayo y 3 de junio
  • Horario: 8 am – 3 pm
  • Inversión: $12,000*
  • Comunidad UNAM: $9,000*
  • Sede: Centro de Capacitación SaXsa

*más IVA, en caso de requerir factura

201704_cursosAbrilyMayo







BIG DATA ANALYTICS

BIG DATA ANALYTICS

¿Qué es?

Big Data analytics permite el estudio de grandes volúmenes de datos, buscando extraer aspectos estratégicos y detectar tendencias, patrones y correlaciones, que serían imposibles con las herramientas tecnológicas convencionales.

¿Para qué?

Dado el gran número de datos que se generan hoy en día, existen nuevas oportunidades en los datos, que nos permitirán innovar, mejorar nuestra operación, servicios e investigaciones, así como buscar ventajas competitivas, entre otros beneficios.

¿Qué aprenderás?

Al término de este curso, usted será capaz de ejecutar aplicaciones en un ambiente distribuido con Spark y Hadoop HDFS, recibiendo datos en streaming.

Utilizar algoritmos de Machine Learning e implementarlos para sus aplicaciones empresariales.

Generar reportes gerenciales a través de la visualización de la información con bibliotecas como Boken y software de BI comerciales como Tableau.

Requisitos

Se requiere conocimientos básicos de programación en cualquier lenguaje, de preferencia en Shell o Scala o Python o R o Java.

Temario

  • Fundamentos de SQL Spark
  • Spark Avanzado
  • Spark Streaming
  • Algoritmos de Aprendizaje Automatizado (ML)
  • Visualización de datos





Streaming Analytics

Streaming Analytics, BIG DATA en tiempo real

Temario

  • T1. Fundamentos de las Herramientas Big Data HDFS y Spark
  • T2. Manejo de torrentes de datos en tiempo Real con Spark Streaming
  • T3. Integración de las Heramientas Spark SQL y Spark Streaming para filtros de datos en tiempo real
  • T4. Visualización de datos de Twitter con Jupyter
  • T5. Análisis de Sentimientos de Twitter con Spark Streaming
  • T6. Aplicación de Algoritmos de Aprendizaje Automatizado en tiempo real con Spark Streaming

PublicidadSteramingAnalytics.001
PublicidadSteramingAnalytics.002







BIG DATA ANALYTICS

Curso BIG DATA ANALYTICS utilizando SQL Spark y Machine Learning

¿Qué es?

Big Data analytics permite el estudio de grandes volúmenes de datos, buscando extraer aspectos estratégicos y detectar tendencias, patrones y correlaciones, que serían imposibles con las herramientas tecnológicas convencionales.

¿Porqué Apache Spark?

Dado el gran número de datos que se generan hoy en día, existen nuevas oportunidades en los datos, que nos permitirán innovar, mejorar nuestra operación, servicios e investigaciones, así como buscar ventajas competitivas, entre otros beneficios.

¿Qué aprenderás?

Al término de este curso, usted será capaz de ejecutar aplicaciones en un ambiente distribuido con Spark y Hadoop HDFS, recibiendo datos en streaming.

Utilizar algoritmos de Machine Learning e implementarlos para sus aplicaciones empresariales.

Generar reportes gerenciales a través de la visualización de la información con bibliotecas como Boken y software de BI comerciales como Tableau.

Requisitos

Se requiere conocimientos básicos de programación en cualquier lenguaje, de preferencia en Shell o Scala o Python o R o Java.






El Mundo BIG DATA

Curso BigData en un ambiente Hadoop HDFS con Apache Spark utilizando los lenguajes de programación Scala y Python

¿Qué es?

Apache Spark, el ambiente de mayor desarrollo en modo cluster de los profesionales de la computación.

¿Porqué Apache Spark?

Dado el gran número de aplicaciones de la Ciencia de datos en procesos comerciales y científicos, la necesidad de contar con desarrolladores de Apache Spark y de sus aplicaciones Big Data cada es mas frecuente

¿Qué Aprenderás?

Este curso de Apache Spark le enseña lo básico para trabajar con el lenguaje Scala y el lenguaje Python en modo interactivo y en lotes (batch). Le proporciona las bases necesarias para el uso básico en Spark y sus bibliotecas, en particular Spark SQL.

Al termino del curso, usted será capaz de escribir y ejecutar aplicaciones básicas en un ambiente Apache Spark en modo pseudo-clúster y en modo clúster.

Requisitos

Se requiere conocimientos básicos de programación en cualquier lenguaje, de preferencia en Shell o Scala o Python o R o Java.

Se recomienda que cada participante contar con un equipo tipo Intel i5 con 8 Gb en RAM, para la instalación de una máquina Virtual con Apache HDFS y Spark, y así poder al termino del curso, tener en su equipo un ambiente de pseudo-cluster Apache Hadoop HDFS y Spark.








Impacto de las matemáticas en el ámbito de la contaduría, la administración y la informática

Como parte de las actividades correspondientes a la 14a. Semana Académica Interdisciplinaria de la Facultad de Contaduría y Administración de la UNAM el Dr. Gabriel Guerrero Reyes, fundador de saXsa estará presente con la Conferencia Magistral:

Impacto de las matemáticas en el ámbito de la contaduría, la administración y la informática

La cita es el día jueves, 8 de septiembre de 2016 en el Auditorio C.P. Carlos Pérez del Toro de 16:00 a 18:00

Conf_FCA_UNAM_20160908

Curso BigData en un ambiente Hadoop HDFS con Apache Spark

Curso BigData en un ambiente Hadoop HDFS con Apache Spark utilizando los lenguajes de programación Scala y Python

¿Porqué Apache Spark?

Dado el gran número de aplicaciones de la Ciencia de datos en procesos comerciales y científicos, la necesidad de contar con desarrolladores de Apache Spark y de sus aplicaciones, cada es mas frecuente y los científicos de datos en ambiente Apache Spark cada día son mas buscados.

Aprender los fundamentos y la arquitectura Apache Spark, el ambiente de mayor desarrollo en modo clúster de los profesionales de la computación, es cada día mas necesario.

¿Qué se ofrece en el curso?

Este curso de Apache Spark le enseña lo básico para trabajar con el lenguaje Scala y el lenguaje Python en modo interactivo y en lotes (batch). Le proporciona las bases necesarias para el uso básico en Spark y sus bibliotecas, en particular Spark SQL.

Usted aprende los fundamentos de la arquitectura y modelo de programación del ambiente de computo distribuido Spark, incluyendo las API de uso común en Scala y Python para la ejecución de aplicaciones en modo interactivo con el SparkShell y PySpark y auto-suficientes (standalone) por medio de la herramienta spark-submit en lenguajes Scala y Python.

Este curso también explica cómo utilizar la interfaz web de Apache Hadoop HDFS, que permite el monitoreo del nodo de nombre o maestra del cluster (namenode) y cada uno de sus nodos de almacenamiento o esclavas (datanodes), asi como el análisis de la configuración de los sistemas de archivos y espacio de cada uno de los nodos (talla bloque y factor de replicación) del HDFS.

Este curso también explica cómo utilizar la interfaz web de Apache Spark, que permite el monitoreo del controlador del cluster (driver) y cada uno de sus nodos de trabajo (worker), asi como el análisis de la configuración de los núcleos (cores) de ejecución y memoria RAM de cada uno de los nodos.

El enfoque de este curso se centra en el núcleo básico de Spark (Spark Core) y en uso de las bibliotecas Spark SQL, que nos ofrece la ejecución de enunciados SQL en forma distribuida en el cluster.

Asimismo se ofrece una interacción para el manejo de formatos de almacenamiento como Apache Parquet de resultado procesados en Apache Spark.

Después de completar este curso, usted será capaz de escribir y ejecutar aplicaciones básicas en un ambiente Apache Spark en modo pseudo-cluster y en modo cluster.

Requisitos

Se requiere conocimientos básicos de programación en cualquier lenguaje, de preferencia en Shell o Scala o Python o R o Java.

Todos los ejercicios usan sea el ambiente interactivo Spark en Python, PySpark, sea el ambiente interactivo de Spark en Scala, SparkShell.

En el curso se ofrecen los fundamentos de los lenguajes Scala y Python para uso del ambiente Apache Spark, por lo que no se requiere un conocimiento previo de estos lenguajes de programación.

Se recomienda que cada participante contar con un equipo tipo Intel i5 con 8 Gb en RAM, para la instalación de una máquina Virtual con Apache HDFS y Spark, y así poder al termino del curso, tener en su equipo un ambiente de pseudo-cluster Apache Hadoop HDFS y Spark.

Plan detallado
  • Introducción al paradigma de Grandes volúmenes de datos (BigData)
  • El modelo de Gobierno de Grandes volúmenes de datos (BigData Governance)
  • El almacenamiento con Apache Hadoop con el HDFS (Hadoop Distributed File System)
  • Uso básico de Apache Hadoop: subir y extraer información del HDFS
  • Aspectos básicos de configuración del HDFS: Talla bloque y Factor de replicación
  • Comandos básicos de arranque (start-dfs) y finalización (stop-dfs) de servicios de Apache Hadoop
  • Uso de la Interfaz de Usuario Web (Web UI) de monitoreo de Apache Hadoop HDFS
  • Los archivos de configuración de Apache Hadoop HDFS
  • ¿Por qué Apache Spark? El ambiente de procesamiento Apache Spark es una alternativa al cómputo distribuido tolerante a fallas.
  • Comandos básicos de arranque (start-spark) y finalización (stop-spark) de servicios de Apache Spark
  • Uso de la Interfaz de Usuario Web (Web UI) de monitoreo de Apache Spark
  • Los archivos de configuración de Apache Spark
  • El concepto base en Spark: El RDD (Resilient Distributed Dataset), como una evolución al paradigma Llave/Valor de los Arboles binarios balanceados (Btree , estructuras AVL) y las bibliotecas de BerkeleyDB
  • Las ventajas y soluciones del ambiente de procesamiento distribuido Apache Spark
  • Las componentes básicas del motor de procesamiento Apache Spark: SQL, GraphX, Streaming y ML (Machine Learning)
  • El Ecosistema de aplicaciones Spark y su colección de aplicaciones BDAS (Berkeley Data Analytics Stack)
  • Introducción al lenguaje de programación Scala en un ambiente del shell Scala en un equipo Linux
  • Uso de programas Scala a un ambiente interactivo en Apache Spark utilizando el ambiente interactivo Scala en Spark, es decir el SparkShell en modo pseudo-cluster en el equipo personal del participante y en modo cluster en una arquitectura de varios nodos
  • Creación de RDDs a partir de Archivos de datos en formatos CSV, JSON y XML en Scala
  • Introducción al lenguaje de programación Python 2.*, en un ambiente del shell Python en un equipo Linux
  • Uso de programas Python a un ambiente interactivo en Apache Spark utilizando el ambiente interactivo Python en Spark, es decir el PySpark, en modo pseudo cluster en el equipo personal del participante y en modo cluster en una arquitectura de varios nodos
  • Creación de RDDs a partir de Archivos de datos en formatos CSV, JSON y XML en Python
  • Introducción a la biblioteca Apache Spark SQL para la ejecución de enunciados SQL en un ambiente de Grandes volúmenes de datos
  • Uso del concepto de DataFrames para el procesamiento de tablas con SQL y lectura/escritura de datos en el formato Apache Parquet con Scala y Python
  • Introducción al ambiente de generación de código SBT y MAVEN para la creación de aplicaciones auto-suficientes
  • Arquitectura de una aplicación autosuficiente (standalone) para ejecución en un ambiente de computo distribuido en Spark, en lenguaje Scala utilizando la herramienta spark-submit
  • Arquitectura de una aplicación autosuficiente (standalone) para ejecución en un ambiente de computo distribuido en Spark, en lenguaje Python utilizando la herramienta spark-submit





Conferencia Aplicaciones de Ciencia de datos en un ambiente BigData

Fecha: Miércoles 17 de agosto 2016
Hora: 11:00 – 14:00
Lugar: Auditorio Carlos Graef Fernández, Amoxcalli
Facultad de Ciencias de la UNAM, Ciudad Universitaria, Ciudad de Mexico (mapa)

Dr Gabriel GUERRERO, saXsa

Mat Reymond Hall, Cloudera Mexico

carta
PASEN LA VOZ, se mostraran aplicaciones con Spark en Scala y en Python en un cluster de equipos pequeños para demostrar que SI ES POSIBLE aplicar estos instrumentos BigData en problemas que la Ciencia de datos ha planteado desde hace varios lustros, principalemente en su rama de Aprendizaje automatizado (Machine Learning) y sus maravillosas investigaciones que utilizan la matematica y estadistica.

Hoy el ambiente Spark, con auxilio de lenguajes como Scala y Python en conjuncion con la matematica del mundo Machine Learning, estan ofreciendo una catapulta que permitira LANZAR PIEDRAS tecnologicas a distancias inusitadas.

unnamed