Casos de Negocios

BIG-DATA.

Introducción

El término Big Data se ha hecho muy popular en los últimos dos a tres años, pero lo cierto es que la evolución de esta terminología que parecía algo tan sencillo como la unión de dos palabras comunes, se ha dado en más de 15 años hasta suponer el peso y la importancia tan significativa que hoy en día tiene en el mundo de la computación, el cloud computing y en general no solo la internet, sino la forma en que vivimos. Y es que Big Data poco a poco está siendo implementado en cada vez más aspectos de nuestra vida cotidiana, sin que nos percatemos.

Desde algo tan sencillo como enviar un Tweet, comprar un producto en Amazon o descargar el último sencillo de tu banda favorita en iTunes, Big Data está presente en nuestro día a día ya que al realizar una acción como estas que consideramos tan sencillas, estamos ofreciendo información importante a alguien, que puede y será aprovechada.

Big Data es el almacenamiento y sobre todo análisis de datos e información proveída por las personas comunes y corrientes a través de ese sin fin de plataformas de comunicaciones que utilizamos día tras día, desde internet hasta algo tan sencillo como una llamada telefónica, o el envío de un tradicional SMS.

La cantidad de datos que día a día enviamos y recibimos es increíble. Eric Schmidt, presidente administrativo de Google, asegura que los estudios de su empresa estiman que cada 48 horas generamos tantos datos en internet, como los que ha generado la humanidad desde el inicio de la civilización hasta el año 2003. Eso es, mucho. Demasiado, sencillamente. Toda esta información no desaparece, sino que es analizada por supercomputadores y servidores cada vez más potentes, que proveerán a empresas u organizaciones de información útil para sus fines.

Gracias a estos datos, se puede mejorar la planificación urbana de una ciudad, o preparar hospitales ante brotes de enfermedades.

WalMart.

Algunos establecimientos utilizan los datos de las compras en distintos momentos para mejorar la efectividad y posicionamiento de algunos productos. Lee Scott actual presidente y director ejecutivo de Walmart explica que según el análisis de datos (gracias a Big Data) de compras al momento de una tormenta, las ventas de snacks aumentaban considerablemente en horas previas a este evento natural. Por ello, en algunos establecimientos en Estados Unidos en días de tormenta colocan anaqueles de snacks cercanos a las linternas y baterías, o alimentos enlatados. Simple comercialización aprovechando datos.

http://www.starmedia.com/temas/walmart/noticias/

 

Banamex

Banamex Big-Data en las transacciones diarias.

El banco Nacional de México Banamex ha emprendido una campaña de análisis de información acerca de las tendencias de compras de sus clientes con tarjetas de crédito.

Así lo han informado directivos de esta institución bancaria. “la información obtenida de este estudio ha sido de gran relevancia, para nosotros ha sido sorprendente observar que desde los primeros días de esta iniciativa ya estábamos obtenido información aplicable a nuestra operación diaria, es importante anunciar dichos hallazgos deberán traducirse en mejoras continuas para nuestros clientes”. Ahora podemos conocer las tendencias de compras de nuestros clientes  y traducir esto en descuentos y promociones.

https://www.google.com.mx/#q=BANAMEX+NOTICIAS&tbm=nws

 

Gobierno

La librería del Congreso en Estados Unidos está llevando un proyecto basado en el registro de tweets para en el futuro conocer cómo vivían las personas en el país, de qué hablaban y en general qué opinaban. Almacenan un promedio de 20 millones de tweets por hora.

El centro de control de enfermedades en Estados Unidos (CDC) está realizando un estudio basado en las búsquedas de Google para prevenir y realizar preparativos ante un brote de un virus como la Influenza. Sencillamente considerando búsquedas constantes de tipo “Mi hijo está enfermo” pueden prevenir y adelantarse a un brote, y preparar los hospitales de la zona ante ello.

La ONU está llevando a cabo un estudio para ayudar a solventar la pobreza en África, ubicando las zonas con más tendencia al desempleo basados en datos de redes sociales y medios de información.

http://www.eluniversal.com.mx/computacion-tecno/

 

El “lado oscuro” de Big Data

Espionaje de la NSA

Por supuesto, no todo puede ser bueno con respecto a esta tecnología que supone el análisis de todos los datos que generamos diariamente desde cualquier dispositivo, o incluso al comprar cosas en un supermercado (y sin saberlo). Big Data supone también un riesgo enorme a nuestra privacidad y seguridad, dependiendo de cómo sea utilizada.

Por ejemplo, si hablamos de acumulación de datos e información sin permiso del usuario, podríamos estar hablando de PRISM, el programa de espionaje y vigilancia doméstica revelado por Edward Snowden, que la NSA mantiene con ciudadanos no solo de Estados Unidos sino de todo el mundo, a través de servicios tan comunes y populares como Facebook o un correo electrónico Gmail.

Cada vez es más difícil separar nuestra vida digital de la personalAún así, y con esto no intento justificar nada, dado que rechazo por completo algo tan invasivo como PRISM, quizás un programa de este tipo es algo que podríamos esperar al compartir libremente tanta información a través de la web. Quizás. Esto es algo que también nos dieron a entender al asistir al EMC World 2013, donde el presidente de RSA Security aseguró que para el año 2020 la privacidad en línea será un concepto obsoleto, una afirmación bastante polémica y severa, pero que a estas alturas ya comenzamos a ver sus bases y motivos.

La evolución y sobre todo la expansión de Big Data es inminente e inevitable. Muchísimas empresas incluso basan su modelo de negocio en esta tecnología. Lo importante está en saber cómo aprovecharla y establecer ciertos límites ante la invasión de privacidad que podría ir de la mano a esta tendencia. El futuro, además de digital, está basado en datos y más datos, y por ello Big Data es y será gran parte de nuestras vidas de ahora en adelante.

http://www.globalmedia.mx/blogs/hectortrejo/nota.php?id=459

 

Casos de éxito en la aplicación de Big Data

Sector Gubernamental

La administración pública hace uso efectivo de grandes volúmenes de datos en Italia

En la región del Piamonte en el noroeste de Italia, la administración pública de la región ha empezado a hacer un uso eficaz de grandes volúmenes de datos en una variedad de formas, utilizando soluciones de SAS, estos conjuntos de datos grandes y complejos se acumularon por organismos del sector público, de forma habitual.

 

El trabajo para lograr esto ha sido liderado por el CSI-Piemonte consorcio, que es propiedad de 96 organizaciones de la administración pública sino que opera bajo la forma de una empresa. El consorcio es una de las mayores y más importantes entidades de TI de Italia. Emplea aproximadamente a 1.100 personas y su facturación supera los 160 millones de euros (EE.UU. $ 207 millones).

“Planificamos y desarrollamos servicios públicos innovadores que hacen la vida más fácil para los ciudadanos y las empresas, y facilitar y acelerar las negociaciones con la administración pública”, explica Paola Leproni, Jefe del Área de Gestión de la Gobernabilidad de CSI-Piemonte, al hablar en un seminario de grandes datos SAS .

CSI también ayuda a estas entidades públicas a cooperar, compartir las mejores prácticas y optimizar sus proceses internos. Como resultado, se puede ahorrar tiempo, reducir costos y satisfacer las necesidades de sus ciudadanos. Además, CSI fomenta la participación de las empresas locales en proyectos del sector público y ayuda a responder a las licitaciones. También es compatible con su coche a diferenciar y cooperar.

CSI ha estado utilizando soluciones de SAS hace más de 30 años. Su gama de herramientas SAS es una de las más amplias de Europa, y emplea a más de 70 expertos de SAS.

Hacer pleno uso de grandes volúmenes de datos

en la gestión de datos, dice Leproni, CSI ha pasado por diferentes etapas de desarrollo durante un largo período. Estas etapas van desde registros impresos, bases de datos operacionales y los bancos de datos de la situación actual, en la CSI, por ejemplo, los enlaces de datos junto producidos por numerosas aplicaciones web y recoge los datos de los ciudadanos y de los sensores que monitorean el medio ambiente.

En los últimos años, uno de los principales objetivos de la CSI ha sido ayudar a las entidades de la administración de datos públicas de acciones entre ellos. Esto implicó que se crea una base de datos única de la administración pública regional.

Después de esto, CSI empezó a distribuir los datos maestros de las organizaciones públicas y de desarrollar el uso conjunto de los datos. Y también comenzó a compartir los datos abiertas a través de Internet.

 

Sin embargo, Leproni señala que el volumen de datos está creciendo más rápido que la velocidad a la que se está utilizando. En CSI ya no hablan sólo de datos en general, pero también de  grandes volúmenes de datos , muchos de los cuales viene a través de los medios de comunicación, entretenimiento, salud, vigilancia por video y los medios sociales.

“Creemos que es muy importante ser capaz de gestionar todos estos datos”, dice Leproni.

Diferentes sectores producen diferentes cantidades y tipos de datos grandes. Los bancos, por ejemplo, producen una gran cantidad de datos numéricos, pero menos en el modo de vídeo, datos gráficos y de audio. Los medios de comunicación, por otra parte, produce una abundancia de todos los tipos de datos.

En algunos sectores, los beneficios potenciales de grandes volúmenes de datos son mayores que en otros, señala Leproni.

“La administración pública está en una posición particularmente buena para hacer uso de grandes volúmenes de datos, por lo que esta será nuestra misión en el futuro”, dice Leproni. “Queremos hacer cada vez un mejor uso de grandes volúmenes de datos.” nuevo poder de análisis , las entidades de la administración pública en la región de Piamonte tiene un total de 1.338 bases de datos convencionales, según Leproni. Si las bases de datos están organizados por tema, el número aumenta a 1485, debido a que hay una gran cantidad de bases de datos multisubject.

CSI ya ha comenzado a gestionar varias nuevas categorías grandes de datos, como la biblioteca digital, cuidados de datos de imágenes pictóricas de la salud, de transmisión de datos y datos de sensores sobre el medio ambiente. También distribuye esta información para las organizaciones públicas a utilizar.

“También tenemos como objetivo crear vínculos entre éste y los datos convencionales, por lo que podemos obtener poder analítico fresco de ambos”, dice Leproni.

En CSI, la vista es que el BI tradicional se está convirtiendo en la ciencia de datos, ya que los volúmenes de datos están creciendo de manera exponencial y un nuevo tipo de datos que se está convirtiendo en disponible para el análisis, y porque las herramientas más avanzadas y considerablemente mayor potencia de procesamiento disponibles para el análisis. Para ello, CSI requiere nuevos tipos de expertos que son capaces de generar valor de negocio de los nuevos tipos de datos, dice Leproni.

“Es esencial que podemos convertir lo que es puramente de datos e información en conocimiento y la inteligencia”, añade Leproni. “Creemos que la visualización de datos crecerá rápidamente. Queremos optimizar todos nuestros procesos y hacer esto mediante la visualización de datos”.

Referencia: http://www.sas.com/success/csi-piemonte-big-data.html


Sector Salud

Hoy en día, la atención sanitaria en los EE.UU. es un mercado de $ 2.6 billón. Según informes recientes, por lo menos $ 600-850 billion del gasto sanitario se destina a ineficiencias incrustados que aumentan el costo y disminuye la calidad general de la salud pública.

Estas deficiencias incluyen el uso no justificado de los servicios sanitarios, el fraude y el abuso criminal, ineficiencias administrativas, la ineficiencia de proveedores, como los errores médicos, la falta de atención coordinada en general, y las condiciones prevenibles / cuidado de evitar.

En un intento de hacer frente a estos desafíos, los organismos gubernamentales se inundan en un maremoto de información biomédica. No es raro ver a los hospitales y cadenas de hospitales tratan petabyte (10 15 bytes) de datos de escala fija cuando revisan todos sus registros electrónicos.

Según Graham Hughes, director de marketing del Centro de SAS Analytics para la salud y perspectivas, los datos de salud de EE.UU. conjuntos alcanzó 150 exabytes (10 18 bytes) en 2011. Para el contexto, 5 exabytes de datos podrían contener todas las palabras jamás habladas por los seres humanos. A este paso, Big Data pronto lleguen a la zetabyte (10 21 escala) y un Yottabyte (10 24 ) no estarán muy lejos.

Si se gestiona, el modelo y compartido correctamente, sin embargo, la misma ola de datos de salud o “Big Data” que inundan las agencias del gobierno también será la clave para mejorar los resultados de la atención de salud y en última instancia la población.

Un estudio del Instituto de Salud Global McKinsey prevé que la aplicación de análisis de Big Data salud puede potencialmente eliminar $ 200 – $ 300 mil millones en ineficiencias de costos del sistema de salud de EE.UU.. Esto significa que el uso creativo y eficaz de grandes volúmenes de datos podría reducir los gastos nacionales de salud en un 8 por ciento.

Las acciones colectivas y los objetivos comunes de las agencias gubernamentales tienen un gran impacto en el sistema de salud. Entre las inversiones del gobierno en materia de salud y las vidas de todos los asegurados, beneficiarios de Medicare / Medicaid, los trabajadores federales y estatales, militares en servicio activo y veteranos – agencias gubernamentales influyen en casi el 40 por ciento de todo el gasto de la atención sanitaria en los EE.UU. ¿Cómo las agencias gubernamentales enfoque de la gestión de sus grandes tiendas de salud los datos serán fundamentales para mejorar la salud pública y la entrega de una mejor atención de calidad con mejores resultados y un menor costo total.

Las agencias gubernamentales deben adoptar un enfoque integral para el uso de grandes y las tecnologías de información en salud de datos para capturar incluso una pequeña parte de estos ahorros. Algunos enfoques que las agencias podrían utilizar para reducir redundancias y costos innecesarios que utilizan grandes volúmenes de datos incluyen:

La utilización injustificada: Centers for Medicare & Medicaid Services (CMS) y la Agencia para la Investigación y Calidad (AHRQ) están interesados ​​en que los servicios médicos seguros realmente proporcionan beneficios. Incentivos de pago por servicios impulsan conductas que fomentan las visitas múltiples, honorarios más altos y menor calidad de servicio. Nuevos modelos de negocio tendrán que apoyar financieramente pago por rendimiento. Se necesitan herramientas de análisis de datos grandes para construir estos modelos y medidas de resultados de rendimiento muestran.

Fraude desperdicio y abuso: CMS enfrenta retos importantes en el seguimiento de las bandas de delincuentes organizados que están defraudando al sistema de Medicare y Medicaid por servicios nunca prestados. New Big Data algoritmos analíticos deben ser desplegados en el CMS afirma repositorio de datos para identificar el fraude en una base en tiempo real en tiempo real o casi.

Costos administrativos: ineficiencias administrativas presentan enormes desafíos para el Departamento de Asuntos de Veteranos (VA), el Sistema de Salud Militar (MHS), Tricare, y otros sistemas de proveedores / pagador patrocinados por el gobierno. Existentes registros de salud y los procesos de los sistemas de facturación manejan de manera significativa los costos de los proveedores, aseguradores y empleados. Análisis de grandes datos se puede aplicar para gestionar administrativamente los registros de salud y mejorar los procesos de facturación para reducir el costo de la contabilidad de los proveedores, financiadores y compradores.

Ineficiencias Proveedor: El VA y MHS como los principales proveedores del gobierno están interesados ​​en la reducción de los errores de diagnóstico y prescripción impulsados ​​por sistemas de prestación de asistencia sanitaria con un enorme proceso y las variaciones de rendimiento entre los sitios. Sistemas de apoyo a las decisiones clínicas deben ser ampliamente desplegado para mejorar la atención y reducir los errores médicos. Estos sistemas necesitan utilizar datos de población para predecir el riesgo y personalizar la atención.

La falta de atención coordinada: La incapacidad de compartir fácilmente los registros médicos a través de proveedores de servicios e instituciones hace que los costos redundantes. Intercambio de información eficaz requiere la interoperabilidad entre los registros médicos no sólo el VA y el MHS, sino también todos los grandes sistemas comerciales de terceros. Se necesitan herramientas para permitir una mayor interoperabilidad registro electrónico a través de diferentes sistemas de registro electrónico. Los datos de población se pueden utilizar para predecir de forma proactiva riesgo, de forma que los recursos se pueden aplicar de manera eficiente para mejorar la atención individual. Además, los pacientes deben tener acceso a sus registros personales de salud para que puedan participar personalmente en su tratamiento de salud y decisiones de compra.

Condiciones prevenibles: Los Centros para el Control y Prevención de Enfermedades (CDC) se está moviendo hacia el uso de grandes y registros médicos electrónicos de datos para centrarse en bio-vigilancia y prevención de brotes de enfermedades. La Administración de Alimentos y Medicamentos (FDA) y los Institutos Nacionales de Salud (NIH) se centran en la investigación científica y la previa a la comercialización y la vigilancia posterior a la comercialización de nuevos fármacos prometedores y dispositivos. Toda la población de usuarios asegurados por el gobierno de las necesidades de salud sea educado en la mejora de su gestión de la salud. A menudo, las condiciones prevenibles no se gestionan adecuadamente y los pacientes no siempre están claras las consecuencias para la salud de su comportamiento. Permitiendo a los profesionales médicos para realizar un seguimiento y cambiar el comportamiento es fundamental para la mejora a largo plazo de la asistencia sanitaria.

Herramientas de Big Data – si se implementan y gestionan adecuadamente – pueden ayudar a las agencias del gobierno frente a cada uno de estos desafíos en los sistemas de salud.

Referencia: http://www.govhealthit.com/news/how-harness-big-data-improving-public-health

 

Sector Financiero

Morgan Stanley Takes On Big Data con Hadoop

Cuando Morgan trató de hacer un poco de análisis de la cartera hace 18 meses se encontró que las bases de datos tradicionales y la computación grid no se escala a los grandes volúmenes de datos que los datos científicos querían utilizar.

Gary Bhattacharjee, director ejecutivo de administración de información corporativa de la firma, había trabajado con Hadoop ya en 2008 y pensó que podría ser una solución. Así que el departamento de TI conectó algunos servidores antiguos.

En la conferencia de Manantial de Hadoop en Finanzas en Nueva York , Bhattacharjee dijo el banco de inversión ha iniciado por encadenar 15 final de las cajas vida.

“Esto nos permitió llevar la infraestructura muy barato en un marco e instalar Hadoop y se deja correr.”

En lugar de trabajar con los grupos de muestras más pequeñas, utilizando Hadoop el banco puede trabajar con grandes volúmenes de datos desde todos los ángulos, explicó esta semana.

“Decidimos probar Hadoop y MapReduce y que abrimos. Ahora tenemos una solución muy escalable para el análisis de la cartera “.

Análisis Hadoop de grandes volúmenes de datos en el futuro podría aplicarse a la información del cliente, tales como CRM, pero por ahora el banco está mirando a los objetivos financieros de los clientes y tratar de llegar con ideas de inversión para ayudarles a invertir adecuadamente.

Las técnicas para hacer que existe en las bases de datos tradicionales, agregó. “El diferenciador que aporta Hadoop es que ahora usted puede hacer las mismas cosas en una escala mucho más grande y obtener mejores resultados. Le permite gestionar petabytes de datos, que es inaudito en el mundo de bases de datos tradicionales “.

Debido a Hadoop trabaja con un diseño sin esquema, puede buscar a través de grandes volúmenes de datos y ejecutar la coincidencia de patrones para cada atributo individual. En otras palabras, el usuario no tiene que saber lo que él está buscando – se puede dejar que los ordenadores detectan patrones y luego seguir con más investigaciones.

“Va a tomar mucho tiempo, pero no va a fallar.”

Mucho de lo que Morgan Stanley está haciendo con Hadoop es confidencial, pero un área que Bhattacharjee hablaba de que había en ella y registrar análisis. Un enfoque típico sería buscar en los registros web y los registros de base de datos para ver los problemas, pero un registro no se mostrará si el retraso web fue causado por un problema en la base de datos.

“Nos deshicimos de cada registro que pudimos conseguir, incluida la web y todos los diferentes registros de la base de datos, ponerlos en Hadoop y corrimos correlaciones basadas en el tiempo ..” Ahora pueden ver los eventos del mercado y cómo se relacionan con temas web y bases de datos de lectura y escritura problemas .

“Supongamos que hay un evento de mercado. Ahora tenemos toda la trazabilidad en términos de quién hizo qué, cuándo y cómo, lo que les ha causado problemas, y qué tipo de datos es objeto de la transacción. Podemos vincular la oficina con lo que está pasando en el back office, y qué datos se vuelve loco “En el pasado, averiguar lo que salió mal podría llevar meses,. Ahora Morgan Stanley puede entenderlo como sucede.

“Si hay un pico o situación con la actividad no administrado y no hay algún tipo de acceso de base de datos o el acceso no planificado movimiento de datos, podemos correlacionar y averiguar qué aplicación e incluso el usuario que inició la transacción o movimiento de datos, para ver cómo se que los datos se remonta y cómo se utilizan esos datos “.

Con Hadoop, todos los datos pueden ser mantenidos en el sistema.

“Por lo general usted tiene una curva de campana y los valores atípicos se quedan en la mesa de corte. Ahora no tenemos que hacer eso. Todo está relacionado y todo coincide. Los picos y los valles están capturados”.

Se espera que algunos de los procesos ayudará Morgan Stanley mejora su gestión del riesgo, pero que todavía está en etapa de formación.

Hadoop es excelente para la extracción y transformación de los datos. A veces los datos se mantiene en Hadoop para el análisis, y otras veces se mueve a una base de datos SQL tradicionales que a menudo es superior para la inteligencia empresarial y análisis de tendencias.

Cuando Open Source se hizo popular, las empresas financieras se alejaron de él debido a las preocupaciones acerca de la seguridad de datos y la calidad del código. En Hadoop de manantial en Finanzas conferencia Bhattacharjee animó a los asistentes a utilizar Hadoop. No tiene todo lo que un usuario podría necesitar en este momento, pero hay que esperar seis meses para una revisión, dijo.

Un problema con Open Source es la fiabilidad, añadió esta semana.

“Pero el ecosistema Hadoop se ha disparado en estos pasos agigantados. Ahora hay varios proveedores, incluyendo Microsoft e IBM , que tienen Open Source y certificar la base de código, por lo que no tiene que romper relaciones con nuestros proveedores para ir con Hadoop. EMC y HP también ofrecen un gran apoyo “.

 

Le gusta Open Source porque las mejoras llegan más rápido de lo que hacen los vendedores de software.

“Open Source permite multitud de fuentes de innovación. Permite que este ecosistema sea muy, muy ágil – mucho más ágil que compañías como HP o IBM con sus ciclos de producción, innovaciones vienen a la vanguardia de un modo mucho más rápido de lo que sería a través del ciclo de vida de un vendedor de productos típicos, y , por supuesto, es más barato “.

Bhattacharjee piensa que otros usuarios están teniendo experiencias similares a la – la búsqueda de más y más usos para Hadoop incluyendo consultas ad hoc y – sorpresa – el trabajo con datos pequeños y grandes.

Para una tienda de informática que se frustra con los usuarios de negocios que no siempre definen claramente sus necesidades, Hadoop proporciona alivio.

“La forma en que normalmente se ha hecho durante 20 años es que se pidió a la empresa lo que quieren, se crea una estructura de datos y escribe lenguaje estructurado de consultas, las fuentes de los datos, se ajusta a la mesa y escribe una consulta estructurada. A continuación, se le da a ellos y que a menudo decimos que no es lo que querían. Desde Hadoop almacena todo y es sin esquema, puedo tallar un registro o una salida de cualquier combinación que quiere el negocio. Si le doy a la empresa 10 campos filtrados de una manera determinada y quieren otro 10, ya tengo eso y puedo escribir el código y entregar los resultados casi a la carta “.

Fuera de las finanzas, también ve un gran potencial para Hadoop en la investigación farmacéutica, como la bioingeniería y la genómica.

Referencia: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/

 

Pin It on Pinterest