Grandes datos. Qué es Big data: recopilamos todo lo más importante sobre big data

Grandes datos– no se trata solo de los datos en sí, sino también de las tecnologías para procesarlos y utilizarlos, y de los métodos para buscar la información necesaria en grandes cantidades. El problema del big data sigue abierto y es vital para cualquier sistema que haya estado acumulando una amplia variedad de información durante décadas.

Este término está asociado a la expresión "Volumen, velocidad, variedad"– los principios en los que se basa el trabajo con big data. es directamente volumen de información, velocidad de su procesamiento Y variedad de información, almacenado en una matriz. Recientemente, se ha agregado un principio más a los tres principios básicos: Valor, lo que significa valor de la información. Es decir, debe ser útil y necesario en términos teóricos o prácticos, lo que justificaría los costes de su almacenamiento y procesamiento.

Un ejemplo de una fuente típica de big data son las redes sociales: cada perfil o página pública representa una pequeña gota en un océano de información no estructurada. Además, independientemente de la cantidad de información almacenada en un perfil concreto, la interacción con cada usuario debe ser lo más rápida posible.

Big data se acumula continuamente en casi todos los ámbitos de la vida humana. Esto incluye cualquier industria que implique interacción humana o informática. Entre ellos se incluyen las redes sociales, la medicina, la banca y los sistemas de dispositivos que reciben numerosos resultados de los cálculos diarios. Por ejemplo, observaciones astronómicas, información meteorológica e información procedente de dispositivos sensores de la Tierra.

La información de todo tipo de sistemas de seguimiento en tiempo real también llega a los servidores de una determinada empresa. Transmisiones de radio y televisión, bases de datos de llamadas de operadores celulares: la interacción de cada persona con ellos es mínima, pero en conjunto toda esta información se convierte en big data.

Las tecnologías de big data se han convertido en parte integral de la investigación y el comercio. Además, están empezando a apoderarse de la esfera de la administración pública y en todas partes es necesaria la introducción de sistemas cada vez más eficaces para almacenar y manipular la información.

El término "big data" apareció por primera vez en la prensa en 2008, cuando el editor de Nature, Clifford Lynch, publicó un artículo sobre el desarrollo del futuro de la ciencia utilizando tecnologías para trabajar con grandes cantidades de datos. Hasta 2009, este término se consideraba únicamente desde el punto de vista del análisis científico, pero después de la publicación de varios artículos más, la prensa comenzó a utilizar ampliamente el concepto de Big Data y continúa utilizándolo en la actualidad.

En 2010 comenzaron a aparecer los primeros intentos de solucionar el creciente problema del big data. Se lanzaron productos de software cuya acción tenía como objetivo minimizar los riesgos al utilizar grandes cantidades de información.

En 2011, grandes empresas como Microsoft, Oracle, EMC e IBM se interesaron por los big data: fueron las primeras en utilizar los desarrollos de big data en sus estrategias de desarrollo, y con bastante éxito.

Las universidades comenzaron a estudiar big data como una materia separada ya en 2013; ahora no sólo la ciencia de datos, sino también la ingeniería, junto con las materias de informática, se enfrentan a problemas en este campo.

Los principales métodos de análisis y procesamiento de datos incluyen los siguientes:

  1. Métodos de clase o análisis profundo (Data Mining).

Estos métodos son bastante numerosos, pero tienen una cosa en común: las herramientas matemáticas utilizadas en combinación con los logros del campo de la tecnología de la información.

  1. Crowdsourcing.

Esta técnica permite obtener datos simultáneamente de varias fuentes, y el número de estas últimas es prácticamente ilimitado.

  1. Pruebas A/B.

De todo el volumen de datos se selecciona un conjunto de elementos de control, que se compara alternativamente con otros conjuntos similares en los que se cambió uno de los elementos. La realización de tales pruebas ayuda a determinar qué fluctuaciones de parámetros tienen el mayor impacto en la población de control. Gracias al volumen de Big Data es posible realizar una gran cantidad de iteraciones, acercándose cada una de ellas al resultado más fiable.

  1. Análisis predictivo.

Los especialistas en este campo intentan predecir y planificar de antemano cómo se comportará el objeto controlado para poder tomar la decisión más rentable en esta situación.

  1. Aprendizaje automático (inteligencia artificial).

Se basa en el análisis empírico de la información y la posterior construcción de algoritmos de autoaprendizaje de sistemas.

  1. Análisis de redes.

El método más común para estudiar las redes sociales es que luego de obtener datos estadísticos, se analizan los nodos creados en la grilla, es decir, las interacciones entre los usuarios individuales y sus comunidades.

En 2017, cuando el big data dejó de ser algo nuevo y desconocido, su importancia no sólo no disminuyó, sino que aumentó aún más. Los expertos apuestan ahora a que el análisis de big data estará disponible no sólo para las organizaciones gigantes, sino también para las pequeñas y medianas empresas. Está previsto implementar este enfoque utilizando los siguientes componentes:

  • Almacenamiento en la nube.

El almacenamiento y el procesamiento de datos son cada vez más rápidos y económicos: en comparación con los costes de mantener un centro de datos propio y la posible ampliación de personal, alquilar una nube parece ser una alternativa mucho más económica.

  • Usando datos oscuros.

Los llamados "datos oscuros" son toda la información no digitalizada sobre la empresa, que no juega un papel clave en su uso directo, pero que puede servir como motivo para cambiar a un nuevo formato de almacenamiento de información.

  • Inteligencia artificial y aprendizaje profundo.

La tecnología de aprendizaje de inteligencia artificial, que imita la estructura y el funcionamiento del cerebro humano, es ideal para procesar grandes cantidades de información en constante cambio. En este caso, la máquina hará todo lo que haría una persona, pero la probabilidad de error se reduce significativamente.

  • Cadena de bloques.

Esta tecnología permite acelerar y simplificar numerosas transacciones online, incluidas las internacionales. Otra ventaja de Blockchain es que reduce los costos de transacción.

  • Autoservicio y precios reducidos.

En 2017, está previsto introducir “plataformas de autoservicio”, que son plataformas gratuitas donde los representantes de las pequeñas y medianas empresas pueden evaluar de forma independiente los datos que almacenan y sistematizarlos.

Todas las estrategias de marketing se basan de una forma u otra en la manipulación de la información y el análisis de los datos existentes. Por eso, el uso de big data puede predecir y permitir ajustar el desarrollo futuro de la empresa.

Por ejemplo, una subasta RTB creada sobre la base de big data permite utilizar la publicidad de forma más eficaz: un determinado producto se mostrará sólo al grupo de usuarios que estén interesados ​​en comprarlo.

¿Cuáles son los beneficios de utilizar tecnologías de big data en marketing y negocios?

  1. Con su ayuda, puede crear nuevos proyectos mucho más rápido, que probablemente tendrán demanda entre los compradores.
  2. Ayudan a correlacionar los requisitos del cliente con el servicio existente o diseñado y así ajustarlos.
  3. Los métodos de big data permiten evaluar el grado de satisfacción actual de todos los usuarios y de cada usuario individual.
  4. Una mayor fidelidad de los clientes se logra mediante métodos de procesamiento de big data.
  5. Atraer a su público objetivo en línea se vuelve más fácil gracias a la capacidad de controlar grandes cantidades de datos.

Por ejemplo, uno de los servicios más populares para predecir la probable popularidad de un producto es Google.trends. Es ampliamente utilizado por especialistas en marketing y analistas, ya que les permite obtener estadísticas sobre el uso anterior de un producto determinado y una previsión para la próxima temporada. Esto permite a los directivos de la empresa distribuir de forma más eficaz el presupuesto publicitario y determinar en qué área es mejor invertir el dinero.

Ejemplos de uso de Big Data

La introducción activa de las tecnologías Big Data en el mercado y en la vida moderna comenzó justo después de que empresas de fama mundial con clientes en casi todas partes del mundo comenzaron a utilizarlas.

Se trata de gigantes sociales como Facebook y Google, IBM, así como instituciones financieras como Master Card, VISA y Bank of America.

Por ejemplo, IBM aplica técnicas de big data a transacciones monetarias en curso. Con su ayuda se identificaron un 15% más de transacciones fraudulentas, lo que permitió aumentar en un 60% la cantidad de fondos protegidos. También se resolvieron los problemas con las falsas alarmas del sistema: su número se redujo a más de la mitad.

La empresa VISA también utilizó Big Data, rastreando intentos fraudulentos de realizar una operación particular. Gracias a esto, ahorran más de 2 mil millones de dólares al año en concepto de fugas.

El Ministerio de Trabajo alemán logró reducir costes en 10 mil millones de euros mediante la introducción de un sistema de big data en su trabajo de emisión de prestaciones por desempleo. Al mismo tiempo, se reveló que una quinta parte de los ciudadanos reciben estos beneficios sin motivo alguno.

El Big Data tampoco se ha librado de la industria del juego. Así, los desarrolladores de World of Tanks realizaron un estudio de información sobre todos los jugadores y compararon los indicadores disponibles de su actividad. Esto ayudó a predecir la posible salida futura de jugadores: según las suposiciones hechas, los representantes de la organización pudieron interactuar de manera más efectiva con los usuarios.

Entre las organizaciones notables que utilizan big data también se incluyen HSBC, Nasdaq, Coca-Cola, Starbucks y AT&T.

El mayor problema del big data es el coste de procesarlo. Esto puede incluir tanto equipos costosos como costos salariales para especialistas calificados capaces de manejar grandes cantidades de información. Evidentemente, el equipo habrá que actualizarlo periódicamente para que no pierda una funcionalidad mínima a medida que aumenta el volumen de datos.

El segundo problema está nuevamente relacionado con la gran cantidad de información que es necesario procesar. Si, por ejemplo, un estudio no produce 2 o 3 resultados, sino muchos, es muy difícil ser objetivo y seleccionar del flujo general de datos solo aquellos que tendrán un impacto real en el estado de cualquier fenómeno.

Problema de privacidad de Big Data. Dado que la mayoría de los servicios de atención al cliente pasan al uso de datos en línea, es muy fácil convertirse en el próximo objetivo de los ciberdelincuentes. Incluso el simple hecho de almacenar información personal sin realizar ninguna transacción en línea puede tener consecuencias indeseables para los clientes de almacenamiento en la nube.

El problema de la pérdida de información. Las medidas de precaución requieren no limitarse a una simple copia de seguridad de los datos una sola vez, sino realizar al menos 2 o 3 copias de seguridad del almacenamiento. Sin embargo, a medida que aumenta el volumen, aumentan las dificultades con la redundancia y los especialistas en TI están tratando de encontrar la solución óptima a este problema.

Mercado de tecnología de big data en Rusia y el mundo

En 2014, el 40% del volumen del mercado de big data se compone de servicios. Los ingresos por el uso de Big Data en equipos informáticos son ligeramente inferiores (38%) a este indicador. El 22% restante proviene del software.

Los productos más útiles en el segmento global para resolver problemas de Big Data, según las estadísticas, son las plataformas analíticas In-memory y NoSQL. El 15 y el 12 por ciento del mercado, respectivamente, están ocupados por el software analítico Log-file y las plataformas Columnar. Pero Hadoop/MapReduce en la práctica no resuelve los problemas de big data de manera muy efectiva.

Resultados de la implementación de tecnologías de big data:

  • aumentar la calidad del servicio al cliente;
  • optimización de la integración de la cadena de suministro;
  • optimización de la planificación organizacional;
  • aceleración de la interacción con los clientes;
  • aumentar la eficiencia del procesamiento de las solicitudes de los clientes;
  • reducción de costos de servicio;
  • optimización del procesamiento de solicitudes de clientes.

Los mejores libros sobre Big Data



Adecuado para el estudio inicial de las tecnologías de procesamiento de big data: lo presenta de manera fácil y clara. Deja claro cómo la abundancia de información ha influido en la vida cotidiana y en todos sus ámbitos: ciencia, negocios, medicina, etc. Contiene numerosas ilustraciones, por lo que se percibe sin mucho esfuerzo.

"Introducción a la minería de datos" por Pang-Ning Tan, Michael Steinbach y Vipin Kumar

También es útil para los principiantes un libro sobre Big Data, que explica cómo trabajar con Big Data según el principio "de lo simple a lo complejo". Cubre muchos puntos importantes en la etapa inicial: preparación para el procesamiento, visualización, OLAP, así como algunos métodos de análisis y clasificación de datos.

Una guía práctica para usar y trabajar con big data utilizando el lenguaje de programación Python. Adecuado tanto para estudiantes de ingeniería como para profesionales que quieran profundizar sus conocimientos.

"Hadoop para tontos", Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop es un proyecto creado específicamente para trabajar con programas distribuidos que organizan la ejecución de acciones en miles de nodos simultáneamente. Conocerlo le ayudará a comprender con más detalle la aplicación práctica del big data.

Columna de profesores de HSE sobre mitos y casos de trabajo con big data

Marcadores

Los profesores de la Escuela de Nuevos Medios de la Escuela Superior de Economía de la Universidad Nacional de Investigación Konstantin Romanov y Alexander Pyatigorsky, quien también es director de transformación digital de Beeline, escribieron una columna para el sitio sobre los principales conceptos erróneos sobre big data: ejemplos de uso. la tecnología y las herramientas. Los autores sugieren que la publicación ayudará a los directivos de las empresas a comprender este concepto.

Mitos y conceptos erróneos sobre Big Data

Big Data no es marketing

El término Big Data se ha puesto muy de moda: se utiliza en millones de situaciones y con cientos de interpretaciones diferentes, muchas veces sin relación con lo que es. A menudo se sustituyen conceptos en la cabeza de las personas y se confunde Big Data con un producto de marketing. Es más, en algunas empresas el Big Data forma parte del departamento de marketing. De hecho, el resultado del análisis de big data puede ser una fuente de actividad de marketing, pero nada más. Veamos cómo funciona.

Si identificamos una lista de aquellos que compraron productos por valor de más de tres mil rublos en nuestra tienda hace dos meses y luego enviamos a estos usuarios algún tipo de oferta, entonces esto es marketing típico. Derivamos un patrón claro de los datos estructurales y lo utilizamos para aumentar las ventas.

Sin embargo, si combinamos datos de CRM con información de streaming de, por ejemplo, Instagram y los analizamos, encontramos un patrón: una persona que redujo su actividad el miércoles por la noche y en cuya última foto aparecen gatitos debería hacer una oferta determinada. Esto ya será Big Data. Encontramos un desencadenante, se lo transmitimos a los especialistas en marketing y ellos lo utilizaron para sus propios fines.

De esto se deduce que la tecnología suele trabajar con datos no estructurados, e incluso si los datos están estructurados, el sistema sigue buscando patrones ocultos en ellos, lo que el marketing no hace.

Big Data no es TI

El segundo extremo de esta historia: Big Data a menudo se confunde con TI. Esto se debe al hecho de que en las empresas rusas, por regla general, los especialistas en TI son los impulsores de todas las tecnologías, incluido el big data. Por tanto, si todo sucede en este departamento, la empresa en su conjunto tiene la impresión de que se trata de algún tipo de actividad informática.

De hecho, aquí hay una diferencia fundamental: Big Data es una actividad encaminada a obtener un producto específico, que no tiene nada que ver con las TI, aunque la tecnología no puede existir sin ellas.

Big Data no siempre es la recopilación y análisis de información

Existe otra idea errónea sobre Big Data. Todo el mundo entiende que esta tecnología implica grandes cantidades de datos, pero no siempre está claro a qué tipo de datos se refiere. Cualquiera puede recopilar y utilizar información; ahora esto es posible no sólo en las películas, sino también en cualquier empresa, incluso en las más pequeñas. La única pregunta es qué recolectar exactamente y cómo usarlo en su beneficio.

Pero conviene entender que la tecnología Big Data no será la recopilación y análisis de absolutamente cualquier información. Por ejemplo, si recoges datos de una persona concreta en redes sociales, no será Big Data.

¿Qué es realmente el Big Data?

Big Data consta de tres elementos:

  • datos;
  • analítica;
  • tecnologías.

Big Data no es sólo uno de estos componentes, sino una combinación de los tres elementos. La gente suele sustituir conceptos: algunos creen que Big Data son solo datos, otros creen que es tecnología. Pero, de hecho, no importa cuántos datos recopile, no podrá hacer nada con ellos sin la tecnología y los análisis adecuados. Si hay buenos análisis, pero no datos, es aún peor.

Si hablamos de datos, no se trata solo de textos, sino también de todas las fotografías publicadas en Instagram, y en general de todo aquello que pueda ser analizado y utilizado para distintos fines y tareas. En otras palabras, Datos se refiere a enormes volúmenes de datos internos y externos de diversas estructuras.

También se necesita análisis, porque la tarea de Big Data es construir algunos patrones. Es decir, la analítica es la identificación de dependencias ocultas y la búsqueda de nuevas preguntas y respuestas a partir del análisis de todo el volumen de datos heterogéneos. Además, el Big Data plantea cuestiones que no pueden derivarse directamente de estos datos.

Cuando se trata de imágenes, el hecho de que publiques una foto tuya con una camiseta azul no significa nada. Pero si utilizas la fotografía para modelar Big Data, puede resultar que ahora debas ofrecer un préstamo, porque en tu grupo social tal comportamiento indica un determinado fenómeno en acción. Por lo tanto, los datos “desnudos” sin análisis, sin identificar dependencias ocultas y no obvias, no son Big Data.

Entonces tenemos big data. Su variedad es enorme. También contamos con un analista. Pero, ¿cómo podemos asegurarnos de que a partir de estos datos sin procesar obtengamos una solución específica? Para ello, necesitamos tecnologías que nos permitan no sólo almacenarlos (y antes era imposible), sino también analizarlos.

En pocas palabras, si tiene muchos datos, necesitará tecnologías, por ejemplo, Hadoop, que permitan guardar toda la información en su forma original para su posterior análisis. Este tipo de tecnología surgió en los gigantes de Internet, ya que fueron los primeros en enfrentarse al problema de almacenar una gran cantidad de datos y analizarlos para su posterior monetización.

Además de herramientas para un almacenamiento de datos optimizado y económico, se necesitan herramientas analíticas, así como complementos para la plataforma utilizada. Por ejemplo, ya se ha formado todo un ecosistema de proyectos y tecnologías relacionados en torno a Hadoop. Éstos son algunos de ellos:

  • Pig es un lenguaje de análisis de datos declarativo.
  • Hive: análisis de datos utilizando un lenguaje similar a SQL.
  • Oozie: flujo de trabajo de Hadoop.
  • Hbase es una base de datos (no relacional), similar a Google Big Table.
  • Mahout: aprendizaje automático.
  • Sqoop: transferencia de datos de RSDB a Hadoop y viceversa.
  • Flume: transferencia de registros a HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS, etc.

Todas estas herramientas están disponibles para todos de forma gratuita, pero también hay una serie de complementos pagos.

Además, se necesitan especialistas: un desarrollador y un analista (el llamado científico de datos). También se necesita un gerente que sepa cómo aplicar esta analítica para resolver un problema específico, porque en sí misma no tiene ningún sentido si no se integra en los procesos de negocio.

Los tres empleados deben trabajar en equipo. Un gerente que le asigna a un especialista en ciencia de datos la tarea de encontrar un patrón determinado debe comprender que no siempre encontrará exactamente lo que necesita. En este caso, el gerente debe escuchar atentamente lo que encontró el Data Scientist, ya que muchas veces sus hallazgos resultan más interesantes y útiles para el negocio. Su trabajo es aplicar esto a un negocio y convertirlo en un producto.

A pesar de que ahora existen muchos tipos diferentes de máquinas y tecnologías, la decisión final siempre queda en manos de la persona. Para ello, es necesario visualizar la información de alguna manera. Hay bastantes herramientas para esto.

El ejemplo más revelador son los informes geoanalíticos. La empresa Beeline trabaja mucho con los gobiernos de diferentes ciudades y regiones. Muy a menudo, estas organizaciones solicitan informes como "Congestión de tráfico en un lugar determinado".

Está claro que un informe de este tipo debería llegar a los organismos gubernamentales en un formato sencillo y comprensible. Si les proporcionamos una tabla enorme y completamente incomprensible (es decir, información en la forma en que la recibimos), es poco probable que compren dicho informe; será completamente inútil, no obtendrán de él el conocimiento de que querían recibir.

Por lo tanto, no importa lo buenos que sean los científicos de datos y los patrones que encuentren, no podrás trabajar con estos datos sin buenas herramientas de visualización.

Fuentes de datos

La variedad de datos obtenidos es muy grande, por lo que se puede dividir en varios grupos.

Datos internos de la empresa

Aunque el 80% de los datos recogidos pertenecen a este grupo, no siempre se utiliza esta fuente. A menudo se trata de datos que aparentemente nadie necesita, por ejemplo, registros. Pero si los miras desde un ángulo diferente, a veces puedes encontrar patrones inesperados en ellos.

Fuentes de shareware

Esto incluye datos de redes sociales, Internet y todo aquello a lo que se pueda acceder de forma gratuita. ¿Por qué es gratuito? Por un lado, estos datos están disponibles para todos, pero si usted es una gran empresa, obtenerlos en el tamaño de una base de suscriptores de decenas de miles, cientos o millones de clientes ya no es una tarea fácil. Por ello, existen en el mercado servicios de pago para facilitar estos datos.

Fuentes pagadas

Esto incluye empresas que venden datos por dinero. Pueden ser empresas de telecomunicaciones, DMP, empresas de Internet, burós de crédito y agregadores. En Rusia, las empresas de telecomunicaciones no venden datos. En primer lugar, no es económicamente rentable y, en segundo lugar, está prohibido por la ley. Por ello, venden los resultados de su procesamiento, por ejemplo, informes geoanalíticos.

Datos abiertos

El Estado se muestra complaciente con las empresas y les da la oportunidad de utilizar los datos que recopilan. Esto se desarrolla en mayor medida en Occidente, pero Rusia también en este sentido se mantiene al día. Por ejemplo, existe un Portal de Datos Abiertos del Gobierno de Moscú, donde se publica información sobre diversas instalaciones de infraestructura urbana.

Para los residentes e invitados de Moscú, los datos se presentan en forma tabular y cartográfica, y para los desarrolladores, en formatos especiales legibles por máquina. Si bien el proyecto funciona de forma limitada, se está desarrollando, lo que significa que también es una fuente de datos que puede utilizar para sus tareas comerciales.

Investigación

Como ya se ha señalado, la tarea del Big Data es encontrar un patrón. A menudo, las investigaciones realizadas en todo el mundo pueden convertirse en un punto de apoyo para encontrar un patrón particular: puede obtener un resultado específico e intentar aplicar una lógica similar para sus propios fines.

Big Data es un área en la que no se aplican todas las leyes de las matemáticas. Por ejemplo, “1” + “1” no es “2”, sino mucho más, porque al mezclar fuentes de datos el efecto se puede mejorar significativamente.

Ejemplos de productos

Mucha gente está familiarizada con el servicio de selección de música Spotify. Es genial porque no pregunta a los usuarios cuál es su estado de ánimo hoy, sino que lo calcula en función de las fuentes disponibles. Él siempre sabe lo que necesitas ahora: jazz o hard rock. Ésta es la diferencia clave que le otorga seguidores y lo distingue de otros servicios.

Estos productos suelen denominarse productos sensoriales: aquellos que sienten a su cliente.

La tecnología Big Data también se utiliza en la industria del automóvil. Por ejemplo, Tesla hace esto: su último modelo tiene piloto automático. La empresa se esfuerza por crear un automóvil que por sí mismo lleve al pasajero a donde necesita ir. Sin Big Data esto es imposible, porque si utilizamos sólo los datos que recibimos directamente, como hace una persona, entonces el coche no podrá mejorar.

Cuando conducimos un coche, utilizamos nuestras neuronas para tomar decisiones basadas en muchos factores que ni siquiera notamos. Por ejemplo, es posible que no nos demos cuenta de por qué decidimos no acelerar inmediatamente en un semáforo en verde, pero luego resulta que la decisión fue correcta: un automóvil pasó a su lado a una velocidad vertiginosa y usted evitó un accidente.

También puedes dar un ejemplo del uso de Big Data en el deporte. En 2002, el director general del equipo de béisbol Oakland Athletics, Billy Beane, decidió romper el paradigma de cómo reclutar atletas: seleccionó y entrenó jugadores "según números".

Por lo general, los entrenadores se fijan en el éxito de los jugadores, pero en este caso todo fue diferente: para obtener resultados, el entrenador estudió qué combinaciones de atletas necesitaba, prestando atención a las características individuales. Además, eligió atletas que en sí mismos no tenían mucho potencial, pero el equipo en su conjunto resultó tener tanto éxito que ganaron veinte partidos seguidos.

Posteriormente, el director Bennett Miller hizo una película dedicada a esta historia: "El hombre que lo cambió todo", protagonizada por Brad Pitt.

La tecnología Big Data también es útil en el sector financiero. Ni una sola persona en el mundo puede determinar de forma independiente y precisa si vale la pena conceder un préstamo a alguien. Para tomar una decisión se realiza un scoring, es decir, se construye un modelo probabilístico, a partir del cual se puede entender si esta persona devolverá el dinero o no. Luego se aplica puntuación en todas las etapas: se puede, por ejemplo, calcular que en un momento determinado una persona dejará de pagar.

Big data le permite no solo ganar dinero, sino también ahorrarlo. En particular, esta tecnología ayudó al Ministerio de Trabajo alemán a reducir el coste de las prestaciones por desempleo en 10 mil millones de euros, ya que tras analizar la información quedó claro que el 20% de las prestaciones se pagaron inmerecidamente.

Las tecnologías también se utilizan en medicina (esto es especialmente típico de Israel). Con la ayuda del Big Data se puede realizar un análisis mucho más preciso que el que puede hacer un médico con treinta años de experiencia.

Cualquier médico, a la hora de hacer un diagnóstico, se basa únicamente en su propia experiencia. Cuando la máquina hace esto, proviene de la experiencia de miles de médicos y de todos los historiales de casos existentes. Se tiene en cuenta de qué material está hecha la casa del paciente, en qué zona vive la víctima, qué tipo de humo hay, etc. Es decir, tiene en cuenta muchos factores que los médicos no tienen en cuenta.

Un ejemplo del uso de Big Data en la atención sanitaria es el Proyecto Artemis, que fue implementado por el Hospital Infantil de Toronto. Se trata de un sistema de información que recoge y analiza datos de los bebés en tiempo real. La máquina permite analizar 1260 indicadores de salud de cada niño cada segundo. Este proyecto tiene como objetivo predecir la condición inestable de un niño y prevenir enfermedades en los niños.

En Rusia también se están empezando a utilizar big data: por ejemplo, Yandex tiene una división de big data. La empresa, junto con AstraZeneca y la Sociedad Rusa de Oncología Clínica RUSSCO, lanzó la plataforma RAY, destinada a genetistas y biólogos moleculares. El proyecto nos permite mejorar los métodos de diagnóstico del cáncer e identificar la predisposición al cáncer. La plataforma se lanzará en diciembre de 2016.

Una vez escuché el término "Big Data" del alemán Gref (director de Sberbank). Dicen que ahora están trabajando activamente en la implementación, porque esto les ayudará a reducir el tiempo que trabajan con cada cliente.

La segunda vez que me encontré con este concepto fue en la tienda online de un cliente, en la que estábamos trabajando y aumentando el surtido de un par de miles a un par de decenas de miles de artículos.

La tercera vez vi que Yandex necesitaba un analista de big data. Entonces decidí profundizar en este tema y al mismo tiempo escribir un artículo que cuente qué tipo de término es el que excita las mentes de los TOP managers y del espacio de Internet.

VVV o VVVVV

Normalmente comienzo cualquiera de mis artículos con una explicación de qué tipo de término es este. Este artículo no será una excepción.

Sin embargo, esto se debe principalmente no al deseo de mostrar lo inteligente que soy, sino al hecho de que el tema es realmente complejo y requiere una explicación cuidadosa.

Por ejemplo, puede leer qué son los big data en Wikipedia, no entender nada y luego volver a este artículo para comprender aún la definición y la aplicabilidad para los negocios. Entonces, comencemos con una descripción y luego con ejemplos empresariales.

Los grandes datos son grandes datos. Increíble, ¿verdad? De hecho, esto se traduce del inglés como "big data". Pero se podría decir que esta definición es para tontos.

Importante. La tecnología de big data es un enfoque/método de procesar más datos para obtener nueva información que es difícil de procesar utilizando métodos convencionales.

Los datos pueden ser procesados ​​(estructurados) o dispersos (es decir, no estructurados).

El término en sí apareció hace relativamente poco tiempo. En 2008, una revista científica predijo que este enfoque sería necesario para manejar grandes cantidades de información que crecen exponencialmente.

Por ejemplo, cada año la información en Internet que es necesario almacenar y, por supuesto, procesar aumenta en un 40%. De nuevo. +40% Cada año aparece nueva información en Internet.

Si los documentos impresos son claros y los métodos para procesarlos también son claros (transferirlos a formato electrónico, unirlos en una carpeta, número), entonces qué hacer con la información que se presenta en "medios" y otros volúmenes completamente diferentes:

  • Documentos de Internet;
  • blogs y redes sociales;
  • fuentes de audio/vídeo;
  • dispositivos de medición;

Existen características que permiten clasificar la información y los datos como big data.

Es decir, no todos los datos pueden ser adecuados para el análisis. Estas características contienen precisamente el concepto clave de big data. Todos ellos encajan en tres Vs.

  1. Volumen (del volumen en inglés). Los datos se miden en términos del volumen físico del “documento” a analizar;
  2. Velocidad (del inglés speed). Los datos no se detienen en su desarrollo, sino que están en constante crecimiento, por lo que se requiere de su rápido procesamiento para obtener resultados;
  3. Variedad (de la variedad inglesa). Es posible que los datos no tengan el mismo formato. Es decir, pueden estar dispersos, estructurados o parcialmente estructurados.

Sin embargo, de vez en cuando se añade al VVV una cuarta V (veracidad) e incluso una quinta V (en algunos casos esto es viabilidad, en otros es valor).

En algún lugar incluso vi 7V, que caracteriza datos relacionados con big data. Pero en mi opinión, esto es de una serie (donde periódicamente se agregan P, aunque las 4 iniciales son suficientes para entender).

¿Quién necesita esto?

Surge una pregunta lógica: ¿cómo se puede utilizar la información (en todo caso, los big data son cientos y miles de terabytes)? Ni siquiera eso.

Aquí está la información. Entonces, ¿por qué se inventó la gran cita? ¿Para qué sirve el big data en marketing y negocios?

  1. Las bases de datos convencionales no pueden almacenar y procesar (ni siquiera estoy hablando de análisis, sino simplemente almacenar y procesar) enormes cantidades de información.

    Big data resuelve este principal problema. Almacena y gestiona con éxito grandes volúmenes de información;

  2. Estructura la información procedente de diversas fuentes (video, imágenes, audio y documentos de texto) en una forma única, comprensible y digerible;
  3. Generar analíticas y crear pronósticos precisos basados ​​en información estructurada y procesada.

Es complicado. En pocas palabras, cualquier especialista en marketing que comprenda que si estudia una gran cantidad de información (sobre usted, su empresa, sus competidores, su industria), puede obtener resultados muy decentes:

  • Comprensión total de su empresa y su negocio desde el punto de vista de los números;
  • Estudie a sus competidores. Y esto, a su vez, permitirá salir adelante dominándolos;
  • Descubra nueva información sobre sus clientes.

Y precisamente porque la tecnología big data da los siguientes resultados, todo el mundo se apresura a utilizarla.

Están intentando incorporar este negocio a su empresa con el fin de aumentar las ventas y reducir costes. Y si específicamente, entonces:

  1. Incrementar las ventas cruzadas y las ventas adicionales debido a un mejor conocimiento de las preferencias de los clientes;
  2. Busque productos populares y razones por las que la gente los compra (y viceversa);
  3. Mejora de un producto o servicio;
  4. Mejorar el nivel de servicio;
  5. Incrementar la lealtad y el enfoque en el cliente;
  6. Prevención de fraude (más relevante para el sector bancario);
  7. Reducir costes innecesarios.

El ejemplo más común, citado en todas las fuentes, es, por supuesto, el de la empresa Apple, que recopila datos sobre sus usuarios (teléfono, reloj, ordenador).

Es debido a la presencia de un ecosistema que la corporación sabe tanto sobre sus usuarios y posteriormente lo utiliza para obtener ganancias.

Puedes leer estos y otros ejemplos de uso en cualquier otro artículo excepto este.

vamos al futuro

Te hablaré de otro proyecto. O mejor dicho, de una persona que construye el futuro utilizando soluciones de big data.

Este es Elon Musk y su empresa Tesla. Su principal sueño es hacer coches autónomos, es decir, que te pongas al volante, enciendas el piloto automático de Moscú a Vladivostok y... te quedes dormido, porque no necesitas conducir el coche en absoluto, porque servirá. todo en sí.

¿Parecería fantástico? ¡Pero no! Elon simplemente actuó mucho más sabiamente que Google, que controla los automóviles mediante docenas de satélites. Y se fue por el otro lado:

  1. Cada coche vendido está equipado con un ordenador que recoge toda la información.

    Todo, esto significa todo. Sobre el conductor, su estilo de conducción, las carreteras que lo rodean, el movimiento de otros coches. El volumen de dichos datos alcanza los 20-30 GB por hora;

  2. Luego, esta información se transmite vía comunicación satelital a una computadora central, que procesa estos datos;
  3. A partir de los big data procesados ​​por este ordenador se construye un modelo de vehículo no tripulado.

Por cierto, si a Google le va bastante mal y sus coches sufren accidentes todo el tiempo, entonces a Musk, debido a que trabaja con big data, le va mucho mejor, porque los modelos de prueba muestran muy buenos resultados.

https://youtu.be/lc2ZVUZ6kno

Pero... Todo es cuestión de economía. ¿Qué somos todos acerca de las ganancias, sino de las ganancias? Mucho de lo que puede decidir una gran cita no tiene ninguna relación con las ganancias y el dinero.

Las estadísticas de Google, basadas en big data, muestran algo interesante.

Antes de que los médicos anuncien el comienzo de una epidemia de enfermedad en una determinada región, el número de consultas sobre el tratamiento de esta enfermedad en esa región aumenta significativamente.

Por lo tanto, un estudio adecuado de los datos y su análisis permite formular pronósticos y predecir la aparición de una epidemia (y, en consecuencia, su prevención) mucho más rápido que la conclusión de los organismos oficiales y sus acciones.

Aplicación en Rusia

Sin embargo, Rusia, como siempre, se está “desacelerando” un poco. Entonces, la definición misma de big data en Rusia apareció hace no más de 5 años (ahora me refiero a empresas comunes y corrientes).

Y esto a pesar de que este es uno de los mercados de más rápido crecimiento en el mundo (las drogas y las armas fuman nerviosamente al margen), porque cada año el mercado de software para recopilar y analizar big data crece un 32%.

Para caracterizar el mercado de big data en Rusia, recuerdo un viejo chiste. Una gran cita es como tener relaciones sexuales antes de cumplir 18 años.

Todo el mundo habla de ello, hay mucho revuelo en torno a ello y poca acción real, y todo el mundo se avergüenza de admitir que ellos mismos no lo están haciendo. De hecho, hay mucho revuelo en torno a esto, pero poca acción real.

Aunque la conocida empresa de investigación Gartner ya anunció en 2015 que el big data ya no es una tendencia creciente (como la inteligencia artificial, por cierto), sino herramientas completamente independientes para el análisis y desarrollo de tecnologías avanzadas.

Los nichos más activos donde se utiliza big data en Rusia son los bancos/seguros (no en vano comencé el artículo con el director de Sberbank), el sector de las telecomunicaciones, el comercio minorista, el sector inmobiliario y... el sector público.

A modo de ejemplo, les contaré con más detalle sobre un par de sectores económicos que utilizan algoritmos de big data.

Bancos

Empecemos por los bancos y la información que recopilan sobre nosotros y nuestras acciones. Como ejemplo, tomé los 5 principales bancos rusos que invierten activamente en big data:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Banco Alfa;
  5. Banco Tinkoff.

Es especialmente agradable ver a Alfa Bank entre los líderes rusos. Como mínimo, es bueno saber que el banco, del que usted es socio oficial, comprende la necesidad de introducir nuevas herramientas de marketing en su empresa.

Pero quiero mostrar ejemplos del uso y la implementación exitosa de big data en un banco que me gusta por la visión y las acciones poco convencionales de su fundador.

Me refiero al banco Tinkoff. Su principal desafío era desarrollar un sistema para analizar big data en tiempo real debido a su creciente base de clientes.

Resultados: el tiempo de los procesos internos se redujo al menos 10 veces y, en algunos casos, más de 100 veces.

Bueno, un poco de distracción. ¿Sabes por qué comencé a hablar de las travesuras y acciones inusuales de Oleg Tinkov?

Simplemente, en mi opinión, fueron ellos quienes lo ayudaron a pasar de ser un hombre de negocios mediocre, de los cuales hay miles en Rusia, a uno de los empresarios más famosos y reconocibles. Para confirmarlo, mire este video inusual e interesante:

https://youtu.be/XHMaD5HAvfk

Bienes raíces

En el sector inmobiliario todo es mucho más complicado. Y este es exactamente el ejemplo que quiero daros para entender las grandes citas dentro de los negocios habituales. Datos iniciales:

  1. Gran volumen de documentación textual;
  2. Fuentes abiertas (satélites privados que transmiten datos sobre los cambios terrestres);
  3. Una enorme cantidad de información incontrolada en Internet;
  4. Cambios constantes en fuentes y datos.

Y en base a esto, es necesario preparar y evaluar el valor de un terreno, por ejemplo, cerca de un pueblo de los Urales. Un profesional necesitará una semana para hacer esto.

La Sociedad Rusa de Tasadores y ROSECO, que realmente implementó el análisis de big data mediante software, no necesitará más de 30 minutos de trabajo pausado. Compara, una semana y 30 minutos. Una gran diferencia.

Bueno, para un refrigerio

Por supuesto, no se pueden almacenar ni procesar grandes cantidades de información en simples discos duros.

Y el software que estructura y analiza los datos es generalmente propiedad intelectual y cada vez desarrollo del autor. Sin embargo, existen herramientas a partir de las cuales se crea toda esta belleza:

  • Hadoop y MapReduce;
  • bases de datos NoSQL;
  • Herramientas de clase de descubrimiento de datos.

Sinceramente, no podré explicarte claramente en qué se diferencian entre sí, ya que en las facultades de física y matemáticas se enseña a conocer y trabajar con estas cosas.

¿Por qué entonces hablé de esto si no podía explicarlo? ¿Recuerda que en todas las películas los ladrones van a cualquier banco y ven una gran cantidad de todo tipo de piezas de hardware conectadas a cables?

Es lo mismo en la gran cita. Por ejemplo, aquí tienes un modelo que actualmente es uno de los líderes del mercado.

Herramienta de gran cita

El coste de la configuración máxima alcanza los 27 millones de rublos por rack. Esta es, por supuesto, la versión de lujo. Quiero que pruebes con antelación la creación de big data en tu negocio.

Brevemente sobre lo principal.

Quizás se pregunte, ¿por qué usted, una pequeña y mediana empresa, necesita trabajar con big data?

A esto le responderé con una cita de una persona: "En un futuro próximo, los clientes demandarán empresas que comprendan mejor su comportamiento y hábitos y se adapten mejor a ellos".

Pero seamos realistas. Para implementar big data en una pequeña empresa, es necesario tener no solo grandes presupuestos para el desarrollo e implementación de software, sino también para el mantenimiento de especialistas, al menos como un analista de big data y un administrador de sistemas.

Y ahora guardo silencio sobre el hecho de que es necesario tener dichos datos para su procesamiento.

DE ACUERDO. El tema casi no es aplicable a las pequeñas empresas. Pero esto no significa que debas olvidar todo lo que leíste anteriormente.

Simplemente no estudie sus datos, sino los resultados del análisis de datos de conocidas empresas tanto extranjeras como rusas.

Por ejemplo, la cadena minorista Target, utilizando análisis de big data, descubrió que las mujeres embarazadas antes del segundo trimestre del embarazo (de la semana 1 a la 12 del embarazo) compran activamente productos sin fragancia.

Utilizando estos datos, les envían cupones con descuentos por tiempo limitado en productos sin perfume.

¿Qué pasa si eres sólo una cafetería muy pequeña, por ejemplo? Sí, muy sencillo. Utilice una aplicación de fidelización.

Y después de un tiempo y gracias a la información acumulada, podrás no sólo ofrecer a tus clientes platos acordes a sus necesidades, sino también ver los platos más no vendidos y con mayor margen en tan sólo un par de clics de ratón.

De ahí la conclusión. Es poco probable que una pequeña empresa deba implementar big data, pero es imperativo utilizar los resultados y desarrollos de otras empresas.

Sólo los perezosos no hablan de Big data, pero apenas entienden qué es y cómo funciona. Comencemos con lo más simple: la terminología. Hablando en ruso, Big data son varias herramientas, enfoques y métodos para procesar datos estructurados y no estructurados con el fin de utilizarlos para tareas y propósitos específicos.

Los datos no estructurados son información que no tiene una estructura predeterminada o no está organizada en un orden particular.

El término "grandes datos" fue introducido por el editor de la revista Nature, Clifford Lynch, en 2008 en un número especial dedicado al crecimiento explosivo de los volúmenes de información en el mundo. Aunque, por supuesto, el big data en sí ya existía antes. Según los expertos, la categoría Big data incluye la mayoría de los flujos de datos de más de 100 GB por día.

Lea también:

Hoy en día, este simple término esconde solo dos palabras: almacenamiento y procesamiento de datos.

Big data: en palabras sencillas

En el mundo moderno, Big data es un fenómeno socioeconómico asociado al hecho de que han surgido nuevas capacidades tecnológicas para analizar una gran cantidad de datos.

Lea también:

Para que sea más fácil de entender, imagina un supermercado en el que todos los productos no están en el orden al que estás acostumbrado. El pan junto a la fruta, la pasta de tomate junto a la pizza congelada, el líquido para encendedores delante del estante de los tampones, que contiene, entre otras cosas, aguacates, tofu o setas shiitake. Big data pone todo en su lugar y le ayuda a encontrar leche de frutos secos, conocer el coste y la fecha de caducidad, y también quién, además de usted, compra esta leche y por qué es mejor que la leche de vaca.

Kenneth Cukier: Big data son mejores datos

Tecnología de grandes datos

Se procesan enormes volúmenes de datos para que una persona pueda obtener resultados específicos y necesarios para su posterior uso eficaz.

Lea también:

De hecho, el Big data es una solución a los problemas y una alternativa a los sistemas tradicionales de gestión de datos.

Técnicas y métodos de análisis aplicables al Big data según McKinsey:

  • Participación colectiva;

    Mezcla e integración de datos;

    Aprendizaje automático;

    Redes neuronales artificiales;

    Reconocimiento de patrones;

    Análisis predictivo;

    Modelado de simulación;

    Análisis espacial;

    Análisis estadístico;

  • Visualización de datos analíticos.

La escalabilidad horizontal que permite el procesamiento de datos es el principio básico del procesamiento de big data. Los datos se distribuyen entre nodos informáticos y el procesamiento se produce sin degradación del rendimiento. McKinsey también incluyó sistemas de gestión relacional y Business Intelligence en el contexto de aplicabilidad.

Tecnologías:

  • No SQL;
  • MapaReducir;
  • Hadoop;
  • Soluciones hardware.

Lea también:

Para big data, existen características definitorias tradicionales desarrolladas por Meta Group en 2001, que se denominan " Tres V»:

  1. Volumen- la cantidad de volumen físico.
  2. Velocidad- tasa de crecimiento y necesidad de un procesamiento rápido de datos para obtener resultados.
  3. Variedad- la capacidad de procesar simultáneamente diferentes tipos de datos.

Big data: aplicaciones y oportunidades

Es imposible procesar volúmenes de información digital heterogénea y que llega rápidamente con herramientas tradicionales. El análisis de datos en sí le permite ver patrones ciertos e imperceptibles que una persona no puede ver. Esto nos permite optimizar todos los ámbitos de nuestra vida, desde la administración pública hasta la producción y las telecomunicaciones.

Por ejemplo, algunas empresas hace unos años protegían a sus clientes del fraude, y cuidar el dinero del cliente significa cuidar su propio dinero.

Susan Etliger: ¿Qué pasa con los big data?

Soluciones basadas en Big data: Sberbank, Beeline y otras empresas

Beeline tiene una gran cantidad de datos sobre los suscriptores, que utilizan no solo para trabajar con ellos, sino también para crear productos analíticos, como consultoría externa o análisis de IPTV. Beeline segmentó la base de datos y protegió a los clientes contra fraudes financieros y virus, utilizando HDFS y Apache Spark para el almacenamiento, y Rapidminer y Python para el procesamiento de datos.

Lea también:

O recordemos a Sberbank con su antiguo caso llamado AS SAFI. Se trata de un sistema que analiza fotografías para identificar a los clientes del banco y prevenir fraudes. El sistema se introdujo en 2014 y se basa en la comparación de fotografías de una base de datos, que llegan a través de cámaras web montadas en soportes gracias a la visión por ordenador. La base del sistema es una plataforma biométrica. Gracias a esto, los casos de fraude se han reducido 10 veces.

Grandes datos en el mundo

Según las previsiones, en 2020 la humanidad generará entre 40 y 44 zettabytes de información. Y para 2025 crecerá 10 veces, según el informe The Data Age 2025, elaborado por analistas de IDC. El informe señala que la mayoría de los datos serán generados por las propias empresas, y no por los consumidores comunes y corrientes.

Los analistas de investigación creen que los datos se convertirán en un activo vital y la seguridad en una base fundamental en la vida. Los autores del trabajo también confían en que la tecnología cambiará el panorama económico y el usuario medio se comunicará con los dispositivos conectados unas 4.800 veces al día.

Mercado de big data en Rusia

Los big data normalmente provienen de tres fuentes:

  • Internet (redes sociales, foros, blogs, medios y otros sitios);
  • Archivos de documentos corporativos;
  • Lecturas de sensores, instrumentos y otros dispositivos.

Big data en los bancos

Además del sistema descrito anteriormente, la estrategia de Sberbank para 2014-2018 incluye: habla sobre la importancia de analizar superdatos para un servicio al cliente de calidad, gestión de riesgos y optimización de costos. Ahora el banco utiliza Big data para gestionar riesgos, combatir el fraude, segmentar y evaluar la solvencia de los clientes, gestionar el personal, prever colas en las sucursales, calcular bonificaciones para los empleados y otras tareas.

VTB24 utiliza big data para segmentar y gestionar las salidas de clientes, generar informes financieros y analizar reseñas en redes sociales y foros. Para ello utiliza soluciones de Teradata, SAS Visual Analytics y SAS Marketing Optimizer.

Se predijo que el volumen global total de datos creados y replicados en 2011 podría ser de aproximadamente 1,8 zettabytes (1,8 billones de gigabytes), aproximadamente 9 veces más de lo que se creó en 2006.

Definición más compleja

Sin embargo` grandes datos` Implican algo más que el simple análisis de enormes cantidades de información. El problema no es que las organizaciones creen enormes volúmenes de datos, sino que la mayoría de ellos están en un formato que no encaja bien con el formato de base de datos estructurada tradicional: registros web, vídeos, documentos de texto, código de máquina o, por ejemplo, datos geoespaciales. . Todo esto se almacena en muchos repositorios diferentes, a veces incluso fuera de la organización. Como resultado, las corporaciones pueden tener acceso a una gran cantidad de sus datos y carecer de las herramientas necesarias para establecer relaciones entre estos datos y sacar conclusiones significativas de ellos. Si a esto le sumamos el hecho de que los datos se actualizan cada vez con mayor frecuencia, se llega a una situación en la que los métodos tradicionales de análisis de información no pueden seguir el ritmo de los enormes volúmenes de datos constantemente actualizados, lo que en última instancia abre el camino a la tecnología. grandes datos.

Mejor definicion

En esencia el concepto grandes datos Implica trabajar con información de gran volumen y composición diversa, muy a menudo actualizada y ubicada en diferentes fuentes con el fin de aumentar la eficiencia operativa, crear nuevos productos y aumentar la competitividad. La consultora Forrester ofrece una breve formulación: ` Grandes datos reúne técnicas y tecnologías que extraen significado de datos en los límites extremos de lo práctico.

¿Qué diferencia hay entre análisis empresarial y big data?

Craig Bathy, director ejecutivo de marketing y director de tecnología de Fujitsu Australia, señaló que el análisis empresarial es un proceso descriptivo que consiste en analizar los resultados alcanzados por una empresa en un período de tiempo determinado, mientras que la velocidad de procesamiento grandes datos permite hacer el análisis predictivo, capaz de ofrecer recomendaciones de negocio para el futuro. Las tecnologías de big data también permiten analizar más tipos de datos que las herramientas de inteligencia empresarial, lo que permite centrarse en algo más que repositorios estructurados.

Matt Slocum de O'Reilly Radar cree que aunque grandes datos y el análisis de negocios tienen el mismo objetivo (encontrar respuestas a una pregunta), se diferencian entre sí en tres aspectos.

  • Big data está diseñado para manejar mayores volúmenes de información que el análisis empresarial, y esto ciertamente se ajusta a la definición tradicional de big data.
  • Big data está diseñado para manejar información que cambia más rápidamente, lo que significa exploración profunda e interactividad. En algunos casos, los resultados se generan más rápido de lo que se carga la página web.
  • Big data está diseñado para procesar datos no estructurados que recién estamos comenzando a explorar cómo usarlos una vez que hemos podido recopilarlos y almacenarlos, y necesitamos algoritmos y capacidades conversacionales para que sea más fácil encontrar tendencias contenidas en estos conjuntos de datos.

Según el documento técnico "Oracle Information Architecture: An Architect's Guide to Big Data" publicado por Oracle, cuando trabajamos con big data, abordamos la información de manera diferente que cuando realizamos análisis de negocios.

Trabajar con big data no es como el proceso habitual de inteligencia empresarial, donde simplemente sumar valores conocidos produce un resultado: por ejemplo, sumar las facturas pagadas se convierte en ventas del año. Cuando se trabaja con big data, el resultado se obtiene en el proceso de limpieza mediante modelado secuencial: primero, se plantea una hipótesis, se construye un modelo estadístico, visual o semántico, sobre esta base se verifica la exactitud de la hipótesis planteada. , y luego se presenta el siguiente. Este proceso requiere que el investigador interprete significados visuales o construya consultas interactivas basadas en el conocimiento, o desarrolle algoritmos adaptativos de "aprendizaje automático" que puedan producir el resultado deseado. Además, la vida útil de dicho algoritmo puede ser bastante corta.

Técnicas de análisis de big data

Existen muchos métodos diferentes para analizar conjuntos de datos, que se basan en herramientas tomadas de la estadística y la informática (por ejemplo, el aprendizaje automático). La lista no pretende ser completa, pero refleja los enfoques más populares en diversas industrias. Debe entenderse que los investigadores continúan trabajando para crear nuevas técnicas y mejorar las existentes. Además, algunas de las técnicas enumeradas no necesariamente se aplican exclusivamente a big data y pueden usarse con éxito para matrices más pequeñas (por ejemplo, pruebas A/B, análisis de regresión). Por supuesto, cuanto más voluminoso y diversificado se analice el conjunto, más precisos y relevantes se podrán obtener como resultado.

Pruebas A/B. Técnica en la que una muestra de control se compara alternativamente con otras. Así, es posible identificar la combinación óptima de indicadores para lograr, por ejemplo, la mejor respuesta del consumidor a una oferta de marketing. Grandes datos permiten realizar una gran cantidad de iteraciones y así obtener un resultado estadísticamente confiable.

Aprendizaje de reglas de asociación. Un conjunto de técnicas para identificar relaciones, es decir. reglas de asociación entre variables en grandes conjuntos de datos. Utilizado en minería de datos.

Clasificación. Un conjunto de técnicas que permiten predecir el comportamiento del consumidor en un determinado segmento de mercado (decisiones de compra, abandono, volumen de consumo, etc.). Utilizado en minería de datos.

Análisis de conglomerados. Un método estadístico para clasificar objetos en grupos mediante la identificación de características comunes que no se conocen de antemano. Utilizado en minería de datos.

Crowdsourcing. Metodología para la recogida de datos de un gran número de fuentes.

Fusión e integración de datos. Un conjunto de técnicas que permite analizar los comentarios de los usuarios de redes sociales y compararlos con los resultados de ventas en tiempo real.

Minería de datos. Un conjunto de técnicas que permite determinar las categorías de consumidores más susceptibles al producto o servicio promocionado, identificar las características de los empleados más exitosos y predecir el modelo de comportamiento de los consumidores.

Aprendizaje conjunto. Este método utiliza muchos modelos predictivos, mejorando así la calidad de las previsiones realizadas.

Algoritmos genéticos. En esta técnica, las posibles soluciones se representan en forma de "cromosomas", que pueden combinarse y mutarse. Como en el proceso de evolución natural, el individuo más apto sobrevive.

Aprendizaje automático. Una dirección de la informática (históricamente se le ha dado el nombre de “inteligencia artificial”), que persigue el objetivo de crear algoritmos de autoaprendizaje basados ​​en el análisis de datos empíricos.

Procesamiento del lenguaje natural (PNL). Un conjunto de técnicas para reconocer el lenguaje humano natural tomadas de la informática y la lingüística.

Análisis de red. Un conjunto de técnicas para analizar conexiones entre nodos en redes. En relación a las redes sociales, permite analizar las relaciones entre usuarios individuales, empresas, comunidades, etc.

Mejoramiento. Un conjunto de métodos numéricos para rediseñar sistemas y procesos complejos para mejorar una o más métricas. Ayuda en la toma de decisiones estratégicas, por ejemplo, la composición de la línea de productos a lanzar al mercado, realización de análisis de inversiones, etc.

Reconocimiento de patrones. Conjunto de técnicas con elementos de autoaprendizaje para predecir el modelo de comportamiento de los consumidores.

Modelado predictivo. Un conjunto de técnicas que permiten crear un modelo matemático de un escenario probable predeterminado para el desarrollo de eventos. Por ejemplo, análisis de la base de datos del sistema CRM en busca de posibles condiciones que incitarán a los suscriptores a cambiar de proveedor.

Regresión. Conjunto de métodos estadísticos para identificar un patrón entre cambios en una variable dependiente y una o más variables independientes. A menudo se utiliza para pronósticos y predicciones. Utilizado en minería de datos.

Análisis de sentimiento. Las técnicas para evaluar el sentimiento del consumidor se basan en tecnologías de reconocimiento del lenguaje natural. Le permiten aislar mensajes relacionados con el tema de interés (por ejemplo, un producto de consumo) del flujo de información general. A continuación, evalúe la polaridad del juicio (positivo o negativo), el grado de emocionalidad, etc.

Procesamiento de señal. Un conjunto de técnicas tomadas de la ingeniería de radio cuyo objetivo es reconocer una señal en un contexto de ruido y su posterior análisis.

Análisis espacial. Un conjunto de métodos para analizar datos espaciales, en parte tomados prestados de las estadísticas: topología del terreno, coordenadas geográficas, geometría de objetos. Fuente grandes datos En este caso se suelen utilizar sistemas de información geográfica (SIG).

Estadística. La ciencia de recopilar, organizar e interpretar datos, incluido el desarrollo de cuestionarios y la realización de experimentos. Los métodos estadísticos se utilizan a menudo para emitir juicios de valor sobre las relaciones entre ciertos eventos.

Aprendizaje supervisado. Un conjunto de técnicas basadas en tecnologías de aprendizaje automático que permiten identificar relaciones funcionales en conjuntos de datos analizados.

Simulación. El modelado del comportamiento de sistemas complejos se utiliza a menudo para pronosticar, predecir y trabajar en diversos escenarios en la planificación.

Análisis de series de tiempo. Conjunto de técnicas derivadas de la estadística y el procesamiento de señales digitales para analizar secuencias de datos que se repiten en el tiempo. Algunas aplicaciones obvias son el seguimiento del mercado de valores o de las enfermedades de los pacientes.

Aprendizaje no supervisado. Un conjunto de técnicas basadas en tecnologías de aprendizaje automático que permiten identificar relaciones funcionales ocultas en los conjuntos de datos analizados. Tiene características comunes con Análisis de conglomerados.

Visualización. Métodos para presentar gráficamente los resultados del análisis de big data en forma de gráficos o imágenes animadas para simplificar la interpretación y hacer que los resultados sean más fáciles de entender.


La representación visual de los resultados del análisis de big data es de fundamental importancia para su interpretación. No es ningún secreto que la percepción humana es limitada y los científicos continúan investigando para mejorar los métodos modernos de presentación de datos en forma de imágenes, diagramas o animaciones.

Herramientas analíticas

A partir de 2011, algunos de los enfoques enumerados en la subsección anterior o una determinada combinación de ellos permiten implementar motores analíticos para trabajar con big data en la práctica. Entre los sistemas abiertos de análisis de Big Data gratuitos o relativamente económicos podemos recomendar:

  • Revolution Analytics (basado en el lenguaje R para estadística matemática).

De particular interés en esta lista es Apache Hadoop, un software de código abierto que la mayoría de los rastreadores de acciones han demostrado ser un analizador de datos durante los últimos cinco años. Tan pronto como Yahoo abrió el código Hadoop a la comunidad de código abierto, inmediatamente apareció en la industria de TI todo un movimiento de creación de productos basados ​​​​en Hadoop. Casi todas las herramientas de análisis modernas. grandes datos Proporcionar herramientas de integración de Hadoop. Sus desarrolladores son tanto startups como empresas de renombre mundial.

Mercados para soluciones de gestión de Big Data

Big Data Platforms (BDP, Big Data Platform) como medio para luchar contra el acaparamiento digital

Capacidad de analizar grandes datos, coloquialmente llamado Big Data, se percibe como un beneficio, y sin ambigüedades. ¿Pero es esto realmente así? ¿A qué podría conducir la acumulación desenfrenada de datos? Lo más probable es que los psicólogos domésticos, en relación con los humanos, llamen acaparamiento patológico, silogomanía o, en sentido figurado, "síndrome de Plyushkin". En inglés, la pasión viciosa por coleccionar todo se llama hording (del inglés hoard - "stock"). Según la clasificación de las enfermedades mentales, el hording se clasifica como un trastorno mental. En la era digital, el acaparamiento digital se suma al tradicional acaparamiento de materiales y puede afectar tanto a individuos como a empresas y organizaciones enteras ().

Mercado mundial y ruso.

Panorama Big data - Principales proveedores

Interés por las herramientas de recopilación, procesamiento, gestión y análisis. grandes datos Casi todas las empresas líderes de TI lo demostraron, lo cual es bastante natural. En primer lugar, se enfrentan directamente a este fenómeno en su propio negocio y, en segundo lugar, grandes datos abrir excelentes oportunidades para desarrollar nuevos nichos de mercado y atraer nuevos clientes.

Han aparecido en el mercado muchas startups que hacen negocios procesando grandes cantidades de datos. Algunos de ellos utilizan infraestructura de nube ya preparada proporcionada por grandes actores como Amazon.

Teoría y práctica del Big Data en las industrias

Historia del desarrollo

2017

Previsión de TmaxSoft: la próxima “ola” de Big Data requerirá la modernización del DBMS

Las empresas saben que las grandes cantidades de datos que acumulan contienen información importante sobre sus negocios y clientes. Si una empresa puede aplicar con éxito esta información, tendrá una ventaja significativa sobre sus competidores y podrá ofrecer mejores productos y servicios que los de ellos. Sin embargo, muchas organizaciones todavía no utilizan eficazmente grandes datos debido a que su infraestructura de TI heredada no puede proporcionar la capacidad de almacenamiento, los procesos de intercambio de datos, las utilidades y las aplicaciones necesarias para procesar y analizar grandes cantidades de datos no estructurados para extraer información valiosa de ellos, indicó TmaxSoft.

Además, la mayor potencia de procesamiento necesaria para analizar volúmenes de datos cada vez mayores puede requerir una inversión significativa en la infraestructura de TI heredada de una organización, así como recursos de mantenimiento adicionales que podrían usarse para desarrollar nuevas aplicaciones y servicios.

El 5 de febrero de 2015, la Casa Blanca publicó un informe que analiza cómo las empresas están utilizando " grandes datos» cobrar precios diferentes a diferentes clientes, una práctica conocida como “discriminación de precios” o “precios personalizados”. El informe describe los beneficios del big data tanto para vendedores como para compradores, y sus autores concluyen que muchas de las cuestiones planteadas por el big data y los precios diferenciales pueden abordarse mediante las leyes y regulaciones antidiscriminatorias existentes que protegen los derechos de los consumidores.

El informe señala que en este momento sólo hay evidencia anecdótica de cómo las empresas están utilizando big data en el contexto del marketing personalizado y precios diferenciados. Esta información muestra que los vendedores utilizan métodos de fijación de precios que se pueden dividir en tres categorías:

  • estudio de la curva de demanda;
  • Precios orientados y diferenciados basados ​​en datos demográficos; Y
  • marketing conductual dirigido (behavioral targeting) y precios individualizados.

Estudiar la curva de demanda: Para determinar la demanda y estudiar el comportamiento del consumidor, los especialistas en marketing suelen realizar experimentos en esta área en los que los clientes se asignan aleatoriamente a una de dos posibles categorías de precios. “Técnicamente, estos experimentos son una forma de fijación de precios diferenciales porque dan como resultado precios diferentes para los clientes, incluso si son “no discriminatorios” en el sentido de que todos los clientes tienen la misma probabilidad de ser “enviados” a un precio más alto”.

Gobierno: Es la práctica de presentar productos a los consumidores en función de su pertenencia a un grupo demográfico específico. Por ejemplo, el sitio web de una empresa de informática puede ofrecer la misma computadora portátil a diferentes tipos de clientes a diferentes precios según la información que ellos mismos reportan (por ejemplo, dependiendo de si el usuario es un usuario gubernamental, académico o comercial, o un individuo). o en su ubicación geográfica (por ejemplo, determinada por la dirección IP de una computadora).

Marketing conductual dirigido y precios personalizados: En estos casos, la información personal de los clientes se utiliza para orientar la publicidad y personalizar los precios de ciertos productos. Por ejemplo, los anunciantes en línea utilizan datos recopilados por redes publicitarias y mediante cookies de terceros sobre la actividad de los usuarios en línea para orientar sus anuncios. Este enfoque, por un lado, permite a los consumidores recibir publicidad de bienes y servicios de su interés. Sin embargo, puede causar preocupación a aquellos consumidores que no desean ciertos tipos de datos personales (como información sobre visitas a sitios web). vinculados a cuestiones médicas y financieras) fueron recogidos sin su consentimiento.

Aunque el marketing conductual dirigido está muy extendido, hay relativamente poca evidencia de fijación de precios personalizados en el entorno online. El informe especula que esto puede deberse a que los métodos aún se están desarrollando o a que las empresas dudan en utilizar precios personalizados (o prefieren guardar silencio al respecto), tal vez por temor a una reacción violenta de los consumidores.

Los autores del informe sugieren que "para el consumidor individual, el uso de big data presenta claramente tanto beneficios como riesgos potenciales". Si bien reconoce que los macrodatos plantean problemas de transparencia y discriminación, el informe sostiene que las leyes existentes contra la discriminación y de protección al consumidor son suficientes para abordarlos. Sin embargo, el informe también destaca la necesidad de una "supervisión continua" cuando las empresas utilizan información confidencial de maneras que no son transparentes o que no están cubiertas por los marcos regulatorios existentes.

Este informe continúa los esfuerzos de la Casa Blanca para examinar el uso de big data y los precios discriminatorios en Internet y las consecuencias resultantes para los consumidores estadounidenses. Anteriormente se informó que el Grupo de Trabajo de Big Data de la Casa Blanca publicó su informe sobre este tema en mayo de 2014. La Comisión Federal de Comercio (FTC) también abordó estas cuestiones durante su taller de septiembre de 2014 sobre discriminación de big data.

2014

Gartner disipa mitos sobre Big Data

Una nota de investigación de otoño de 2014 de Gartner enumera una serie de mitos comunes sobre Big Data entre los líderes de TI y los refuta.

  • Todo el mundo está implementando sistemas de procesamiento de Big Data más rápido que nosotros

El interés en las tecnologías Big Data está en su punto más alto: el 73% de las organizaciones encuestadas por los analistas de Gartner este año ya están invirtiendo o planean hacerlo. Pero la mayoría de estas iniciativas aún se encuentran en las primeras etapas y sólo el 13% de los encuestados ya ha implementado dichas soluciones. Lo más difícil es determinar cómo extraer ingresos del Big Data y decidir por dónde empezar. Muchas organizaciones se quedan estancadas en la etapa piloto porque no pueden vincular la nueva tecnología a procesos comerciales específicos.

  • Tenemos tantos datos que no hay necesidad de preocuparse por pequeños errores en ellos.

Algunos administradores de TI creen que las pequeñas fallas en los datos no afectan los resultados generales del análisis de grandes volúmenes. Cuando hay muchos datos, cada error individual en realidad tiene menos impacto en el resultado, señalan los analistas, pero los errores en sí también se vuelven más numerosos. Además, la mayoría de los datos analizados son externos, de estructura u origen desconocido, por lo que la probabilidad de errores aumenta. Entonces, en el mundo del Big Data, la calidad es mucho más importante.

  • Las tecnologías Big Data eliminarán la necesidad de integración de datos

Big Data promete la capacidad de procesar datos en su formato original, con generación automática de esquemas a medida que se leen. Se cree que esto permitirá analizar información de las mismas fuentes utilizando múltiples modelos de datos. Muchos creen que esto también permitirá a los usuarios finales interpretar cualquier conjunto de datos como mejor les parezca. En realidad, la mayoría de los usuarios suelen preferir la forma tradicional con un esquema ya preparado, donde los datos tienen el formato adecuado y existen acuerdos sobre el nivel de integridad de la información y cómo debe relacionarse con el caso de uso.

  • No tiene sentido utilizar almacenes de datos para análisis complejos

Muchos administradores de sistemas de gestión de la información creen que no tiene sentido dedicar tiempo a crear un almacén de datos, dado que los sistemas analíticos complejos dependen de nuevos tipos de datos. De hecho, muchos sistemas analíticos complejos utilizan información de un almacén de datos. En otros casos, es necesario preparar adicionalmente nuevos tipos de datos para su análisis en sistemas de procesamiento de Big Data; Es necesario tomar decisiones sobre la idoneidad de los datos, los principios de agregación y el nivel de calidad requerido; dicha preparación puede realizarse fuera del almacén.

  • Los almacenes de datos serán reemplazados por lagos de datos

En realidad, los proveedores engañan a los clientes al posicionar los lagos de datos como un reemplazo del almacenamiento o como elementos críticos de la infraestructura analítica. Las tecnologías de lagos de datos subyacentes carecen de la madurez y la amplitud de funcionalidades que se encuentran en los almacenes. Por lo tanto, según Gartner, los responsables de la gestión de datos deberían esperar hasta que los lagos alcancen el mismo nivel de desarrollo.

Accenture: el 92% de quienes implementaron sistemas big data están satisfechos con los resultados

Entre las principales ventajas del big data, los encuestados mencionaron:

  • “buscando nuevas fuentes de ingresos” (56%),
  • “mejorar la experiencia del cliente” (51%),
  • “nuevos productos y servicios” (50%) y
  • “afluencia de nuevos clientes y mantenimiento de la fidelidad de los antiguos” (47%).

Al introducir nuevas tecnologías, muchas empresas se enfrentaron a problemas tradicionales. Para el 51%, el obstáculo fue la seguridad, para el 47%, el presupuesto, para el 41%, la falta del personal necesario y para el 35%, las dificultades para integrarse con el sistema existente. Casi todas las empresas encuestadas (alrededor del 91%) planean resolver pronto el problema de la escasez de personal y contratar especialistas en big data.

Las empresas son optimistas sobre el futuro de las tecnologías de big data. El 89% cree que cambiarán los negocios tanto como Internet. El 79% de los encuestados señaló que las empresas que no utilicen big data perderán su ventaja competitiva.

Sin embargo, los encuestados no estuvieron de acuerdo sobre qué debería considerarse exactamente big data. El 65% de los encuestados cree que se trata de "archivos de datos de gran tamaño", el 60% cree que se trata de "análisis y análisis avanzados" y el 50% cree que se trata de "herramientas de visualización de datos".

Madrid destina 14,7 millones de euros a la gestión del big data

En julio de 2014 se supo que Madrid utilizaría tecnologías de big data para gestionar las infraestructuras de la ciudad. El coste del proyecto es de 14,7 millones de euros, la base de las soluciones implementadas serán tecnologías de análisis y gestión de big data. Con su ayuda, la administración de la ciudad gestionará el trabajo con cada proveedor de servicios y pagará en consecuencia según el nivel de los servicios.

Estamos hablando de contratistas de la administración que vigilan el estado de las calles, el alumbrado, el riego, los espacios verdes, limpian y retiran el territorio, así como el reciclaje de residuos. Durante el proyecto, se desarrollaron 300 indicadores clave de desempeño de los servicios de la ciudad para inspectores especialmente designados, sobre la base de los cuales se realizarán 1,5 mil controles y mediciones diferentes diariamente. Además, la ciudad comenzará a utilizar una innovadora plataforma tecnológica denominada Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Expertos: Big Data está en su apogeo

Sin excepción, todos los proveedores del mercado de la gestión de datos están desarrollando actualmente tecnologías para la gestión de Big Data. Esta nueva tendencia tecnológica también es discutida activamente por la comunidad profesional, tanto desarrolladores como analistas de la industria y consumidores potenciales de este tipo de soluciones.

Como descubrió Datashift, en enero de 2013, hubo una ola de discusiones sobre “ grandes datos"superó todas las dimensiones imaginables. Tras analizar el número de menciones de Big Data en las redes sociales, Datashift calculó que en 2012 el término fue utilizado alrededor de 2 mil millones de veces en publicaciones creadas por alrededor de 1 millón de autores diferentes en todo el mundo. Esto equivale a 260 publicaciones por hora, con un pico de 3.070 menciones por hora.

Gartner: uno de cada dos CIO está dispuesto a gastar dinero en Big Data

Después de varios años de experimentación con tecnologías Big Data y las primeras implementaciones en 2013, la adaptación de este tipo de soluciones aumentará significativamente, predice Gartner. Los investigadores encuestaron a líderes de TI de todo el mundo y descubrieron que el 42% de los encuestados ya han invertido en tecnologías de Big Data o planean realizar dichas inversiones durante el próximo año (datos a marzo de 2013).

Las empresas se ven obligadas a gastar dinero en tecnologías de procesamiento grandes datos, dado que el panorama de la información está cambiando rápidamente, necesitamos nuevos enfoques para el procesamiento de la información. Muchas empresas ya se han dado cuenta de que grandes cantidades de datos son fundamentales y trabajar con ellos les permite lograr beneficios que no están disponibles utilizando fuentes tradicionales de información y métodos de procesamiento. Además, el debate constante sobre el tema "big data" en los medios alimenta el interés por las tecnologías relevantes.

Frank Buytendijk, vicepresidente de Gartner, incluso pidió a las empresas que moderen sus esfuerzos, ya que algunas temen quedarse atrás de sus competidores en la adopción de Big Data.

"No hay necesidad de preocuparse; las posibilidades de implementar ideas basadas en tecnologías de big data son prácticamente infinitas", afirmó.

Gartner predice que para 2015, el 20% de las empresas Global 1000 tendrán un enfoque estratégico en la “infraestructura de la información”.

Anticipándose a las nuevas oportunidades que traerán las tecnologías de procesamiento de big data, muchas organizaciones ya están organizando el proceso de recopilación y almacenamiento de diversos tipos de información.

Para las organizaciones educativas, gubernamentales e industriales, el mayor potencial de transformación empresarial reside en la combinación de datos acumulados con los llamados datos oscuros (literalmente, “datos oscuros”), estos últimos incluyen mensajes de correo electrónico, multimedia y otros contenidos similares. Según Gartner, los ganadores en la carrera de los datos serán aquellos que aprendan a manejar una variedad de fuentes de información.

Encuesta de Cisco: Big Data ayudará a aumentar los presupuestos de TI

El Informe tecnológico mundial conectado de Cisco de primavera de 2013, realizado en 18 países por la firma de investigación independiente InsightExpress, encuestó a 1.800 estudiantes universitarios y un número igual de jóvenes profesionales de entre 18 y 30 años. La encuesta se realizó para conocer el nivel de preparación de los departamentos de TI para implementar proyectos. Grandes datos y obtener información sobre los desafíos involucrados, las deficiencias tecnológicas y el valor estratégico de dichos proyectos.

La mayoría de las empresas recopilan, registran y analizan datos. Sin embargo, según el informe, muchas empresas se enfrentan a una serie de complejos desafíos empresariales y de tecnología de la información con Big Data. Por ejemplo, el 60 por ciento de los encuestados admite que las soluciones de Big Data pueden mejorar los procesos de toma de decisiones y aumentar la competitividad, pero sólo el 28 por ciento dijo que ya están recibiendo beneficios estratégicos reales de la información acumulada.

Más de la mitad de los ejecutivos de TI encuestados creen que los proyectos de Big Data ayudarán a aumentar los presupuestos de TI en sus organizaciones, ya que habrá mayores demandas de tecnología, personal y habilidades profesionales. Al mismo tiempo, más de la mitad de los encuestados esperan que proyectos de este tipo aumenten los presupuestos de TI en sus empresas ya en 2012. El 57 por ciento confía en que Big Data aumentará sus presupuestos en los próximos tres años.

El 81 por ciento de los encuestados dijo que todos (o al menos algunos) proyectos de Big Data requerirán el uso de computación en la nube. Por lo tanto, la difusión de las tecnologías de la nube puede afectar la velocidad de adopción de soluciones de Big Data y el valor comercial de estas soluciones.

Las empresas recopilan y utilizan muchos tipos diferentes de datos, tanto estructurados como no estructurados. Estas son las fuentes de las que los participantes de la encuesta reciben sus datos (Cisco Connected World Technology Report):

Casi la mitad (48 por ciento) de los líderes de TI predicen que la carga en sus redes se duplicará en los próximos dos años. (Esto es especialmente cierto en China, donde el 68 por ciento de los encuestados comparte esta opinión, y en Alemania, el 60 por ciento). El 23 por ciento de los encuestados espera que la carga de la red se triplique en los próximos dos años. Al mismo tiempo, sólo el 40 por ciento de los encuestados declaró estar preparado para un crecimiento explosivo en el volumen de tráfico de la red.

El 27 por ciento de los encuestados admitió que necesitan mejores políticas de TI y medidas de seguridad de la información.

El 21 por ciento necesita más ancho de banda.

Big Data abre nuevas oportunidades para que los departamentos de TI agreguen valor y establezcan relaciones sólidas con las unidades de negocio, permitiéndoles aumentar los ingresos y fortalecer la posición financiera de la empresa. Los proyectos de Big Data convierten a los departamentos de TI en un socio estratégico para los departamentos comerciales.

Según el 73 por ciento de los encuestados, el departamento de TI se convertirá en el principal impulsor de la implementación de la estrategia Big Data. Al mismo tiempo, los encuestados creen que otros departamentos también participarán en la implementación de esta estrategia. En primer lugar, se trata de los departamentos de finanzas (mencionados por el 24 por ciento de los encuestados), investigación y desarrollo (20 por ciento), operaciones (20 por ciento), ingeniería (19 por ciento), así como marketing (15 por ciento) y ventas ( 14 por ciento).

Gartner: Se necesitan millones de nuevos puestos de trabajo para gestionar big data

El gasto mundial en TI alcanzará los 3.700 millones de dólares en 2013, lo que supone un 3,8% más que el gasto en tecnología de la información en 2012 (la previsión para fin de año es de 3.600 millones de dólares). Segmento grandes datos(Big Data) se desarrollará a un ritmo mucho más rápido, según un informe de Gartner.

Para 2015, se crearán 4,4 millones de puestos de trabajo en tecnología de la información para dar servicio a big data, de los cuales 1,9 millones de puestos de trabajo estarán en . Además, cada uno de esos empleos implicará la creación de tres empleos adicionales fuera del sector de TI, de modo que sólo en Estados Unidos, 6 millones de personas trabajarán para apoyar la economía de la información en los próximos cuatro años.

Según los expertos de Gartner, el principal problema es que no hay suficiente talento en la industria para esto: tanto el sistema educativo público como el privado, por ejemplo en los Estados Unidos, no son capaces de suministrar a la industria una cantidad suficiente de personal calificado. . Así, de los nuevos puestos de trabajo de TI mencionados, sólo uno de cada tres contará con personal.

Los analistas creen que el papel de formar personal de TI calificado debería ser asumido directamente por las empresas que lo necesitan con urgencia, ya que dichos empleados serán su boleto a la nueva economía de la información del futuro.

2012

El primer escepticismo respecto al "Big Data"

Los analistas de Ovum y Gartner sugieren que será un tema de moda en 2012. grandes datos Puede que llegue el momento de liberarse de las ilusiones.

El término "Big Data" en este momento generalmente se refiere al volumen cada vez mayor de información que fluye en línea desde las redes sociales, redes de sensores y otras fuentes, así como a la creciente gama de herramientas utilizadas para procesar los datos e identificar datos relevantes para el negocio. de ello. -tendencias.

"Debido a (o a pesar) del revuelo en torno a la idea de big data, los fabricantes en 2012 observaron esta tendencia con gran esperanza", dijo Tony Bayer, analista de Ovum.

Bayer informó que DataSift realizó un análisis retrospectivo de las menciones de big data en




Arriba