Pentaho lo use pero para DataWarehouse con BigData no se mucho ahora me estoy 
leyendo el asunto de de MapReduce pero desgraciadamente Postgres no tiene el 
asunto de las query en paralelo todavia.

Seguire investigando a ver como me va en esto


________________________________
From: Mario Soto Cordones <marioa.soto.cordo...@gmail.com>
Sent: Wednesday, November 4, 2015 1:39 PM
To: 'Edwin Quijada'
Cc: pgsql-es-ayuda@postgresql.org
Subject: RE: [pgsql-es-ayuda] BigData con PostgreSQL


Hola Edwin



Mira éste link, acá encontrarás una explicación de las diferencias entre 
BigData y DataWareHouse. Básicamente la implementación entre uno y otro va a 
depender de lo que se requiere.



Por lo general La gente quiere una solución de BigData, porque en muchas 
empresas existe una gran cantidad de datos. Y en aquellas corporaciones los 
datos  pueden contener mucha información valiosa que puede conducir a mejores 
decisiones que, a su vez, puede conducir a mayores ingresos, mayor rentabilidad 
y más clientes. Y eso es lo que quiere la mayoría de las corporaciones.



Por otro lado, generalmente se quiere una solución de DataWareHouse , con el 
fin de tomar decisiones informadas. Con el fin de saber realmente lo que está 
pasando en su empresa, necesita datos que es confiable, creíble y accesible 
para todos.



Cuando se quiere comparar una solución de BigData y otra de DataWareHpuse, nos 
encontramos que una solución de BigData es una tecnología y que el 
DataWareHouse es una arquitectura. Son dos cosas muy diferentes. Una tecnología 
es sólo eso - un medio para almacenar y gestionar grandes cantidades de datos. 
Un DataWareHouse es una forma de organizar los datos para que haya 
credibilidad. Cuando alguien toma los datos de un DataWareHouse, esa persona 
sabe que otras personas están usando los mismos datos para otros fines.



El  DataWareHouse  viene acompañado de otros conceptos como etl, hechos, 
dimensiones, modelo estralla, copo de nieve, cubos de información ,etc.



Ahora bien PostgreSQL permite de buena forma implementar tanto BigData como 
DataWareHose, también te puedes ayudar de herramientas como por ejemplo Pentaho 
entre otras.



Saludos Cordiales



Mario Soto



De: pgsql-es-ayuda-ow...@postgresql.org 
[mailto:pgsql-es-ayuda-ow...@postgresql.org] En nombre de Edwin Quijada
Enviado el: martes, 03 de noviembre de 2015 20:28
Para: Lennin Caro <lennin.c...@yahoo.com>; pgsql-es-ayuda@postgresql.org
Asunto: RE: [pgsql-es-ayuda] BigData con PostgreSQL



So pena de ser fusilado, que diferencias encontrarias entre BigData y 
DataWarehouse, solamente el uso de JSON ??
La pregunta viene porque he implementado warehouse con Postgres y Mondrian y me 
ha ido bien pero ahora este concepto aun no acabo de digerirlo por mas que lo 
leo, sigo pensando que es warehouse con JSON, ignorancia mia talvez, pero ahora 
como todo es nuevo pues no se


________________________________

Date: Tue, 3 Nov 2015 22:08:02 +0000
From: lennin.c...@yahoo.com<mailto:lennin.c...@yahoo.com>
To: listas_quij...@hotmail.com<mailto:listas_quij...@hotmail.com>; 
pgsql-es-ayuda@postgresql.org<mailto:pgsql-es-ayuda@postgresql.org>
Subject: Re: [pgsql-es-ayuda] BigData con PostgreSQL





On Tuesday, November 3, 2015 4:41 PM, Edwin Quijada 
<listas_quij...@hotmail.com<mailto:listas_quij...@hotmail.com>> wrote:



Estoy tratando de implementar BigData en un cliente usando Postgres. Su bases 
de ddatos estan en MSSQL y PostgreSQL necesito informacion sobre BigData con 
Postgres. Anteriormente use mucho Mondrian para Warehouse con Postgres pero al 
parecer hay diferencias con BigData. Alguien tiene algun material sobre 
Postgres con BigData que me pueda facilitar o algun caso de exito sobre esto.

Voy arriesgarme a responder en base a mi experiencia.



He trabajado con PostgreSQL para tener algo parecido a BigData, no es realmente 
BigData en PostgreSQL ya que muchas de las cosas que se necesitan para el 
analisis de los datos los hago con herramientas externas como pyhton. Ahora he 
usado tipos de datos JSONB para almacenar los datos en tablas logrando mezclar 
SQL con NoSQL, esto me a dado muy buenos resultados en cuestion de tiempos de 
respuesta,  los problemas que he encontrado hasta el momento son:



Los indices en los campos tipo JSON no siempre son eficientes

No he enontrado una manera de aplicar procesamiento en cluster al estilos 
MongoDB o Hadoop

Los objetos JSONB no tiene un metodo de actualizcion por nodos del arreglo, hay 
que actualizar el campo completo lo cual genera una recarga de I/O



Para la version 9.5 hay mejoras para estos puntos ademas de funciones (ROLLUP, 
CUBE y GROUPING SETS) para manipular los datos OLAP, adicionalmente un nuevo 
tipo de indices de nombre BRIN aportado por Alvaro Herrera con lo cual mejorara 
el consumo de recursoso al usar los indices.



Aun sigo trabajando e investigando con esto, cualquier cosa te ayudo en lo 
posible


Responder a