quinta-feira, 27 de setembro de 2007

DataWarehouse - Definições e Características






Definição


Um data warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.

O data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.

A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.


Características

Orientação por assunto
A orientação por assunto é uma característica marcante de um DW, pois toda modelagem será voltada em torno dos principais assuntos da empresa. Enquanto todos os sistemas transacionais estão voltados para processos e aplicações específicas, os DWs objetivam assuntos.

Integração
Facilmente o mais importante aspecto do ambiente de Data Warehouse é que dados criados dentro de um ambiente de Data Warehouse são integrados. SEMPRE. COM NENHUMA EXCEÇÃO. A melhor essência do ambiente de warehouse é que dados contidos dentro dos limites do warehouse estão integrados. A integração mostra-se em muitas diferentes maneiras: na convenção consistente de nomes, na forma consistente das variáveis, na estrutura consistente de códigos, nos atributos físicos consistente dos dados, e assim por diante.

Variância no tempo
Segundo W.H.Inmon, os Data Warehouses são variáveis em relação ao tempo, isso nada mais é do que manter o histórico dos dados durante um período de tempo muito superior ao dos sistemas transacionais, vejamos abaixo mais algumas características.

Num DW é normal mantermos um horizonte de tempo bem superior ao dos sistemas transacionais, enquanto no OLTP mantemos um histórico curto dos dados, no DW guardamos esses dados num período maior. Isso é bastante lógico porque num sistema transacional a finalidade é de fornecer as informações no momento exato, já no Data Warehouse, o principal objetivo é analisar o comportamento das mesmas durante um período de tempo maior. Fundamentados nessa variação, os gerentes tomam as decisões em cima de fatos e não de intuições.

Não volatidade
No DW existem somente duas operações, a carga inicial e as consultas dos front-ends aos dados. Isso pode ser afirmado porque a maneira como os dados são carregados e tratados é completamente diferente dos sistemas transacionais. Enquanto nesses sistemas temos vários controles e updates de registros, no DW temos somente inserts e selects de dados. Por exemplo, num sistema de contabilidade podemos fazer alterações nos registros. Já no DW, o que acontece é somente ler os dados na origem e gravá-los no destino, ou seja, no banco modelado multidimensional.

As características do Data Warehouse levam a um ambiente que é muito diferente dos ambientes operacionais clássicos. Como a fonte de quase todos os dados do Data Warehouse é o ambiente operacional, é sempre uma tentação pensar que existe uma redundância maciça do dados entre este ambiente o e Data Warehouse. Deve-se considerar os seguintes fatos:

*Os dados são filtrados a medida que passam de um ambiente para o outro
*O horizonte de tempo de dados é muito diferente do ambiente operacional para o Data Warehouse
*O Data Warehouse possui dados resumidos os quais não são encontrados no ambiente operacional
*Os dados sofrem uma transformação fundamental na medida em que passam para o Data Warehouse.

Localização
Os dados podem estar fisicamente armazenados de três formas:

Num único local centralizando o banco de dados em um DW integrado, procurando maximizar o poder de processamento e agilizando a busca dos dados. Esse tipo de armazenagem é bastante utilizada, porém há o inconveniente do investimento em hardware para comportar a base de dados muito volumosa, e o poderio de processamento elevado para atender satisfatoriamente as consultas simultâneas de muitos usuários.

Os distribuídos são Data Marts, armazenados por áreas de interesse. Por exemplo, os dados da gerência financeira num servidor, dados de marketing noutro e dados da contabilidade num terceiro lugar. Essa pode ser uma saída interessante para quem precisa de bastante performance, pois isso não sobrecarrega um único servidor, e as consultas serão sempre atendidas em tempo satisfatório.

Armazenados por níveis de detalhes, em que as unidades de dados são mantidas no DW. Pode-se armazenar dados altamente resumidos num servidor, dados resumidos noutro nível de detalhe intermediário no segundo servidor e os dados mais detalhados (atômicos), num terceiro servidor. Os servidores da primeira camada podem ser otimizados para suportar um grande número de acessos e um baixo volume de dados, enquanto alguns servidores nas outras camadas podem ser adequados para processar grandes volumes de dados, mas baixo número de acesso.

Para mudar de nível é necessário que ocorra um dos seguintes eventos: os dados são sintetizados, arquivados ou eliminados.

O processo de sintetização interage no nível mais alto de detalhamento (dados detalhados atuais) para os níveis seguintes (levemente e altamente resumidos). Quando termina determinado período de tempo (semana, mês, trimestre, ano), os dados são indexados por estes períodos e armazenados nos seus respectivos níveis de detalhamento. Para facilitar o acesso aos dados, estes devem estar sintetizados e indexados de várias maneiras. Portanto, ao mesmo tempo que ocorre o agrupamento por datas, também pode ocorrer a sintetização por grupos e subgrupos.

Cada nível possui um horizonte de tempo definido para a permanência dos dados. Então o fato de os dados serem transportados para níveis mais elevados não implica na exclusão do nível anterior. Um processo denominado processo de envelhecimento ocorre quando este limite é ultrapassado, e portanto os dados podem ser transferidos para meios de armazenamentos alternativos ou passar de dados detalhados atuais para dados detalhados antigos.

Credibilidade dos Dados
A credibilidade dos dados é o muito importante para o sucesso de qualquer projeto. Discrepâncias simples de todo tipo podem causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas. Dados não dignos de confiança podem resultar em relatório inúteis, que não têm importância alguma, assim como uma lista de pacientes do sexo masculino e grávidos, por exemplo.


Granularidade
Granularidade nada mais é do que o nível de detalhe ou de resumo dos dados existentes num DW. Quanto maior for o nível de detalhes, menor será o nível de granularidade. O nível de granularidade afeta diretamente o volume de dados armazenados no DW, e ao mesmo tempo o tipo de consulta que pode ser respondida.

Fontes:
http://www.dwbrasil.com.br/html/artdw_carac.html (principal)
http://pt.wikipedia.org/wiki/Data_Warehouse
http://www.dei.unicap.br/~almir/seminarios/98.2/DataWareHouse/dw.html

2 comentários:

Anônimo disse...

Não está errada uma característica do DW ?? Ele é Variável com o tempo, não é ?

Tere disse...

Mapa corrigido,
Obrigada

Tradutor/Translate

web counter