Category Archives: Pentaho Data Integration

Kettle ou Pentaho Data Integration?

Pentaho Data Integration (PDI), também conhecido como Kettle, é uma ferramenta de código aberto, desenvolvida em Java, para Extração, Transformação e Carga (ETL) de dados, ferramenta esta integrante da suíte Pentaho de Business Inteligence (BI).
Todos os processos são criados com uma ferramenta gráfica, que pode ser usada independentemente ou integrada à outras ferramentas do Pentaho.
Dentre as diversas funções, o Pentaho Data Integration, como ferramenta de ETL, pode ser usado principalmente para:
  • Extração: coletar dados de diversas fontes. Podem ser arquivos de diferentes formatos ou das mais distintas bases de dados;
  • Transformação: mover e modificar dados, limpando, denormalizando, agregando e enriquecendo esses dados durante o processo;
  • Carga: armazenar os dados em seu destino final.  Também podem ser arquivos de diversos formatos ou um outro banco de dados.   Normalmente são armazenados em um Data Warehouse.

Tutorial Kettle – Pentaho Data Integration

Pentaho Data Integration (PDI, também chamado Kettle) é um componente da suíte do Pentaho responsável pelos processos de Extração, Transformação e Carga (ETL). Apesar de ferramentas de ETL serem usadas em projetos de data warehouse, PDI pode também ser usado para:
* Migração de dados entre aplicações/banco de dados
* Exportar dados de banco de dados para arquivos texto
* Carregar massivamente dados em banco de dados
* Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse
* Integração de aplicações.
PDI é fácil de usar. Todos os processos são criados com uma ferramenta gráfica onde você especifica o que fazer sem escrever nenhuma linha de código. Por conta disso você pode dizer que PDI é orientado a metadado.
O PDI pode ser usado como uma aplicação independente ou como parte da suíte do Pentaho. Como uma ferramenta de ETL, é a mais popular ferramenta open source disponível. PDI suporta um vasto conjunto de formatos de entrada e saída de dados, incluindo arquivos texto, arquivos .xls (Excel) além de banco de dados comerciais e open source. Além disso, a capacidade de transformação de dados do PDI permite que você manipule dados com pouquíssimas limitações.
 

Através de um simples exemplo “Hello World”, esse tutorial mostrará como é fácil trabalhar com o PDI e mostrará também o básico, preparando você para outras transformações mais complexas.
Continue reading Tutorial Kettle – Pentaho Data Integration