Leia um arquivo parquet para um arquivo JSON e carregue no seu repositório do IRIS
De acordo com o Databricks, Apache Parquet é um formato de dados de código aberto orientado por colunas que é projetado para o armazenamento e recuperação de dados eficiente. Ele fornece esquemas eficientes de compactação e codificação de dados com um desempenho aprimorado para lidar com dados complexos em massa. O Apache Parquet foi criado para ser um formato de troca comum para ambas as cargas de trabalho em lote e interativas. É semelhante a outros formatos de arquivo de armazenamento colunar disponíveis no Hadoop, especificamente, RCFile e ORC. (fonte: https://www.databricks.com/glossary/what-is-parquet). Confira abaixo as características e os benefícios do Parquet de acordo com o Databricks:
Características do Parquet
- Formato de arquivo gratuito e de código aberto.
- Agnóstico a linguagens.
- Formato baseado em colunas: os arquivos são organizados por coluna, e não por linha, o que economiza armazenamento e acelera as consultas de análise.
- Usado para casos de uso de análise (OLAP), geralmente, em conjunto com bancos de dados OLTP tradicionais.
- Compressão e descompressão de dados altamente eficiente.
- É compatível com tipos de dados complexos e estruturas de dados aninhadas avançadas.
Benefícios do Parquet
- É bom para armazenar big data de qualquer tipo (imagens, vídeos, documentos e tabelas de dados estruturados).
- Economiza armazenamento na nuvem ao usar uma compressão de colunas altamente eficiente e esquemas de codificação flexíveis para colunas com diferentes tipos de dados.
- Taxa de transferência de dados mais alta e melhor desempenho usando técnicas como data skipping, onde as consultas que buscam valores específicos de colunas não precisam ler toda a linha de dados.
Um padrão tão importante quanto esse não poderia ser deixado de fora do InterSystems IRIS, o melhor Data Fabric no mercado. Portanto, agora é possível usar o aplicativo iris parquet (https://openexchange.intersystems.com/package/iris-parquet) para ler e escrever dados parquet.
Procedimentos para instalação
Instalação com Docker
1. Faça o git pull/clone do repositório em qualquer diretório local:
$ git clone https://github.com/yurimarx/iris-parquet.git2. Abra o terminal nesse diretório e chame o comando para compilar e executar o InterSystems IRIS no contêiner:
$ docker-compose build$ docker-compose up -dInstalação com ZPM
1. Execute no terminal:
USER> zpm install iris-parquet2. Instale os arquivos do hadoop e defina a variável ENV como HADOOP_HOME:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz && \
tar -xzf hadoop-3.3.6.tar.gz && \
echo "export HADOOP_HOME=//hadoop-3.3.6"Escreva Parquet a partir do SQL
Há duas opções, a partir do ObjectScript ou da API REST:
1. Do ObjectScript (sample: mude pelos seus valores):
Set result = ##class(dc.irisparquet.IrisParquet).SQLToParquet(
"personSchema",
"persons",
"jdbc:IRIS://localhost:1972/IRISAPP",
"SELECT * FROM dc_irisparquet.SamplePerson",
"/tmp/sample.parquet"
)2. Da API REST:
.png)
Ler Parquet para JSON
Há duas opções, a partir do ObjectScript ou da API REST:
1. Do ObjectScript (sample: mude pelos seus valores):
Set result = ##class(dc.irisparquet.IrisParquet).ParquetToJSON(
"/tmp/"_source.FileName,
"/tmp/content.json"
)2. Da API REST:
.png)