Taula de continguts:

Quins són els diferents formats de fitxer a Hadoop?
Quins són els diferents formats de fitxer a Hadoop?

Vídeo: Quins són els diferents formats de fitxer a Hadoop?

Vídeo: Quins són els diferents formats de fitxer a Hadoop?
Vídeo: Сводные таблицы Excel с нуля до профи за полчаса + Дэшборды! | 1-ое Видео курса "Сводные Таблицы" 2024, Desembre
Anonim

Per sort per a vosaltres, la comunitat de big data s'ha decidit bàsicament en tres optimitzats formats de fitxer per utilitzar en Hadoop clústers: Optimized Row Columnar (ORC), Avro i Parquet.

Posteriorment, també es pot preguntar, quins són els diferents tipus de formats de dades?

N'hi ha tres tipus de dades cartografia i GIS formats de dades . Cadascú tipus es gestiona de manera diferent.

Tipus de format de dades

  • Fitxers basats en fitxers, fitxers de disseny de Microstation (DGN), imatges GeoTIFF.
  • Basat en directoris: ESRI ArcInfo Coverages, US Census TIGER.
  • Connexions de bases de dades - PostGIS, ESRI ArcSDE, MySQL.

A més, quin format de fitxer és millor al rusc? RCFile és columnar de fila format de fitxer . Aquesta és una altra forma de Format de fitxer Hive que ofereix altes taxes de compressió a nivell de fila. Si necessiteu realitzar diverses files alhora, podeu utilitzar RCFile format.

Tenint-ho en compte, quins són els formats d'entrada habituals a Hadoop?

InputFormat crea Inputsplit

  • Els formats d'entrada més comuns són:
  • FileInputFormat: és la classe base per a tots els formats d'entrada basats en fitxers.
  • TextInputFormat: és el format d'entrada predeterminat de MapReduce.
  • KeyValueTextInputFormat: és similar a TextInputFormat.
  • Seguiu l'enllaç per obtenir més informació sobre InputFormat a Hadoop.

Què és el format de fitxer orc a Hadoop?

Format de fitxer ORC La columna de fila optimitzada ( ORC ) format de fitxer proporciona una manera altament eficient d'emmagatzemar les dades de Hive. Va ser dissenyat per superar les limitacions de l'altre Rusc formats de fitxer . Utilitzant Fitxers ORC millora el rendiment quan Hive està llegint, escrivint i processant dades.

Recomanat: