Quin és el problema amb els fitxers petits a Hadoop?
Quin és el problema amb els fitxers petits a Hadoop?

Vídeo: Quin és el problema amb els fitxers petits a Hadoop?

Vídeo: Quin és el problema amb els fitxers petits a Hadoop?
Vídeo: Создание приложений для мобильных устройств, игр, Интернета вещей и многого другого с помощью AWS DynamoDB, автор Рик Хулихан. 2024, Desembre
Anonim

1) Problema de fitxer petit en HDFS : emmagatzemar molt arxius petits que són extremadament més petit que la mida del bloc no es pot gestionar de manera eficient HDFS . Llegint a través arxius petits impliquen moltes cerques i molts salts entre nodes de dades a nodes de dades, la qual cosa és al seu torn un processament de dades ineficient.

A més d'això, quins fitxers tracten problemes de fitxers petits a Hadoop?

1) HAR ( Hadoop Arxiu) Fitxers s'ha presentat tractar el problema dels fitxers petits . HAR ha introduït una capa a la part superior HDFS , que proporcionen una interfície per dossier accedint. Utilitzant Hadoop comanda d'arxiu, HAR Fitxers es creen, que executa a MapReduce feina per empaquetar Fitxers s'està arxivant més petit nombre de Fitxers HDFS.

A més, puc tenir diversos fitxers a HDFS que utilitzin diferents mides de bloc? Per defecte mida de bloc és de 64 MB. vostè llauna canvieu-lo segons les vostres necessitats. Venint a la teva pregunta sí tu pot crear diversos fitxers en variar mides de bloc però en temps real això voluntat no afavoreix la producció.

A més, per què HDFS no gestiona els fitxers petits de manera òptima?

Problemes amb arxius petits i HDFS Cada dossier , directori i bloqueig HDFS és representat com un objecte a la memòria del namenode, cadascun dels quals ocupa 150 bytes, com a regla general. A més, HDFS no ho és dissenyats per accedir de manera eficient arxius petits : això és dissenyat principalment per a l'accés en streaming de grans dimensions Fitxers.

Per què Hadoop és lent?

Lent Velocitat de processament Aquest disc cerca pren temps, per la qual cosa tot el procés és molt lent . Si Hadoop processa dades en petit volum, és molt lent comparativament. És ideal per a grans conjunts de dades. Com Hadoop té un motor de processament per lots al nucli, la seva velocitat per al processament en temps real és menor.

Recomanat: