Què és RDD a Scala?
Què és RDD a Scala?

Vídeo: Què és RDD a Scala?

Vídeo: Què és RDD a Scala?
Vídeo: Scala 3. OpenJDK vs Oracle JDK. Марсоход Чжужун и CopterPack. [MJC News #7] #ityoutubersru 2024, De novembre
Anonim

Conjunts de dades distribuïts resistents ( RDD ) és una estructura de dades fonamental de Spark. És una col·lecció immutable distribuïda d'objectes. RDDs pot contenir qualsevol tipus de Python, Java o Scala objectes, incloses les classes definides per l'usuari. Formalment, an RDD és una col·lecció de registres particionats només de lectura.

També la pregunta és, quina diferència hi ha entre RDD i DataFrame?

RDD – RDD és una col·lecció distribuïda d'elements de dades repartits per moltes màquines en el clúster. RDDs són un conjunt d'objectes Java o Scala que representen dades. DataFrame – A DataFrame és una col·lecció distribuïda de dades organitzades en columnes amb nom. Conceptualment és igual a una taula en a base de dades relacional.

A més, com es distribueix RDD? Resistent Distribuït Conjunts de dades ( RDDs ) Són un distribuïts col·lecció d'objectes, que s'emmagatzemen a la memòria o als discos de diferents màquines d'un clúster. Un solter RDD es pot dividir en diverses particions lògiques perquè aquestes particions es puguin emmagatzemar i processar en diferents màquines d'un clúster.

Com funciona Spark RDD?

RDDs en Espurna tenir una col·lecció de registres que contenen particions. RDDs en Espurna es divideixen en petits fragments lògics de dades, coneguts com a particions, quan s'executa una acció, s'iniciarà una tasca per partició. Particions a RDDs són les unitats bàsiques del paral·lelisme.

Quin és el RDD o el DataFrame més ràpid?

RDD - Durant la realització d'operacions senzilles d'agrupació i agregació RDD L'API és més lenta. DataFrame - En realitzar anàlisis exploratòries, crear estadístiques agregades de dades, marcs de dades són més ràpid . RDD - Quan vols transformació i accions de baix nivell, fem servir RDDs . A més, quan necessitem abstraccions d'alt nivell les fem servir RDD.

Recomanat: