Què és reduir per clau?
Què és reduir per clau?

Vídeo: Què és reduir per clau?

Vídeo: Què és reduir per clau?
Vídeo: Mesures atrevides en la mobilitat: la clau per reduir els efectes del canvi climàtic 2024, Setembre
Anonim

La funció Spark RDD reduceByKey combina els valors de cadascun clau utilitzant un associatiu reduir funció. Això significa de manera intuïtiva que aquesta funció produeix el mateix resultat quan s'aplica repetidament al mateix conjunt de dades RDD amb múltiples particions, independentment de l'ordre de l'element.

Aleshores, quina diferència hi ha entre groupByKey i reduceByKey?

groupByKey () és només per agrupar el vostre conjunt de dades en funció d'una clau. reduceByKey () és una cosa així com agrupació + agregació. reduceByKey es pot utilitzar quan executem un conjunt de dades gran. aggregateByKey() és lògicament el mateix que reduceByKey () però us permet tornar el resultat diferents tipus.

Sapigueu també, per què reduir l'acció és una guspira? Reducció d'espurnes l'operació és una acció tipus d'operació i activa una execució completa del DAG per a totes les instruccions mandroses alineades. Espurna RDD reduir La funció redueix els elements d'aquest RDD utilitzant l'operador binari commutatiu i associatiu especificat. Reducció d'espurnes El funcionament és gairebé semblant a reduir mètode a Scala.

Al costat de dalt, què és Pairrdd?

Spark ofereix operacions especials en RDD que contenen parells clau/valor. Aquests RDD s'anomenen RDD de parells. Els parells RDD són un element de construcció útil en molts programes, ja que exposen operacions que us permeten actuar sobre cada clau en paral·lel o reagrupar dades a la xarxa. Parella RDD són parells CLAU/VALOR.

reduceByKey és una acció?

reduce() produeix una col·lecció que no s'afegeix al graf acíclic dirigit (DAG), per la qual cosa s'implementa com a acció . Malgrat això, reduceByKey () retorna un RDD que és només un altre nivell/estat del DAG, per tant és una transformació.

Recomanat: