Articles of hadoop

Requisitos para converter o dataframe do Spark no dataframe do Pandas / R

Estou executando o Spark no YARN do Hadoop. Como esta conversão funciona? Uma coleta () ocorre antes da conversão? Também preciso instalar o Python e o R em cada nó escravo para que a conversão funcione? Eu estou lutando para encontrar documentação sobre isso.

Spark: Número de desempenho inconsistente no número de escalonamento dos núcleos

Eu estou fazendo um teste de escala simples no Spark usando o benchmark de sorting – de 1 núcleo, até 8 núcleos. Percebo que 8 núcleos são mais lentos que 1 núcleo. //run spark using 1 core spark-submit –master local[1] –class john.sort sort.jar data_800MB.txt data_800MB_output //run spark using 8 colors spark-submit –master local[8] –class john.sort […]

Devo chamar ugi.checkTGTAndReloginFromKeytab () antes de cada ação no hadoop?

No meu aplicativo de servidor, estou conectando ao cluster do Hadoop protegido por Kerberos do meu aplicativo java. Estou usando vários componentes como o sistema de arquivos HDFS, Oozie, Hive, etc. Na boot do aplicativo, eu chamo UserGroupInformation.loginUserFromKeytabAndReturnUGI( … ); Isso me retorna a instância UserGroupInformation e eu a mantenho para o tempo de vida […]

Executando o Apache Hadoop 2.1.0 no Windows

Eu sou novo no Hadoop e tive problemas ao tentar executá-lo na minha máquina com Windows 7. Particularmente, estou interessado em executar o Hadoop 2.1.0, já que suas notas de lançamento mencionam que a execução no Windows é suportada. Eu sei que eu posso tentar executar versões 1.x no Windows com o Cygwin ou até […]

O nó de nome está no modo de segurança. Não é capaz de sair

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. não é capaz de criar nada em hdfs eu fiz root# bin/hadoop fs -safemode leave Mas mostrando safemode: Unknown command qual é o problema? Solução

Qual é a diferença entre particionar e distribuir uma tabela no Hive?

Eu sei que ambos são realizados em uma coluna na tabela, mas como cada operação é diferente.

Hive: Melhor maneira de fazer atualizações incremetais em uma tabela principal

Então eu tenho uma tabela principal no Hive, ele irá armazenar todos os meus dados. Eu quero ser capaz de carregar uma atualização de dados incremental sobre todos os meses com uma grande quantidade de dados em bilhões de linhas. Haverá novos dados, bem como inputs atualizadas. Qual é a melhor maneira de abordar isso? […]

Como usar o Sqoop no programa Java?

Eu sei como usar o sqoop através da linha de comando. Mas não sei como chamar o comando sqoop usando programas java. Alguém pode dar alguma visão de código?

Qual é o propósito da fase de embaralhar e classificar no redutor em Map Reduce Programming?

Na programação Map Reduce, a fase de redução tem embaralhamento, sorting e redução como subpartes. A sorting é um assunto caro. Qual é o propósito da fase de embaralhar e classificar no redutor em Map Reduce Programming?

Chamando um trabalho mapreduce de um programa java simples

Eu tenho tentado chamar um trabalho mapreduce de um programa java simples no mesmo pacote .. Eu tentei referenciar o arquivo jar mapreduce no meu programa java e chamá-lo usando o método runJar(String args[]) , também passando a input e caminhos de saída para o trabalho mapreduce .. Mas o programa dint work .. Como […]