Articles of hadoop

Como converter o arquivo .txt para o formato de arquivo de seqüência do Hadoop

Para utilizar efetivamente tarefas de redução de mapa no Hadoop , preciso que os dados sejam armazenados no formato de arquivo de sequência do hadoop . No entanto, atualmente os dados são apenas em formato .txt plano.Pode alguém sugerir uma maneira que eu possa converter um arquivo .txt para um arquivo de seqüência?

tamanho do bloco de dados no HDFS, por que 64MB?

O tamanho padrão do bloco de dados do HDFS / hadoop é 64MB. O tamanho do bloco no disco é geralmente de 4KB. O que significa o tamanho do bloco de 64MB? -> Isso significa que a menor unidade de leitura do disco é 64MB? Se sim, qual é a vantagem de fazer isso? -> […]

Erro HDFS: só pode ser replicado para 0 nós, em vez de 1

Eu criei um cluster hadoop de nó único do Ubuntu no EC2. Testar o upload de um arquivo simples para o hdfs funciona na máquina do EC2, mas não funciona em uma máquina fora do EC2. Eu posso navegar no sistema de arquivos através da interface web a partir da máquina remota, e ele mostra […]

Lendo arquivo como registro único no hadoop

Eu tenho enorme não. de arquivos pequenos, eu quero usar CombineFileInputFormat para mesclar os arquivos de modo que cada arquivo de dados venha como um único registro no meu trabalho de RM. Eu segui http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e tentei convertê-lo na nova API Eu estou enfrentando 2 problemas: a) Estou apenas testando com 2 arquivos pequenos, ainda […]

Como obter o ID de uma tarefa de mapa no Spark?

Existe uma maneira de obter o ID de uma tarefa de mapa no Spark? Por exemplo, se cada tarefa de mapa chamar uma function definida pelo usuário, posso obter o ID dessa tarefa de mapa dentro dessa function definida pelo usuário?

Definir usuário do sistema hadoop para o cliente incorporado no aplicativo da Web Java

Gostaria de enviar trabalhos do MapReduce de um aplicativo da Web java para um cluster do Hadoop remoto, mas não posso especificar para qual usuário o trabalho deve ser enviado. Eu gostaria de configurar e usar um usuário do sistema que deve ser usado para todos os trabalhos do MapReduce. Atualmente, não consigo especificar nenhum […]

Como corrigir arquivos HDFS corruptos

Como alguém conserta um HDFS corrupto? Eu olhei no site do Apache / Hadoop e ele disse seu comando fsck , que não corrige. Espero que alguém que tenha se deparado com esse problema antes possa me dizer como consertar isso. Ao contrário de um utilitário fsck tradicional para filesystems nativos, esse comando não corrige […]

Hadoop java.io.IOException: Mkdirs falhou ao criar / some / path

Quando tento executar o meu trabalho, estou recebendo a seguinte exceção: Exception in thread “main” java.io.IOException: Mkdirs failed to create /some/path at org.apache.hadoop.util.RunJar.ensureDirectory(RunJar.java:106) at org.apache.hadoop.util.RunJar.main(RunJar.java:150) Onde o caminho / some / é hadoop.tmp.dir. No entanto, quando eu emito o dfs -ls cmd em / algum / caminho, posso ver que ele existe e o arquivo […]

O Hadoop DistributedCache está obsoleto – qual é a API preferida?

As tarefas do meu mapa precisam de alguns dados de configuração, que eu gostaria de distribuir através do Cache Distribuído. O Tutorial do Hadoop MapReduce mostra o uso da class DistributedCache, aproximadamente da seguinte maneira: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In the mapper Path[] myCacheFiles […]

Oozie: Lança Map-Reduce a partir da ação Oozie ?

Eu estou tentando executar uma tarefa Map-Reduce em um stream de trabalho Oozie usando uma ação . Apache Oozie, de O’Reilley (Islam e Srinivasan 2015), observa que: Embora não seja recomendado, a ação Java pode ser usada para executar tarefas do Hadoop MapReduce, pois as tarefas do MapReduce não são nada além de programas Java, […]