Articles of mapreduce

O que é o Hive: Return Code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

Estou obtendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Ao tentar fazer uma cópia de uma tabela particionada usando os comandos no console da seção: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; Inicialmente obtive alguns erros de análise semântica e tive que definir: set hive.exec.dynamic.partition=true set hive.exec.dynamic.partition.mode=nonstrict […]

MultipleOutputFormat no hadoop

Sou novato no Hadoop. Estou experimentando o programa Wordcount. Agora, para experimentar vários arquivos de saída, eu uso MultipleOutputFormat . esse link me ajudou a fazer isso. http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html na minha aula de motorista eu tinha MultipleOutputs.addNamedOutput(conf, “even”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class); MultipleOutputs.addNamedOutput(conf, “odd”, org.apache.hadoop.mapred.TextOutputFormat.class, Text.class, IntWritable.class);` e minha class reduzir se tornou isso public static class […]

Procedimento Armazenado do MongoDB Equivalente

Eu tenho um grande arquivo CSV contendo uma lista de lojas, em que um dos campos é ZipCode. Eu tenho um database MongoDB separado chamado ZipCodes, que armazena a latitude e longitude de qualquer código postal. No SQL Server, eu executaria um procedimento armazenado chamado InsertStore, que faria uma pesquisa na tabela ZipCodes para obter […]

Melhor maneira de fazer um-para-muitos “JOIN” no CouchDB

Eu estou procurando um equivalente do CouchDB para “SQL ingressa”. No meu exemplo, há documentos do CouchDB que são elementos de lista: { “type” : “el”, “id” : “1”, “content” : “first” } { “type” : “el”, “id” : “2”, “content” : “second” } { “type” : “el”, “id” : “3”, “content” : “third” } […]

tamanho do bloco de dados no HDFS, por que 64MB?

O tamanho padrão do bloco de dados do HDFS / hadoop é 64MB. O tamanho do bloco no disco é geralmente de 4KB. O que significa o tamanho do bloco de 64MB? -> Isso significa que a menor unidade de leitura do disco é 64MB? Se sim, qual é a vantagem de fazer isso? -> […]

Lendo arquivo como registro único no hadoop

Eu tenho enorme não. de arquivos pequenos, eu quero usar CombineFileInputFormat para mesclar os arquivos de modo que cada arquivo de dados venha como um único registro no meu trabalho de RM. Eu segui http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e tentei convertê-lo na nova API Eu estou enfrentando 2 problemas: a) Estou apenas testando com 2 arquivos pequenos, ainda […]

Remover duplicatas do MongoDB

oi eu tenho um ~ 5 milhões de documentos em mongodb (replicação) cada documento 43 campos. como remover o documento duplicado. eu tentei db.testkdd.ensureIndex({ duration : 1 , protocol_type : 1 , service : 1 , flag : 1 , src_bytes : 1 , dst_bytes : 1 , land : 1 , wrong_fragment : 1 […]

Encontre todos os documentos duplicados em uma coleção do MongoDB por um campo-chave

Suponha que eu tenha uma coleção com algum conjunto de documentos. algo assim. { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:1, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:2, “name” : “bar”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:3, “name” : “baz”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:4, “name” : “foo”} { “_id” : ObjectId(“4f127fa55e7242718200002d”), “id”:5, “name” : “bar”} { “_id” […]

O Hadoop DistributedCache está obsoleto – qual é a API preferida?

As tarefas do meu mapa precisam de alguns dados de configuração, que eu gostaria de distribuir através do Cache Distribuído. O Tutorial do Hadoop MapReduce mostra o uso da class DistributedCache, aproximadamente da seguinte maneira: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In the mapper Path[] myCacheFiles […]

Oozie: Lança Map-Reduce a partir da ação Oozie ?

Eu estou tentando executar uma tarefa Map-Reduce em um stream de trabalho Oozie usando uma ação . Apache Oozie, de O’Reilley (Islam e Srinivasan 2015), observa que: Embora não seja recomendado, a ação Java pode ser usada para executar tarefas do Hadoop MapReduce, pois as tarefas do MapReduce não são nada além de programas Java, […]