Articles of hadoop

Chaves primárias com o Apache Spark

Eu estou tendo uma conexão JDBC com Apache Spark e PostgreSQL e quero inserir alguns dados em meu database. Quando eu uso o modo append , preciso especificar id para cada DataFrame.Row . Existe alguma maneira de o Spark criar chaves primárias?

Escreva um arquivo em hdfs com Java

Eu quero criar um arquivo no HDFS e gravar dados nele. Eu usei este código: Configuration config = new Configuration(); FileSystem fs = FileSystem.get(config); Path filenamePath = new Path(“input.txt”); try { if (fs.exists(filenamePath)) { fs.delete(filenamePath, true); } FSDataOutputStream fin = fs.create(filenamePath); fin.writeUTF(“hello”); fin.close(); } Cria o arquivo, mas não escreve nada nele. Eu procurei muito […]

O contêiner está sendo executado além dos limites de memory

No Hadoop v1, eu atribuí cada slot mapeador e redutor de 7 com o tamanho de 1GB, meus mapeadores e redutores funciona bem. Minha máquina tem memory 8G, 8 processadores. Agora, com o YARN, quando executar o mesmo aplicativo na mesma máquina, recebo um erro no contêiner. Por padrão, eu tenho essas configurações: yarn.scheduler.minimum-allocation-mb 1024 […]

Spark – carrega o arquivo CSV como DataFrame?

Eu gostaria de ler um CSV em faísca e convertê-lo como DataFrame e armazená-lo em HDFS com df.registerTempTable(“table_name”) Eu tentei: scala> val df = sqlContext.load(“hdfs:///csv/file/dir/file.csv”) Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at […]

Falha ao localizar o binário winutils no caminho binário do hadoop

Estou recebendo o seguinte erro ao iniciar o namenode para o lançamento mais recente do hadoop-2.2. Eu não encontrei o arquivo winutils exe na pasta hadoop bin. Eu tentei abaixo dos comandos $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) – Failed to locate the winutils binary in the hadoop binary […]

mesclar arquivos de saída após reduzir a fase

Em mapreduce, cada tarefa de redução grava sua saída em um arquivo chamado part-r-nnnnn, em que nnnnn é um ID de partição associado à tarefa de redução. O mapeamento / redução mescla esses arquivos? Se sim, como?

Como os registros do processo do Hadoop se dividem entre limites de bloco?

De acordo com o Hadoop – The Definitive Guide Os registros lógicos que FileInputFormats definem normalmente não se encheckboxm perfeitamente nos blocos do HDFS. Por exemplo, os registros lógicos de TextInputFormat são linhas, que ultrapassam os limites do HDFS com mais freqüência do que não. Isso não tem relação com o funcionamento do seu programa […]

Hadoop “Não é possível carregar a biblioteca nativa do hadoop para sua plataforma”

No momento, estou configurando o hadoop em um servidor que executa o CentOS . Quando executo start-dfs.sh ou stop-dfs.sh , recebo o seguinte erro: WARN util.NativeCodeLoader: Não é possível carregar a biblioteca native-hadoop para sua plataforma … usando classs java embutidas onde aplicável Estou executando o Hadoop 2.2.0. Fazer uma pesquisa on-line trouxe este link: […]

Gravar em várias saídas pela chave Spark – um trabalho do Spark

Como você pode gravar em várias saídas dependendo da chave usando o Spark em um único trabalho. Relacionados: Gravar em várias saídas por chave Scalding Hadoop, uma tarefa MapReduce Por exemplo sc.makeRDD(Seq((1, “a”), (1, “b”), (2, “c”))) .writeAsMultiple(prefix, compressionCodecOption) garantiria cat prefix/1 seja a b e cat prefix/2 seria c Responda Para resposta exata com […]