Articles of pandas

Requisitos para converter o dataframe do Spark no dataframe do Pandas / R

Estou executando o Spark no YARN do Hadoop. Como esta conversão funciona? Uma coleta () ocorre antes da conversão? Também preciso instalar o Python e o R em cada nó escravo para que a conversão funcione? Eu estou lutando para encontrar documentação sobre isso.

Aplicar function de pandas à coluna para criar várias novas colunas?

Como fazer isso em pandas: Eu tenho uma function extract_text_features em uma única coluna de texto, retornando várias colunas de saída. Especificamente, a function retorna 6 valores. A function funciona, no entanto, não parece haver qualquer tipo de retorno adequado (pandas DataFrame / numpy array / lista do Python) de forma que a saída possa […]

Como posso filtrar linhas ao carregar na function Pandas read_csv?

Como posso filtrar quais linhas de um CSV devem ser carregadas na memory usando pandas? Esta parece ser uma opção que deve ser encontrada em read_csv . Estou esquecendo de algo? Exemplo: temos um CSV com uma coluna timestamp e gostaríamos de carregar apenas as linhas com um timestamp maior que uma constante dada.

colunas groupby com valores NaN (missing)

Eu tenho um DataFrame com muitos valores ausentes em colunas que desejo groupby: import pandas as pd import numpy as np df = pd.DataFrame({‘a’: [‘1’, ‘2’, ‘3’], ‘b’: [‘4’, np.NaN, ‘6’]}) In [4]: df.groupby(‘b’).groups Out[4]: {‘4’: [0], ‘6’: [2]} veja que o Pandas derrubou as linhas com valores de destino NaN. (Eu quero include essas […]

Pandas barra trama muda o formato de data

Eu tenho um simples gráfico de linhas empilhadas que tem exatamente o formato de data que eu quero definir magicamente ao usar o código a seguir. df_ts = df.resample(“W”, how=’max’) df_ts.plot(figsize=(12,8), stacked=True) No entanto, as datas misteriosamente se transformam em um formato feio e ilegível ao traçar os mesmos dados de um gráfico de barras. […]

Como atribuir um nome à coluna tamanho ()?

Eu estou usando .size () em um resultado groupby para contar quantos itens estão em cada grupo. Gostaria que o resultado fosse salvo em um novo nome de coluna sem editar manualmente o array de nomes de colunas, como isso pode ser feito? obrigado Isso é o que eu tentei: grpd = df.groupby([‘A’,’B’]) grpd[‘size’] = […]

como ordenar pandas dataframe de uma coluna

Eu tenho um quadro de dados como este print(testDB) 0 1 2 0 354.7 April 4.0 1 55.4 August 8.0 2 176.5 December 12.0 3 95.5 February 2.0 4 85.6 January 1.0 5 152 July 7.0 6 238.7 June 6.0 7 104.8 March 3.0 8 283.5 May 5.0 9 278.8 November 11.0 10 249.6 October […]

Python pandas groupby object aplicar método duplicatas primeiro grupo

Minha primeira pergunta SO: Estou confuso sobre este comportamento de aplicar método de groupby em pandas (0.12.0-4), parece aplicar a function duas vezes para a primeira linha de um quadro de dados. Por exemplo: >>> from pandas import Series, DataFrame >>> import pandas as pd >>> df = pd.DataFrame({‘class’: [‘A’, ‘B’, ‘C’], ‘count’:[1,0,2]}) >>> print(df) […]

pandas loc vs. iloc vs. ix vs at vs. iat?

Recentemente comecei a ramificar do meu lugar seguro (R) para o Python e fiquei um pouco confuso com a localização / seleção de células em Pandas . Eu li a documentação, mas estou lutando para entender as implicações práticas das várias opções de localização / seleção. Existe uma razão pela qual eu deveria usar .iloc […]

Como adicionar dados pandas a um arquivo csv existente?

Eu quero saber se é possível usar a function pandas to_csv() para adicionar um dataframe a um arquivo csv existente. O arquivo csv tem a mesma estrutura que os dados carregados.