Articles of pandas

Adicionar coluna com o número de dias entre as datas nos pandas do DataFrame

Quero subtrair as datas em ‘A’ das datas em ‘B’ e adicionar uma nova coluna com a diferença. df AB one 2014-01-01 2014-02-28 two 2014-02-03 2014-03-01 Eu tentei o seguinte, mas recebo um erro quando tento include isso em um loop for … import datetime date1=df[‘A’][0] date2=df[‘B’][0] mdate1 = datetime.datetime.strptime(date1, “%Y-%m-%d”).date() rdate1 = datetime.datetime.strptime(date2, “%Y-%m-%d”).date() […]

Mostrar DataFrame como tabela no iPython Notebook

Eu estou usando o notebook iPython. Quando faço isso: df Eu tenho uma linda mesa com células. No entanto, se eu fizer isso: df1 df2 não imprime a primeira mesa bonita. Se eu tentar isso: print df1 print df2 Ele imprime a tabela em um formato diferente que derrama colunas e torna a saída muito […]

por que eu deveria fazer uma cópia de um quadro de dados em pandas

Ao selecionar um subframe de dados a partir de um dataframe pai, notei que alguns programadores fazem uma cópia do quadro de dados usando o método .copy() . Por que eles estão fazendo uma cópia do quadro de dados? O que acontecerá se eu não fizer uma cópia?

Requisitos para converter o dataframe do Spark no dataframe do Pandas / R

Estou executando o Spark no YARN do Hadoop. Como esta conversão funciona? Uma coleta () ocorre antes da conversão? Também preciso instalar o Python e o R em cada nó escravo para que a conversão funcione? Eu estou lutando para encontrar documentação sobre isso.

Aplicar function de pandas à coluna para criar várias novas colunas?

Como fazer isso em pandas: Eu tenho uma function extract_text_features em uma única coluna de texto, retornando várias colunas de saída. Especificamente, a function retorna 6 valores. A function funciona, no entanto, não parece haver qualquer tipo de retorno adequado (pandas DataFrame / numpy array / lista do Python) de forma que a saída possa […]

Como posso filtrar linhas ao carregar na function Pandas read_csv?

Como posso filtrar quais linhas de um CSV devem ser carregadas na memory usando pandas? Esta parece ser uma opção que deve ser encontrada em read_csv . Estou esquecendo de algo? Exemplo: temos um CSV com uma coluna timestamp e gostaríamos de carregar apenas as linhas com um timestamp maior que uma constante dada.

colunas groupby com valores NaN (missing)

Eu tenho um DataFrame com muitos valores ausentes em colunas que desejo groupby: import pandas as pd import numpy as np df = pd.DataFrame({‘a’: [‘1’, ‘2’, ‘3’], ‘b’: [‘4’, np.NaN, ‘6’]}) In [4]: df.groupby(‘b’).groups Out[4]: {‘4’: [0], ‘6’: [2]} veja que o Pandas derrubou as linhas com valores de destino NaN. (Eu quero include essas […]

Pandas barra trama muda o formato de data

Eu tenho um simples gráfico de linhas empilhadas que tem exatamente o formato de data que eu quero definir magicamente ao usar o código a seguir. df_ts = df.resample(“W”, how=’max’) df_ts.plot(figsize=(12,8), stacked=True) No entanto, as datas misteriosamente se transformam em um formato feio e ilegível ao traçar os mesmos dados de um gráfico de barras. […]

Como atribuir um nome à coluna tamanho ()?

Eu estou usando .size () em um resultado groupby para contar quantos itens estão em cada grupo. Gostaria que o resultado fosse salvo em um novo nome de coluna sem editar manualmente o array de nomes de colunas, como isso pode ser feito? obrigado Isso é o que eu tentei: grpd = df.groupby([‘A’,’B’]) grpd[‘size’] = […]

como ordenar pandas dataframe de uma coluna

Eu tenho um quadro de dados como este print(testDB) 0 1 2 0 354.7 April 4.0 1 55.4 August 8.0 2 176.5 December 12.0 3 95.5 February 2.0 4 85.6 January 1.0 5 152 July 7.0 6 238.7 June 6.0 7 104.8 March 3.0 8 283.5 May 5.0 9 278.8 November 11.0 10 249.6 October […]