Articles of pandas

como ordenar pandas dataframe de uma coluna

Eu tenho um quadro de dados como este print(testDB) 0 1 2 0 354.7 April 4.0 1 55.4 August 8.0 2 176.5 December 12.0 3 95.5 February 2.0 4 85.6 January 1.0 5 152 July 7.0 6 238.7 June 6.0 7 104.8 March 3.0 8 283.5 May 5.0 9 278.8 November 11.0 10 249.6 October […]

Python pandas groupby object aplicar método duplicatas primeiro grupo

Minha primeira pergunta SO: Estou confuso sobre este comportamento de aplicar método de groupby em pandas (0.12.0-4), parece aplicar a function duas vezes para a primeira linha de um quadro de dados. Por exemplo: >>> from pandas import Series, DataFrame >>> import pandas as pd >>> df = pd.DataFrame({‘class’: [‘A’, ‘B’, ‘C’], ‘count’:[1,0,2]}) >>> print(df) […]

pandas loc vs. iloc vs. ix vs at vs. iat?

Recentemente comecei a ramificar do meu lugar seguro (R) para o Python e fiquei um pouco confuso com a localização / seleção de células em Pandas . Eu li a documentação, mas estou lutando para entender as implicações práticas das várias opções de localização / seleção. Existe uma razão pela qual eu deveria usar .iloc […]

Como adicionar dados pandas a um arquivo csv existente?

Eu quero saber se é possível usar a function pandas to_csv() para adicionar um dataframe a um arquivo csv existente. O arquivo csv tem a mesma estrutura que os dados carregados.

Como dividir os dados em 3 conjuntos (trem, validação e teste)?

Eu tenho um dataframe pandas e gostaria de dividi-lo em 3 conjuntos separados. Eu sei que usando train_test_split de sklearn.cross_validation , pode-se dividir os dados em dois conjuntos (treinar e testar). No entanto, não encontrei nenhuma solução para dividir os dados em três conjuntos. De preferência, gostaria de ter os índices dos dados originais. Eu […]

Selecionando várias colunas em um dataframe de pandas

Eu tenho dados em colunas diferentes, mas não sei como extraí-lo para salvá-lo em outra variável. index abc 1 2 3 4 2 3 4 5 Como faço para selecionar ‘b’ , ‘c’ e salvá-lo no df1? eu tentei df1 = df[‘a’:’b’] df1 = df.ix[:, ‘a’:’b’] Nenhum parece funcionar.

Como derreter Spark DataFrame?

Existe um equivalente de Pandas Melt Function no Apache Spark no PySpark ou pelo menos no Scala? Eu estava executando um dataset de amostra até agora em python e agora quero usar o Spark para todo o dataset. Desde já, obrigado.