Filter spark DataFrame na string contém

Eu estou usando o Spark 1.3.0 e Spark Avro 1.0.0 . Eu estou trabalhando a partir do exemplo na página do repository . Este código a seguir funciona bem

val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avro("/tmp/output") 

Mas e se eu precisasse ver se a string do doctor contém uma substring? Já que estamos escrevendo nossa expressão dentro de uma string. O que eu faço para fazer um “contém”?

Você pode usar contains (isso funciona com uma sequência arbitrária):

 df.filter($"foo".contains("bar")) 

like (SQL como com SQL simples expressão regular whith _ combinando um caractere arbitrário e % correspondendo a uma seqüência arbitrária):

 df.filter($"foo".like("bar")) 

ou rlike (como com expressões regulares de Java ):

 df.filter($"foo".rlike("bar")) 

dependendo de suas necessidades. LIKE e RLIKE devem funcionar com expressões SQL.