Expressões regulares em C: exemplos?

Eu estou atrás de alguns exemplos simples e melhores práticas de como usar expressões regulares em ANSI C. man regex.h não fornece muita ajuda.

Expressões regulares, na verdade, não fazem parte do ANSI C. Parece que você pode estar falando sobre a biblioteca de expressão regular POSIX, que vem com a maioria (all?) * Nixes. Aqui está um exemplo do uso de regexes POSIX em C (com base nisso ):

 #include  regex_t regex; int reti; char msgbuf[100]; /* Compile regular expression */ reti = regcomp(&regex, "^a[[:alnum:]]", 0); if (reti) { fprintf(stderr, "Could not compile regex\n"); exit(1); } /* Execute regular expression */ reti = regexec(&regex, "abc", 0, NULL, 0); if (!reti) { puts("Match"); } else if (reti == REG_NOMATCH) { puts("No match"); } else { regerror(reti, &regex, msgbuf, sizeof(msgbuf)); fprintf(stderr, "Regex match failed: %s\n", msgbuf); exit(1); } /* Free memory allocated to the pattern buffer by regcomp() */ regfree(&regex); 

Alternativamente, você pode querer verificar PCRE , uma biblioteca para expressões regulares compatíveis com Perl em C. A syntax Perl é praticamente a mesma syntax usada em Java, Python e várias outras linguagens. A syntax POSIX é a syntax usada pelo grep , sed , vi , etc.

Provavelmente não é o que você quer, mas uma ferramenta como re2c pode compilar expressões regulares POSIX (-ish) para ANSI C. Ele é escrito como um substituto para lex , mas essa abordagem permite que você sacrifique a flexibilidade e legibilidade para o último bit de velocidade, se você realmente precisar.

man regex.h relata que não há input manual para regex.h, mas man 3 regex fornece uma página explicando as funções POSIX para correspondência de padrões.

As mesmas funções são descritas em The GNU C Library: Regular Expression Matching , onde é explicado que a Biblioteca GNU C suporta tanto a interface POSIX.2 quanto a que a Biblioteca GNU C possui há muitos anos.

Por exemplo, para um programa hipotético que imprime quais das cadeias passadas como argumento correspondem ao padrão passado como primeiro argumento, você pode usar código semelhante ao seguinte:

 #include  #include  #include  #include  #include  void print_regerror (int errcode, size_t length, regex_t *compiled); int main (int argc, char *argv[]) { regex_t regex; int result; if (argc < 3) { // The number of passed arguments is lower than the number of // expected arguments. fputs ("Missing command line arguments\n", stderr); return EXIT_FAILURE; } result = regcomp (&regex, argv[1], REG_EXTENDED); if (result) { // Any value different from 0 means it was not possible to // compile the regular expression, either for memory problems // or problems with the regular expression syntax. if (result == REG_ESPACE) fprintf (stderr, "%s\n", strerror(ENOMEM)); else fputs ("Syntax error in the regular expression passed as first argument\n", stderr); return EXIT_FAILURE; } for (int i = 2; i < argc; i++) { result = regexec (&regex, argv[i], 0, NULL, 0); if (!result) { printf ("'%s' matches the regular expression\n", argv[i]); } else if (result == REG_NOMATCH) { printf ("'%s' doesn't the regular expression\n", argv[i]); } else { // The function returned an error; print the string // describing it. // Get the size of the buffer required for the error message. size_t length = regerror (result, &regex, NULL, 0); print_regerror (result, length, &regex); return EXIT_FAILURE; } } /* Free the memory allocated from regcomp(). */ regfree (&regex); return EXIT_SUCCESS; } void print_regerror (int errcode, size_t length, regex_t *compiled) { char buffer[length]; (void) regerror (errcode, compiled, buffer, length); fprintf(stderr, "Regex match failed: %s\n", buffer); } 

O último argumento de regcomp() precisa ser pelo menos REG_EXTENDED , ou as funções usarão expressões regulares básicas , o que significa que (por exemplo) você precisaria usar a\{3\} invés de a{3} expressões regulares , que é provavelmente o que você espera usar.

O POSIX.2 também tem outra function para correspondência de caractere curinga: fnmatch() . Ele não permite compilar a expressão regular ou obter as substrings correspondentes a uma subexpressão, mas é muito específico para verificar quando um nome de arquivo corresponde a um caractere curinga (por exemplo, ele usa o sinalizador FNM_PATHNAME ).

Embora a resposta acima seja boa, recomendo usar o PCRE2 . Isso significa que você pode literalmente usar todos os exemplos de regex por aí agora e não ter que traduzir de algum antigo regex.

Já fiz uma resposta para isso, mas acho que pode ajudar também aqui ..

Regex em C para procurar números de cartão de crédito

 // YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h #define PCRE2_CODE_UNIT_WIDTH 8 #include  #include  #include  #include  int main(){ bool Debug = true; bool Found = false; pcre2_code *re; PCRE2_SPTR pattern; PCRE2_SPTR subject; int errornumber; int i; int rc; PCRE2_SIZE erroroffset; PCRE2_SIZE *ovector; size_t subject_length; pcre2_match_data *match_data; char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)"; char * source = "5111 2222 3333 4444"; pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. subject_length = strlen((char *)subject); re = pcre2_compile( pattern, /* the pattern */ PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */ 0, /* default options */ &errornumber, /* for error number */ &erroroffset, /* for error offset */ NULL); /* use default compile context */ /* Compilation failed: print the error message and exit. */ if (re == NULL) { PCRE2_UCHAR buffer[256]; pcre2_get_error_message(errornumber, buffer, sizeof(buffer)); printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer); return 1; } match_data = pcre2_match_data_create_from_pattern(re, NULL); rc = pcre2_match( re, subject, /* the subject string */ subject_length, /* the length of the subject */ 0, /* start at offset 0 in the subject */ 0, /* default options */ match_data, /* block for storing the result */ NULL); if (rc < 0) { switch(rc) { case PCRE2_ERROR_NOMATCH: //printf("No match\n"); // pcre2_match_data_free(match_data); pcre2_code_free(re); Found = 0; return Found; // break; /* Handle other special cases if you like */ default: printf("Matching error %d\n", rc); //break; } pcre2_match_data_free(match_data); /* Release memory used for the match */ pcre2_code_free(re); Found = 0; /* data and the compiled pattern. */ return Found; } if (Debug){ ovector = pcre2_get_ovector_pointer(match_data); printf("Match succeeded at offset %d\n", (int)ovector[0]); if (rc == 0) printf("ovector was not big enough for all the captured substrings\n"); if (ovector[0] > ovector[1]) { printf("\\K was used in an assertion to set the match start after its end.\n" "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]), (char *)(subject + ovector[1])); printf("Run abandoned\n"); pcre2_match_data_free(match_data); pcre2_code_free(re); return 0; } for (i = 0; i < rc; i++) { PCRE2_SPTR substring_start = subject + ovector[2*i]; size_t substring_length = ovector[2*i+1] - ovector[2*i]; printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start); } } else{ if(rc > 0){ Found = true; } } pcre2_match_data_free(match_data); pcre2_code_free(re); return Found; } 

Instale o PCRE usando:

 wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip make sudo make install sudo ldconfig 

Compile usando:

 gcc foo.c -lpcre2-8 -o foo 

Confira minha resposta para mais detalhes.