Como posso tirar toda a pontuação de uma string em JavaScript usando regex?

Se eu tiver uma string com qualquer tipo de caractere não alfanumérico:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation" 

Como eu conseguiria uma versão sem pontuação dele em JavaScript:

 "This is an example of a string with punctuation" 

Se você deseja remover pontuação específica de uma string, provavelmente será melhor remover explicitamente exatamente o que você deseja,

 replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"") 

Fazer o acima ainda não retorna a string como você especificou. Se você quiser remover quaisquer espaços extras que sobram da remoção de pontuação maluca, então você vai querer fazer algo como

 replace(/\s{2,}/g," "); 

Meu exemplo completo:

 var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,""); var finalString = punctuationless.replace(/\s{2,}/g," "); 

Resultados da execução do código no console do firebug:

texto alternativo

 str = str.replace(/[^\w\s]|_/g, "") .replace(/\s+/g, " "); 

Remove tudo, exceto os caracteres alfanuméricos e os espaços em branco, e recolhe vários caracteres adjacentes em espaços simples.

Explicação detalhada:

  1. \w é qualquer dígito, letra ou sublinhado.
  2. \s é qualquer espaço em branco.
  3. [^\w\s] é qualquer coisa que não seja um dígito, uma letra, um espaço em branco ou um sublinhado.
  4. [^\w\s]|_ é o mesmo que # 3, exceto com os sublinhados adicionados novamente.

Aqui estão os caracteres de pontuação padrão para o US-ASCII:! !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

Para pontuação Unicode (como aspas curvas, em traços, etc), você pode facilmente combinar em intervalos de blocos específicos. O bloco de pontuação geral é \u2000-\u206F e o bloco de pontuação suplementar é \u2E00-\u2E7F .

Coloque junto e escapou corretamente, você obtém o seguinte RegExp:

 /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/ 

Isso deve corresponder a praticamente qualquer pontuação que você encontrar. Então, para responder a pergunta original:

 var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g; var spaceRE = /\s+/g; var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; str.replace(punctRE, '').replace(spaceRE, ' '); >> "This is an example of a string with punctuation" 

Fonte US-ASCII: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Fonte Unicode: http://kourge.net/projects/regexp-unicode-block

/ [^ A-Za-z0-9 \ s] / g deve corresponder a todas as pontuações, mas manter os espaços. Então você pode usar .replace(/\s{2,}/g, " ") para replace espaços extras se você precisar fazer isso. Você pode testar o regex em http://rubular.com/

 .replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ") 

Atualização : funcionará somente se a input for ANSI em inglês.

Eu só vou colocar aqui para os outros.

Corresponder todos os caracteres de pontuação para todos os idiomas:

Construído a partir da categoria de pontuação Unicode e adicionado alguns símbolos de teclado comuns como $ e colchetes e \-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

substituição básica:

 ".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"") "testda text" 

adicionado \ s como espaço

 ".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g) 

Adicionado ^ para inverter o padrão para combinar não pontuação, mas as palavras eles mesmos

 ".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g) 

para línguas como o hebraico, talvez para remover “aspas simples e duplas. e pensar mais sobre isso.

usando este script:

passo 1: selecione no Firefox controlando uma coluna de U + 1234 números e copie-o, não copie U + 12456 eles substituem o inglês

passo 2 (eu fiz no chrome) encontrar algum textarea e cole-o em seguida, clique com o botão direito e clique inspecionar. então você pode acessar o elemento selecionado com $ 0.

 var x=$0.value var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)}) var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else { var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("") 

etapa 3 copiada nas primeiras letras, os ascii como caracteres separados não variam porque alguém pode adicionar ou remover caracteres individuais

Eu corri o mesmo problema, esta solução fez o truque e foi muito legível:

 var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; var newSen = sentence.match(/[^_\W]+/g).join(' '); console.log(newSen); 

Resultado:

 "This is an example of a string with punctuation" 

O truque era criar um conjunto negado . Isso significa que ele corresponde a qualquer coisa que não esteja dentro do conjunto, ou seja, [^abc] – não a, b ou c

\W é qualquer palavra não, então [^\W]+ irá negar qualquer coisa que não seja uma palavra char .

Adicionando no _ (sublinhado) você pode negar isso também.

Faça-o aplicar globally /g , então você pode executar qualquer string através dele e limpar a pontuação:

 /[^_\W]+/g 

Legal e Limpo 😉

Para strings en-US (inglês americano) isso deve ser suficiente:

 "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' ) 

Esteja ciente de que, se você suportar UTF-8 e caracteres como chinês / russo e todos, isso os replaceá também. Portanto, você realmente precisa especificar o que deseja.

Em uma linguagem compatível com Unicode, a propriedade de caractere de pontuação Unicode é \p{P} – que normalmente você pode abreviar \pP e, às vezes, expandir para \p{Punctuation} para \pP a leitura.

Você está usando uma biblioteca Perl Compatible Regular Expression?

De acordo com a lista de pontuações da Wikipedia, tive que construir o seguinte regex que detecta pontuações:

[\.''\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?''“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]

Se você quiser remover a pontuação de qualquer string, use a class P Unicode.

Mas, como as classs não são aceitas no JavaScript RegEx, você pode tentar esse RegEx que deve corresponder a toda a pontuação. Ele combina com as seguintes categorias: Pc Pd Pe Pf Pi Pop Sc Sc Sm So Geral Suplementos de pontuaçãoPoints CJKSymbolsAndPunctuation CuneiformNumbersAndPunctuation.

Eu criei usando esta ferramenta online que gera expressões regulares especificamente para JavaScript. Esse é o código para alcançar seu objective:

 var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○- ]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g; var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1'); console.log(newString) 

Se você quiser manter apenas alfabetos e espaços, você pode fazer:

 str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ') 

se você estiver usando lodash

 _.words('This, is : my - test,line:').join(' ') 

Este exemplo

 _.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ') 

Depende do que você está tentando devolver. Eu usei isso recentemente:

 return text.match(/[az]/i);