Articles of unicode

Por que os caracteres de controle são ilegais no XML 1.0?

Há uma variedade de caracteres que não são legalmente codificáveis ​​no XML 1.0, por exemplo, U+0007 (‘bell’) e U+001B (‘escape’). A maioria dos interessantes são caracteres de ‘controle’ que não são espaços em branco. É claro (por exemplo) essa questão e outros que é a especificação XML que é o problema – mas alguém pode […]

Java regex para suporte Unicode?

Para corresponder de A a Z, usaremos o regex: [A-Za-z] Como permitir que a regex corresponda aos caracteres utf8 inseridos pelo usuário? Por exemplo, palavras chinesas como 环保 部

Como decodifico corretamente os parâmetros unicode passados ​​para um servlet

Suponha que eu tenha: Yahoo! function gateway(lnk) { window.open(SERVLET + ‘?external_link=’ + encodeURIComponent(lnk.href) + ‘&external_target=’ + encodeURIComponent(lnk.target) + ‘&external_title=’ + encodeURIComponent(lnk.title)); return false; } Confirmei que external_title é codificado como Yahoo!%E2%84%A2 e passado para SERVLET . Se no SERVLET eu faço: Writer writer = response.getWriter(); writer.write(request.getParameter(“external_title”)); Eu recebo o Yahoo! ™ no navegador. Se eu […]

Strings JavaScript fora do BMP

BMP sendo plano multilingue básico De acordo com o JavaScript: as boas partes : JavaScript foi construído em um momento em que Unicode era um conjunto de caracteres de 16 bits, portanto, todos os caracteres em JavaScript têm 16 bits de largura. Isso me leva a acreditar que o JavaScript usa UCS-2 (não UTF-16!) E […]

regex por aceitar apenas caracteres persas

Estou trabalhando em um formulário no qual um de seu validador personalizado deve aceitar somente caracteres persa … Eu usei o seguinte código: var myregex = new Regex(@”^[\u0600-\u06FF]+$”); if (myregex.IsMatch(mytextBox.Text)) { args.IsValid = true; } else { args.IsValid = false; } mas parece que funciona apenas para checar caracteres árabes e não cobre todos os […]

Usando Unicode no código-fonte C ++

Qual é a codificação padrão do código fonte do C ++? O padrão C ++ ainda diz algo sobre isso? Posso escrever fonte C ++ em Unicode? Por exemplo, posso usar caracteres não ASCII, como caracteres chineses, nos comentários? Em caso afirmativo, o Unicode completo é permitido ou apenas um subconjunto do Unicode? (por exemplo, […]

Imprimindo strings UTF-8 com literais de cadeia de caracteres printf – wide vs. multibyte

Em declarações como essas, onde ambos são inseridos no código-fonte com a mesma codificação (UTF-8) e a localidade é configurada corretamente, existe alguma diferença prática entre eles? printf(“ο Δικαιοπολις εν αγρω εστιν\n”); printf(“%ls”, L”ο Δικαιοπολις εν αγρω εστιν\n”); E, consequentemente, há algum motivo para preferir um ao outro ao fazer a saída? Eu imagino que […]

Converter caractere Unicode com escape de volta ao caractere real

Eu tenho o seguinte valor em uma variável de seqüência de caracteres em Java que tem caracteres UTF-8 codificados como abaixo Dodd\u2013Frank ao invés de Dodd–Frank (Suponha que eu não tenha controle sobre como esse valor é atribuído a essa variável de string) Agora, como faço para converter (codificar) corretamente e armazená-lo de volta em […]

Converter CString para const char *

Como faço para converter de CString para const char* no meu aplicativo Unicode MFC?

Como posso produzir UTF-8 a partir do Perl?

Eu estou tentando escrever um script Perl usando o pragma “utf8” e estou obtendo resultados inesperados. Estou usando o Mac OS X 10.5 (Leopard) e estou editando com o TextMate. Todas as minhas configurações para o meu editor e sistema operacional são padronizadas para gravar arquivos no formato utf-8. No entanto, quando eu inserir o […]