Articles of utf 8

Por que Java BufferedReader () não está lendo caracteres em árabe e chinês corretamente?

Estou tentando ler um arquivo que contém caracteres em inglês e árabe em cada linha e outro arquivo que contém caracteres em inglês e chinês em cada linha. No entanto, os caracteres do árabe e do chinês não são exibidos corretamente – eles aparecem apenas como pontos de interrogação. Alguma ideia de como posso resolver […]

Problema de codificação do Java 8 UTF-8 (erro de java?)

Há uma inconsistência ao criar uma string com codificação UTF-8. Execute este código: public static void encodingIssue() throws IOException { byte[] array = new byte[3]; array[0] = (byte) -19; array[1] = (byte) -69; array[2] = (byte) -100; String str = new String(array, “UTF-8”); for (char c : str.toCharArray()) { System.out.println((int) c); } } No Java […]

Por que o valor de retorno de String.addingPercentEncoding () é opcional?

A assinatura do método String para escape percentual é: func addingPercentEncoding(withAllowedCharacters: CharacterSet) -> String? (Isso era stringByAddingPercentEncodingWithAllowedCharacters no Swift 2.) Por que esse método retorna um opcional? A documentação diz que o método retorna nulo “se a transformação não for possível”, mas não está claro sob quais circunstâncias a transformação de escape pode falhar: Os […]

como alterar codificação de arquivo de origem no projeto csharp (visual studio / msbuild machine)?

Existe uma maneira de forçar o VS a usar o Unicode sempre, em vez de algo estranho ISO? Eu estou trabalhando em um projeto do winapp cs usando o Visual Studio 2008 no Vista (local polonês). O problema aparece quando eu construo o projeto no Win Server 2003 (localidade do inglês) – depois o diacrítico […]

Como transcodifico uma string Javascript para ISO-8859-1?

Estou escrevendo uma extensão do Chrome que funciona com um site que usa o ISO-8859-1. Só para dar algum contexto, o que minha extensão faz é tornar a postagem nos fóruns do site mais rápida, adicionando um formulário de postagem mais conveniente. O valor da área de texto em que a mensagem é gravada é […]

Não é possível alterar o conjunto de caracteres de ISO-8859-1 para UTF-8 no glassfish 3.1

Estou tendo problemas para alterar o charset na minha resposta do aplicativo da web de ISO-8859-1 (padrão) para UTF-8. Eu já adicionei a opção VM -Dfile.encoding=UTF-8 às opções da JVM Mas ainda assim, recebo o seguinte header HTTP como uma resposta do glassfish: Content-Type: […;charset=ISO-8859-1] Server: [GlassFish Server Open Source Edition 3.1] Eu apreciaria sua […]

Unicode em PDF

Meu programa gera documentos PDF relativamente simples, a pedido, mas estou tendo problemas com caracteres unicode, como kanji ou símbolos matemáticos ímpares. Para escrever uma string normal em PDF, coloque-a entre colchetes: (something) Há também a opção de escaping de um personagem com códigos octal: (\527) mas isso só vai até 512 caracteres. Como você […]

Caracteres Unicode na saída PDF ggplot2

Como posso usar caracteres Unicode para labels, títulos e coisas semelhantes em um gráfico PDF criado com ggplot2? Considere o seguinte exemplo: library(ggplot2) qplot(Sepal.Length, Petal.Length, data=iris, main=”Aʙᴄᴅᴇғɢʜɪᴊᴋʟᴍɴᴏᴘǫʀsᴛᴜᴠᴡxʏᴢ”) ggsave(“t.pdf”) O título da plotagem usa caracteres Unicode (small caps), que na saída aparecem como … O problema ocorre apenas com charts em pdf; se eu replace a […]

Normalização de Python e caracteres

Olá eu recuperar dados utf8 baseados em texto de uma fonte estrangeira que contém caracteres especiais, como u”ıöüç” enquanto eu quero normalizá-los para o inglês, como “ıöüç” -> “iouc” . Qual seria a melhor maneira de conseguir isso?

Converte wstring em string codificada em UTF-8

Eu preciso converter entre wstring e string. Eu descobri que usar a faceta do codecvt deveria fazer o truque, mas não parece funcionar para o código do idioma utf-8. Minha idéia é que, quando eu leio o arquivo codificado utf-8 em chars, um caractere utf-8 é lido em dois caracteres normais (que é como o […]