Articles of utf 8

Como usar o SQL Server utf8?

Eu migrei um database do mysql para o SQL Server (política), o database mysql original usando o UTF8. Agora eu li https://dba.stackexchange.com/questions/7346/sql-server-2005-2008-utf-8-collation-charset que o SQL Server 2008 não suporta utf8, isso é uma piada? O SQL Server hospeda vários bancos de dados, principalmente codificados em latim. Como o database migrado é destinado à publicação na […]

Entrada inválida do pacote R tm em ‘utf8towcs’

Eu estou tentando usar o pacote tm em R para executar alguma análise de texto. Eu amarrei o seguinte: require(tm) dataSet <- Corpus(DirSource('tmp/')) dataSet <- tm_map(dataSet, tolower) Error in FUN(X[[6L]], …) : invalid input 'RT @noXforU Erneut riesiger (Alt-) lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs' O problema […]

Valor de seqüência de caracteres incorreto: ‘\ xF0 \ x9F \ x8E \ xB6 \ xF0 \ x9F…’ MySQL

Eu estou tentando armazenar um tweet na minha tabela MYSQL. O tweet é: quiero que me escuches, no te burles no te rias, anoche tuve un sueño que te fuiste de mi vida 🎶🎶 Os dois últimos caracteres são ‘MULTIPLE MUSICAL NOTES’ (U + 1F3B6) , para os quais a codificação UTF-8 é 0xf09f8eb6 . […]

Alterando a codificação de saída padrão do PowerShell para UTF-8

Por padrão, quando você redireciona a saída de um comando para um arquivo ou canaliza para outra coisa no PowerShell, a codificação é UTF-16, o que não é útil. Eu estou olhando para mudar para UTF-8. Isso pode ser feito caso a caso, substituindo a syntax >foo.txt por | out-file foo.txt -encoding utf8 | out-file […]

Como detectar caracteres UTF-8 em uma coluna codificada Latin1 – MySQL

Estou prestes a realizar a tediosa tarefa de converter um database do Latin1 para o UTF-8. Neste ponto, simplesmente quero verificar que tipo de dados armazenei em minhas tabelas, pois isso determinará qual abordagem devo usar para converter os dados. Especificamente, quero verificar se tenho caracteres UTF-8 nas colunas Latin1, qual seria a melhor maneira […]

Usando o PDFBox para gravar strings codificadas em UTF-8 em um PDF

Estou tendo problemas para gravar caracteres unicode em um PDF usando o PDFBox. Aqui está um código de exemplo que gera caracteres ilegíveis em vez de gerar “š”. O que posso adicionar para obter suporte para strings UTF-8? PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); PDPageContentStream contentStream = new PDPageContentStream(document, page); […]

Como fazer python 3 print () utf8

Como posso fazer o python 3 (3.1) print(“Some text”) para stdout em UTF-8, ou como exportar bytes brutos? Test.py TestText = “Test – āĀēĒčČ..šŠūŪžŽ” # this is UTF-8 TestText2 = b”Test2 – \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd” # just bytes print(sys.getdefaultencoding()) print(sys.stdout.encoding) print(TestText) print(TestText.encode(“utf8”)) print(TestText.encode(“cp1252″,”replace”)) print(TestText2) Saída (no CP1257 e substituímos chars por valores de byte [x00] ): utf-8 […]

Como faço para corrigir a codificação de caracteres de um arquivo?

Eu tenho um arquivo de texto codificado em ANSI que não deveria ter sido codificado como ANSI como havia caracteres acentuados que ANSI não oferece suporte. Eu prefiro trabalhar com UTF-8. Os dados podem ser decodificados corretamente ou perdidos na transcodificação? Quais ferramentas eu poderia usar? Aqui está uma amostra do que eu tenho: ç […]

Adivinhando a codificação do texto representada como byte em Java

Dada uma matriz de bytes representando texto em alguma codificação desconhecida (geralmente UTF-8 ou ISO-8859-1, mas não necessariamente), qual é a melhor maneira de obter um palpite para a codificação mais provável usada (em Java)? Vale nada: Nenhum metadado adicional está disponível. A matriz de bytes é literalmente a única input disponível. O algoritmo de […]

como ler dados no formato utf-8 em R?

Meu sistema: win7 + R-3.0.2. > Sys.getlocale() [1] “LC_COLLATE=Chinese (Simplified)_People’s Republic of China.936;LC_CTYPE=Chinese (Simplified)_People’s Republic of China.936;LC_MONETARY=Chinese (Simplified)_People’s republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People’s Republic of China.936” Existem dois arquivos com o mesmo conteúdo salvo no bloco de notas da Microsoft: um é salvo como formato ansi, o outro é salvo como formato utf8. Os dados são […]