Qual é o intervalo completo para caracteres chineses em Unicode?

U + 4E00..U + 9FFF faz parte do conjunto completo, mas nem todos

Pode ser que você encontre uma lista completa por meio do CJK Unicode FAQ (que inclui caracteres “chinês, japonês e coreano”)

O documento ” East Asian Script ” menciona:

Blocos contendo Han ideogramas

Os caracteres ideocharts Han são encontrados em cinco blocos principais do Padrão Unicode, conforme mostrado na Tabela 12-2.

Tabela 12-2. Blocos contendo Han ideogramas

Block Range Comment CJK Unified Ideographs 4E00-9FFF Common CJK Unified Ideographs Extension A 3400-4DBF Rare CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants 

Nota: os intervalos de blocos podem evoluir ao longo do tempo: o mais recente está nos Ideógrafos unificados da CJK .

Veja também Wikipedia:

  • Extensão A de Ideógrafos Unificados CJK
  • Extensão de Ideografias CJK Unificadas B
  • CJK Unified Ideographs Extension C
  • Extensão de Ideografias CJK Unificada D
  • Extensão Ideografias CJK Unified E

Unicode possui atualmente 74605 caracteres CJK. Os caracteres CJK não incluem apenas os caracteres usados ​​pelos chineses, mas também o Kanji japonês, a coreana Hanja e o vietnamita Chu Nom . Alguns caracteres CJK não são caracteres chineses.

1) 20941 caracteres do bloco Cdek Unified Ideographs .

Pontos de código U + 4E00 a U + 9FCC.

  1. U + 4E00 – U + 62FF
  2. U + 6300 – U + 77FF
  3. U + 7800 – U + 8CFF
  4. U + 8D00 – U + 9FCC

2) 6582 caracteres do bloco CJKUI Ext A.

Pontos de código U + 3400 para U + 4DB5 . Unicode 3.0 (1999).

3) 42711 caracteres do bloco CJKUI Ext B.

Pontos de código U + 20000 a U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 – U + 215FF
  2. U + 21600 – U + 230FF
  3. U + 23100 – U + 245FF
  4. U + 24600 – U + 260FF
  5. U + 26100 – U + 275FF
  6. U + 27600 – U + 290FF
  7. U + 29100 – U + 2A6DF

3) 4149 caracteres do bloco CJKUI Ext C.

Pontos de código U + 2A700 para U + 2B734 . Unicode 5.2 (2009).

4) 222 caracteres do bloco CJKUI Ext D.

Pontos de código U + 2B740 para U + 2B81D . Unicode 6.0 (2010).

5) bloco CJKUI Ext E.

Em breve

Se o acima não é espaguete suficiente, dê uma olhada em problemas conhecidos . Divirta-se =)

Os intervalos exatos dos caracteres chineses (exceto as extensões) são [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC] .

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement é um bloco Unicode contendo formas alternativas, muitas vezes posicionais, dos radicais Kangxi. Eles são usados ​​headers em índices de dictionarys e outras collections de ideogramas CJK organizadas por traços radicais.

  1. [\u3190-\u319f]

Kanbun é um bloco Unicode contendo caracteres de anotação usados ​​em cópias japonesas de textos chineses clássicos, para indicar a ordem de leitura.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A é um bloco Unicode contendo ideogramas Han raros.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs é um bloco Unicode contendo os ideogramas CJK mais comuns usados ​​em chinês moderno e japonês.

Para os detalhes, consulte aqui e as extensões são fornecidas em outras respostas.

Os blocos de código Unicode que as outras respostas deram certamente cobrem a maioria dos caracteres Unicode chineses, mas também verificam alguns desses outros blocos de código.

 CJK_UNIFIED_IDEOGRAPHS CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E CJK_COMPATIBILITY CJK_COMPATIBILITY_FORMS CJK_COMPATIBILITY_IDEOGRAPHS CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT CJK_RADICALS_SUPPLEMENT CJK_STROKES CJK_SYMBOLS_AND_PUNCTUATION ENCLOSED_CJK_LETTERS_AND_MONTHS ENCLOSED_IDEOGRAPHIC_SUPPLEMENT KANGXI_RADICALS IDEOGRAPHIC_DESCRIPTION_CHARACTERS 

Veja minha discussão mais completa aqui . E este site é conveniente para navegar em Unicode.