Articles of nlp

Procurando pela biblioteca de verificação ortográfica de Java

Eu estou procurando uma biblioteca de verificação de ortografia Java de código aberto que tem dictionarys para pelo menos os seguintes idiomas: francês, alemão, espanhol e tcheco. Alguma sugestão?

Como faço palavra Stemming ou Lematização?

Eu tentei PorterStemmer e Snowball, mas ambos não funcionam em todas as palavras, faltando algumas muito comuns. Minhas palavras de teste são: ” gatos correndo correram cactos cactos cactos comunidade comunidades “, e ambos recebem menos da metade direita. Veja também: Algoritmo de stemming que produz palavras reais Stemming – exemplos de código ou projetos […]

Stemmers vs Lemmatizers

O Processamento de Linguagem Natural (PNL), especialmente para o inglês, evoluiu para o estágio em que o stemming se tornaria uma tecnologia arcaica se lisosmatizadores “perfeitos” existissem. É porque os lenhadores mudam a forma superficial de uma palavra / ficha para alguns caules sem sentido. Então, novamente, a definição do lematizador “perfeito” é questionável, porque […]

Como você implementa um “Você quis dizer”?

Duplicar Possível: Como o Google “Você quis dizer?” Algoritmo funciona? Suponha que você já tenha um sistema de pesquisa em seu site. Como você pode implementar o “Você quis dizer: ” como o Google faz em algumas consultas de pesquisa ?

Biblioteca de pesquisa de string difusa em Java

Eu estou procurando uma biblioteca Java de alto desempenho para busca de string difusa. Existem numerosos algoritmos para encontrar cordas similares, distância de Levenshtein, Daitch-Mokotoff Soundex, n-gramas etc. Quais implementações Java existem? Prós e contras para eles? Estou ciente de Lucene, qualquer outra solução ou Lucene é o melhor? Eu encontrei estes, alguém tem experiência […]

Detectando sílabas em uma palavra

Eu preciso encontrar uma maneira bastante eficiente para detectar sílabas em uma palavra. Por exemplo, Invisível -> in-vi-sib-le Existem algumas regras de silabificação que podem ser usadas: V CV CV CVC CCV CVCC CCCV * onde V é uma vogal e C é uma consoante. Por exemplo, Pronúncia (5 Pro-nun-ci-a-ção; CV-CVC-CV-V-CVC) Eu tentei alguns methods, […]

Como posso dividir várias palavras unidas?

Eu tenho uma matriz de 1000 ou mais inputs, com exemplos abaixo: wickedweather liquidweather driveourtrucks gocompact slimprojector Eu gostaria de poder dividi-las em suas respectivas palavras, como: wicked weather liquid weather drive our trucks go compact slim projector Eu estava esperando uma expressão regular meu fazer o truque. Mas, como não há limite para parar, […]

Code Golf: Number to Words

A série de golfe de código parece ser bastante popular. Eu encontrei um código que converte um número em sua representação de palavras. Alguns exemplos seriam (poderes de 2 para programar diversão): 2 -> dois 1024 -> Um Mil Vinte e Quatro 1048576 -> Um Milhão Quarenta E Oito Mil Quinhentos E Setenta E Seis […]

Existe uma boa biblioteca de processamento de linguagem natural

Eu preciso implementar um pouco de PNL no meu módulo atual. Estou procurando uma boa biblioteca que possa me ajudar aqui. Eu me deparei com ‘LingPipe’, mas não consegui seguir completamente como usá-lo. Basicamente, precisamos implementar um recurso em que o aplicativo possa decifrar as instruções do cliente (instruções de entrega) digitadas em inglês simples. […]

Similaridade entre dois documentos de texto

Eu estou olhando para trabalhar em um projeto de PNL, em qualquer idioma (embora o Python seja minha preferência). Eu quero escrever um programa que leve dois documentos e determine como eles são semelhantes. Como eu sou bastante novo para isso e uma rápida pesquisa no google não me aponte muito. Você conhece alguma referência […]