Articles of nlp

Usando meu próprio corpus em vez do corpus movie_reviews para Classificação no NLTK

Eu uso o seguinte código e recebo a sorting de formulário usando o corpus de revisão de filme em NLTK / Python import string from itertools import chain from nltk.corpus import movie_reviews as mr from nltk.corpus import stopwords from nltk.probability import FreqDist from nltk.classify import NaiveBayesClassifier as nbc import nltk stop = stopwords.words(‘english’) documents = […]

Java Stanford PNL: Parte dos labels de fala?

A PNL de Stanford, demonstrada aqui , dá uma saída como esta: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. O que as tags da parte da fala significam? Não consigo encontrar uma lista oficial. É o próprio sistema de Stanford, ou eles estão usando tags universais? (O que é JJ , por exemplo?) Além disso, quando […]

Como ler valores de números escritos como palavras?

Como todos sabemos, os números podem ser escritos em números ou chamados por seus nomes. Embora haja muitos exemplos a serem encontrados que convertem 123 em cento e vinte e três, não consegui encontrar bons exemplos de como convertê-lo ao contrário. Algumas das ressalvas: cardinal / nominal ou ordinal: “um” e “primeiro” erros de ortografia […]

Lematização java

Eu estou procurando uma implementação lemmatisation para Inglês em Java. Eu encontrei alguns já, mas eu preciso de algo que não precisa de muita memory para rodar (1 GB no topo). Obrigado. Eu não preciso de um stemmer.

Como detectar o idioma do texto inserido pelo usuário?

Eu estou lidando com um aplicativo que está aceitando a input do usuário em diferentes idiomas (atualmente 3 idiomas corrigidos). O requisito é que os usuários possam inserir texto e não se incomodem em selecionar o idioma por meio de uma checkbox de seleção fornecida na interface do usuário. Existe uma biblioteca Java existente para […]

Procurando pela biblioteca de verificação ortográfica de Java

Eu estou procurando uma biblioteca de verificação de ortografia Java de código aberto que tem dictionarys para pelo menos os seguintes idiomas: francês, alemão, espanhol e tcheco. Alguma sugestão?

Como faço palavra Stemming ou Lematização?

Eu tentei PorterStemmer e Snowball, mas ambos não funcionam em todas as palavras, faltando algumas muito comuns. Minhas palavras de teste são: ” gatos correndo correram cactos cactos cactos comunidade comunidades “, e ambos recebem menos da metade direita. Veja também: Algoritmo de stemming que produz palavras reais Stemming – exemplos de código ou projetos […]

Stemmers vs Lemmatizers

O Processamento de Linguagem Natural (PNL), especialmente para o inglês, evoluiu para o estágio em que o stemming se tornaria uma tecnologia arcaica se lisosmatizadores “perfeitos” existissem. É porque os lenhadores mudam a forma superficial de uma palavra / ficha para alguns caules sem sentido. Então, novamente, a definição do lematizador “perfeito” é questionável, porque […]

Como você implementa um “Você quis dizer”?

Duplicar Possível: Como o Google “Você quis dizer?” Algoritmo funciona? Suponha que você já tenha um sistema de pesquisa em seu site. Como você pode implementar o “Você quis dizer: ” como o Google faz em algumas consultas de pesquisa ?

Biblioteca de pesquisa de string difusa em Java

Eu estou procurando uma biblioteca Java de alto desempenho para busca de string difusa. Existem numerosos algoritmos para encontrar cordas similares, distância de Levenshtein, Daitch-Mokotoff Soundex, n-gramas etc. Quais implementações Java existem? Prós e contras para eles? Estou ciente de Lucene, qualquer outra solução ou Lucene é o melhor? Eu encontrei estes, alguém tem experiência […]