nlp - Python CLIPS|Pattern for italian language -


i need use library italian language.

i'm trying use pattern create dataset (to perform nmf) of italian feed rss/atom don't know how because lemmatizer won't work italian sentence.

i'm using guideline examples italian text wikipedia. result same of input string.

any suggestion?

edit: code this

from pattern.vector import document, porter, lemma  s="il ciclo, scritto all'inizio degli anni novanta, si svolge in un universo dove, al termine di una guerra tra le due potenti razze dei sartan e dei patryn, la terra รจ stata suddivisa in quattro mondi ognuno dominato da un elemento (aria, acqua, terra e fuoco), mentre in un quinto, detto il labirinto (una prigione senziente estremamente letale), sartan, vincitori del conflitto, hanno relegato patryn e sono misteriosamente scomparsi subito dopo. secoli dopo primi patryn riescono fuggire dal labirinto ed penetrare negli altri mondi. sette libri narrano le vicende di haplo, un agente dei patryn inviato ad esplorare quattro mondi per preparare l'arrivo del suo padrone."  document = document(s, threshold=1, stopwords=false) documentp = document(s, threshold=1, stopwords=false, stemmer=porter) documentl = document(s, threshold=1, stopwords=false, stemmer=lemma)  print document.words {u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2} print documentl.words {u'le': 2, u'dei': 3, u'patryn': 4, u'mondi': 3, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2} print documentp.words {u'il': 2, u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2} 


Comments

Popular posts from this blog

Hatching array of circles in AutoCAD using c# -

ios - UITEXTFIELD InputView Uipicker not working in swift -

Python Pig Latin Translator -