CIRCSE / LEMLAT3

Morphological analyzer and lemmatizer for Latin.
http://www.lemlat3.eu/
24 stars 2 forks source link

Abort trap 6 #2

Closed gfranzini closed 6 years ago

gfranzini commented 7 years ago

Rieccomi. Altri due errori. Ho fatto partire Lemlat su un file di circa 75.000 parole e dopo qualche minuto di attività mi ha dato "Abort trap 6". screen shot 2017-07-21 at 15 30 28

Ho guardato l'output e mi ha fatto la lemmatizzazione ma non del file completo. Ho quindi eliminato i file output, ma non appena premo enter per far ripartire Lemlat mi dice questo: screen shot 2017-07-21 at 15 36 07

Provo a farlo andare sul server per verificare che non sia un problema di time-out del mio computer, boh. Volevo condividere nel caso vogliate aggiungere gli errori ad una sezione di troubleshooting.

gersh0m commented 7 years ago

l'installazione del database embedded è andato in errore per non so quale motivo, bisognerebbe attivare e consultare il file di log.

farlo ripartire eliminando l'output non ha molto senso, se mai avresti potuto farlo ripartire eliminando le parole già elaborate dal file di input e mettendo da parte l'output generato fino a quel punto. (l'elaborazione avviene in modo sequenziale in base al file di input)

il problema potrebbe esser stato causato dall'ultima parola in elaborazione. (la stessa potrebbe riprodurre l'errore se messa in input nella versione interattiva)

il secondo messaggio che leggi è, appunto, un tentativo di ripristino del db, se esso non va a buon fine non ti rimane che eliminare la cartella 'data' e sostituirla con la copia originale .

non capisco cosa intendi con 'time-out del mio computer'.

paolo

PS: le 75000 parole erano distinte, vero? ossia hai eliminato i duplicati?( ciò non causa problemi in sé ma allunga i tempi di calcolo)

paolo

On 21/07/2017 15:43, Greta Franzini wrote:

Rieccomi. Altri due errori. Ho fatto partire Lemlat su un file di circa 75.000 parole e dopo qualche minuto di attività mi ha dato "Abort trap 6". screen shot 2017-07-21 at 15 30 28 https://user-images.githubusercontent.com/5539685/28465626-b10a9c54-6e29-11e7-8a3b-ea2ce1a8623c.png

Ho guardato l'output e mi ha fatto la lemmatizzazione ma non del file completo. Ho quindi eliminato i file output, ma non appena premo enter per far ripartire Lemlat mi dice questo: screen shot 2017-07-21 at 15 36 07 https://user-images.githubusercontent.com/5539685/28465859-916ad44e-6e2a-11e7-94d8-95918ccac5f9.png

Provo a farlo andare sul server per verificare che non sia un problema di time-out del mio computer, boh. Volevo condividere nel caso vogliate aggiungere gli errori ad una sezione di troubleshooting.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/CIRCSE/LEMLAT3/issues/2, or mute the thread https://github.com/notifications/unsubscribe-auth/ATs3hh_HHogxggIpy4bzFKKk0rqQW3ewks5sQKsWgaJpZM4Ofa4C.

--

NOTA: il mio indirizzo è cambiato. Presto disattiverò il mio account GMAIL (Google).

PLEASE NOTICE: my e-mail address changed. I will dismiss my GMAIL (Google) account soon.

gfranzini commented 7 years ago

OK, grazie. Ho fatto prove sia con parole distinte sia con duplicati. Questi errori si sono verificati con la versione del testo contenente duplicati. I tempi di calcolo non sono un problema. Mi chiedevo solo se l'abort fosse stato causato da LemLat o da qualche misterioso errore del mio computer - per "time-out" intendevo errori di cui spesso non si conosce la causa (come succede con 'server time-out'). Perdonami, sono ancora una principiante. :-)

Grazie dell'aiuto.

gersh0m commented 7 years ago

Dai 'sintomi' che mi dici è probabile che su files 'molto lunghi' il programma non funzioni come dovrebbe. Provero a riprodurre il problema... I duplicati in sé non sono un problema è solo che dato che l'elaborazione è non contestuale ad uguale input ( forma ) corrisponde uguale output ( analisi ): non ne vedo l'utilità. paolo PS: nel mentre che il problema sia risolto puoi suddividere il file da elaborare in file più piccoli.

Il 21 luglio 2017 17:09:56 CEST, Greta Franzini notifications@github.com ha scritto:

OK, grazie. Ho fatto prove sia con parole distinte sia con duplicati. Questi errori si sono verificati con la versione del testo contenente duplicati. I tempi di calcolo non sono un problema. Mi chiedevo solo se l'abort fosse stato causato da LemLat o da qualche misterioso errore del mio computer - per "time-out" intendevo errori di cui spesso non si conosce la causa (come succede con 'server time-out'). Perdonami, sono ancora una principiante. :-)

Grazie dell'aiuto.

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317027325

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

gfranzini commented 7 years ago

Sì provo così, avevo già cominciato a dividere i testi in più parti. Grazie.

gfranzini commented 7 years ago

Qui una lista di 19533 types, se vuoi provare a riprodurre l'analisi. L'ho estratta da un'opera unica, una delle più corte nel mio corpus. anonym-PRELEMLAT.txt. Al primo colpo Lemlat si è fermato a 'scalas' che è il token numero 17476. Al secondo colpo di nuovo a 'scalas'.

L'errore è sempre 'Abort trap: 6' (dopo aver sostituito il DATA folder di LemLat 'corrotto' con una versione pulita, come hai suggerito).

gersh0m commented 7 years ago

Ma al 'secondo colpo' non hai dato in input la lista da 'scalas' (escluso o compreso a seconda se sia stato elaborato o meno nel primo giro) in poi ?

Il 23 luglio 2017 20:29:12 CEST, Greta Franzini notifications@github.com ha scritto:

Qui una lista di 19533 unique tokens, se vuoi provare a riprodurre l'analisi. L'ho estratta da un'opera unica, una delle più corte nel mio corpus. anonym-PRELEMLAT.txt.

Al primo colpo Lemlat si è fermato a 'scalas' che è il token numero 17476. Al secondo colpo di nuovo a 'scalas'.

L'errore è sempre 'Abort trap: 6' (dopo aver sostituito il DATA folder di LemLat 'corrotto' con una versione pulita, come hai suggerito).

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317272393

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

gfranzini commented 7 years ago

No, al secondo colpo ho riprovato con 'parte 1' (fino a 'scalas' compreso) per vedere se LemLat si fermava di nuovo nello stesso punto. Ho fatto questa prova perché nell'analisi che ho fatto due giorni fa su un file contenente duplicati (tokens, non types) LemLat si fermava in punti diversi, non sempre nello stesso.

Più tardi provo a vedere cosa succede con parte 2.

gersh0m commented 7 years ago

Il fatto che si fermi in punti diversi, mi suggerisce l'idea che il database embedded si 'corrompa' durante le elaborazioni: considera che quella 'funzionalità' di MySQL è 'in dismissione' da parte del vendor. La abbiamo inclusa solo per comodità 'dell'utente'. Se fai elaborazioni così massive forse ti conviene considerare di usare la versione client. Avrai il solo piccolo fastidio di installare un server MySQL sulla tua macchina o su una macchina remota accessibile ( nel secondo caso, la velocità di elaborazione risentirà della velocità della rete, ma se usi una rete interna e.g. rete di dipartimento la cosa è limitata).

paolo

Il 23 luglio 2017 21:07:45 CEST, Greta Franzini notifications@github.com ha scritto:

No, al secondo colpo ho riprovato con 'parte 1' (fino a 'scalas' compreso) per vedere se LemLat si fermava di nuovo nello stesso punto. Ho fatto questa prova perché nell'analisi che ho fatto due giorni fa su un file contenente duplicati (tokens, non types) LemLat si fermava in punti diversi, non sempre nello stesso.

Più tardi provo a vedere cosa succede con parte 2.

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317274872

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

gfranzini commented 7 years ago

OK, chiedo al mio collega di installare la versione client e faccio delle prove. Grazie!

gfranzini commented 7 years ago

Ciao Paolo,

Ho diviso il file .txt che ti ho mandato in due parti uguali (9,766 types ciascuna):

La lemmatizzazione di parte 1 va liscia. Per la parte 2 si blocca di nuovo a 'scalas' (incluso)! Ho controllato che il file .txt non contenesse simboli strani o spazi ma è tutto pulito. LemLat si ferma sempre lì. Allora ho provato a creare un terzo file, prendendo tutte le parole dopo 'scalas' e sostituendo la cartella DATA di LemLat con una versione non 'corrotta' (la versione originale, per intenderci). Ho fatto ripartire LemLat su questo terzo file ma mi da subito errore (abort trap 6), la lemmatizzazione non parte proprio. La parola problematica pare essere 'scalpro', che è immediatamente successiva a 'scalas'. Devo ancora provare con la versione Client. Oggi o domani qualcuno mi aiuta ad installarla.

gersh0m commented 7 years ago

Hai provato a dare in input la parola alla versione interattiva? E/o a dare in input un file contenente solo quella?

paolo

Il 25 luglio 2017 09:31:25 CEST, Greta Franzini notifications@github.com ha scritto:

Ciao Paolo,

Ho diviso il file .txt che ti ho mandato in due parti uguali (9,766 types ciascuna):

  • parte 1: da 'et' a 'conseruati'
  • parte 2: da 'conseruatorem' a 'zoroastrem'

La lemmatizzazione di parte 1 va liscia. Per la parte 2 si blocca di nuovo a 'scalas' (incluso)! Ho controllato che il file .txt non contenesse simboli strani o spazi ma è tutto pulito. LemLat si ferma sempre lì. Allora ho provato a creare un terzo file, prendendo tutte le parole dopo 'scalas' e sostituendo la cartella DATA di LemLat con una versione non 'corrotta' (la versione originale, per intenderci). Ho fatto ripartire LemLat su questo terzo file ma mi da subito errore (abort trap 6), la lemmatizzazione non parte proprio. La parola problematica pare essere 'scalpro', che è immediatamente successiva a 'scalas'. Devo ancora provare con la versione Client. Oggi o domani qualcuno mi aiuta ad installarla.

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317654599

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

passarom commented 7 years ago

Pare che la forma "scalpro" sia problematica a livello di lemmatizzazione.

Il lemma dovrebbe essere "scalprum/scalprus/scalper" (prodotto dal valore in campo lem ""-um/scalprus/scalper"). Invece, lemlat scrive ""scalprum/scalprus/scaN2".

Questo vale non solo per "scalpro", ma per qualsiasi forma ricondotta al lemma in oggetto (CLEM: s0533), e.g. "scalprorum", "scalper".

Guardando il lessario, la CLEM s0533 è registrata correttamente. Il campo "lem" può contenere un massimo di 20 caratteri, che sono esattamente quelli del valore "-um/scalprus/scalper".

Esiste forse un limite alla lunghezza del lemma prodotto in output, che risulta in questo errore?

Grazie, Paolo. E grazie, Greta, per aver scovato questo baco.

M


Da: gersh0m notifications@github.com Inviato: martedì 25 luglio 2017 09:46 A: CIRCSE/LEMLAT3 Cc: Subscribed Oggetto: Re: [CIRCSE/LEMLAT3] Abort trap 6 (#2)

Hai provato a dare in input la parola alla versione interattiva? E/o a dare in input un file contenente solo quella?

paolo

Il 25 luglio 2017 09:31:25 CEST, Greta Franzini notifications@github.com ha scritto:

Ciao Paolo,

Ho diviso il file .txt che ti ho mandato in due parti uguali (9,766 types ciascuna):

  • parte 1: da 'et' a 'conseruati'
  • parte 2: da 'conseruatorem' a 'zoroastrem'

La lemmatizzazione di parte 1 va liscia. Per la parte 2 si blocca di nuovo a 'scalas' (incluso)! Ho controllato che il file .txt non contenesse simboli strani o spazi ma è tutto pulito. LemLat si ferma sempre lì. Allora ho provato a creare un terzo file, prendendo tutte le parole dopo 'scalas' e sostituendo la cartella DATA di LemLat con una versione non 'corrotta' (la versione originale, per intenderci). Ho fatto ripartire LemLat su questo terzo file ma mi da subito errore (abort trap 6), la lemmatizzazione non parte proprio. La parola problematica pare essere 'scalpro', che è immediatamente successiva a 'scalas'. Devo ancora provare con la versione Client. Oggi o domani qualcuno mi aiuta ad installarla.

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317654599

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHubhttps://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317657730, or mute the threadhttps://github.com/notifications/unsubscribe-auth/ALwRv-1upl4JVTfPWW3CXOSfXuaUofacks5sRZ1fgaJpZM4Ofa4C.

[http://Static.unicatt.it/layout/img/layout/5x1000.gif] Destina il tuo 5 per mille all’Università Cattolica CF 02133120150 www.unicatt.it/5permillehttp://www.unicatt.it/5permille/

gersh0m commented 7 years ago

Sì, Marco è molto probabile che ci sia da rivedere la dimensione delle stringhe in uscita, la qual cosa genera un errore nella elaborazione batch e una semplice cattiva formattazione, nella versione a interattiva. Se così è un file contenente solo quella forma dovrebbe provocare l'errore rilevato da Greta.

Non mi tornano invece i problemi sulla corruzione (presunta) del db embedded: ma forse si tratta solo di un problema 'apparente', mascherato dal primo.

Farò delle analisi e lerelative correzioni.

paolo

PS: Greta, se hai tempo/voglia puoi provare a dare in input il tuo file privato della forma in questione: a meno di casi simili (che puoi eventualmente 'pulire' con la stessa tecnica, l'elaborazione dovrebbe funzionare a prescindere dalla dimensione.

On 25/07/2017 14:55, passarom wrote:

Pare che la forma "scalpro" sia problematica a livello di lemmatizzazione.

Il lemma dovrebbe essere "scalprum/scalprus/scalper" (prodotto dal valore in campo lem ""-um/scalprus/scalper"). Invece, lemlat scrive ""scalprum/scalprus/scaN2".

Questo vale non solo per "scalpro", ma per qualsiasi forma ricondotta al lemma in oggetto (CLEM: s0533), e.g. "scalprorum", "scalper".

Guardando il lessario, la CLEM s0533 è registrata correttamente. Il campo "lem" può contenere un massimo di 20 caratteri, che sono esattamente quelli del valore "-um/scalprus/scalper".

Esiste forse un limite alla lunghezza del lemma prodotto in output, che risulta in questo errore?

Grazie, Paolo. E grazie, Greta, per aver scovato questo baco.

M


Da: gersh0m notifications@github.com Inviato: martedì 25 luglio 2017 09:46 A: CIRCSE/LEMLAT3 Cc: Subscribed Oggetto: Re: [CIRCSE/LEMLAT3] Abort trap 6 (#2)

Hai provato a dare in input la parola alla versione interattiva? E/o a dare in input un file contenente solo quella?

paolo

Il 25 luglio 2017 09:31:25 CEST, Greta Franzini notifications@github.com ha scritto:

Ciao Paolo,

Ho diviso il file .txt che ti ho mandato in due parti uguali (9,766 types ciascuna):

  • parte 1: da 'et' a 'conseruati'
  • parte 2: da 'conseruatorem' a 'zoroastrem'

La lemmatizzazione di parte 1 va liscia. Per la parte 2 si blocca di nuovo a 'scalas' (incluso)! Ho controllato che il file .txt non contenesse simboli strani o spazi ma è tutto pulito. LemLat si ferma sempre lì. Allora ho provato a creare un terzo file, prendendo tutte le parole dopo 'scalas' e sostituendo la cartella DATA di LemLat con una versione non 'corrotta' (la versione originale, per intenderci). Ho fatto ripartire LemLat su questo terzo file ma mi da subito errore (abort trap 6), la lemmatizzazione non parte proprio. La parola problematica pare essere 'scalpro', che è immediatamente successiva a 'scalas'. Devo ancora provare con la versione Client. Oggi o domani qualcuno mi aiuta ad installarla.

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317654599

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHubhttps://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317657730, or mute the threadhttps://github.com/notifications/unsubscribe-auth/ALwRv-1upl4JVTfPWW3CXOSfXuaUofacks5sRZ1fgaJpZM4Ofa4C.

[http://Static.unicatt.it/layout/img/layout/5x1000.gif] Destina il tuo 5 per mille all’Università Cattolica CF 02133120150 www.unicatt.it/5permillehttp://www.unicatt.it/5permille/

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317728241, or mute the thread https://github.com/notifications/unsubscribe-auth/ATs3htEGeWE-BgyMcVJYFbObWDtMMJwQks5sReWngaJpZM4Ofa4C.

--

NOTA: il mio indirizzo è cambiato. Presto disattiverò il mio account GMAIL (Google).

PLEASE NOTICE: my e-mail address changed. I will dismiss my GMAIL (Google) account soon.

gfranzini commented 7 years ago

Certo, ci provo e ti faccio sapere! :-) Gxxx

gfranzini commented 7 years ago

Successo senza SCALPRO e senza dividere il file in più parti. 👍

gersh0m commented 7 years ago

Sì, ho riprodotto l'errore...

Il baco produce un errore 'bloccante' su osx, mentre provoca una semplice formattazione errata su linux ( e credo anche su windows se Marco ha usato quelll'eseguibile).

Non vedo invece alcun problema di 'corruzione' del database: il programma funziona perfettamente anche dopo che di verifica l'errore. Nessun bisogno di 'ripulire' la cartella relativa.

Correggio asap

paolo

Il 25 luglio 2017 17:11:12 CEST, Greta Franzini notifications@github.com ha scritto:

Successo senza SCALPRO e senza dividere il file in più parti. 👍

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/CIRCSE/LEMLAT3/issues/2#issuecomment-317768991

-- Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità.

gfranzini commented 6 years ago

Ciao Paolo, oggi mi si è ripresentato lo stesso errore con questo file. Le parole problematiche questa volta sono state dialog e diametro. Rimuovendo entrambe LemLat funziona perfettamente. Sto usando la versione osx_embedded.

gfranzini commented 6 years ago

Caro Paolo, anche oggi lo stesso errore con un altro file. Qui le parole problematiche sono diameter, diagramatum e diametri.

passarom commented 6 years ago

Solved