stanfordnlp / stanza

Stanford NLP Python library for tokenization, sentence segmentation, NER, and parsing of many human languages
https://stanfordnlp.github.io/stanza/
Other
7.29k stars 893 forks source link

[QUESTION] Is there a (practical) limit to the length of input text I pass to a pipeline? #1267

Closed rjalexa closed 11 months ago

rjalexa commented 1 year ago

I have a pipeline defined with:

processors = "tokenize, mwt, pos, lemma, depparse, ner" # NER and prerequisites
verbose = "False"
GPU = "False"
language = "it"

after using it on 40K news articles in Italian, it hangs more or less indefintely on a long article. The only "special" characteristic I can see is its length:

Words: 1884
Chars (no spaces): 15621
Chars (with spaces): 17511
Lines: 235 

It is also quite full of HTML and some other Unicode chars but I am preprocessing it with BeautifulSoup and a replace regexp to clean the text of those.

Am appending the text here under to ask if you see other things that might hang the pipeline. Thanks for any idea ...

"<p><em>Questo appello, <strong>Democratizing Work</strong>, esce oggi in simultanea in 25 lingue su 41 testate internazionali, tra cui El Comercio, <a href=\"https://www.bostonglobe.com/2020/05/15/opinion/lets-democratize-decommodify-work/?outputType=amp\">Boston Globe</a>, <a href=\"https://www.theguardian.com/commentisfree/2020/may/15/humans-resources-coronavirus-democratise-work-health-lives-market\">Guardian</a>, <a href=\"https://wyborcza.pl/7,75968,25950087,list-naukowcow-demokratyzujmy-uspoleczniajmy-i-uzdrawiajmy.html?disableRedirects=true\">Gazeta Wyborcza</a>, <a href=\"https://www1.folha.uol.com.br/mercado/2020/05/folha-publica-manifesto-internacional-em-defesa-do-trabalho.shtml\">La Folha de São Paulo</a>, <a href=\"https://thewire.in/economy/covid-19-crisis-3000-researchers-600-universities-op-ed\">The Wire</a>, Cumhuriyet,<a href=\"https://plus.lesoir.be/301158/article/2020-05-15/plus-de-3000-academiques-signent-pour-un-autre-monde?referer=%2Farchives%2Frecherche%3Fdatefilter%3Dlastyear%26sort%3Ddate%2520desc%26word%3Dbattilana\"> Le Soir</a>, <a href=\"https://www.lemonde.fr/idees/article/2020/05/15/democratiser-pour-depolluer_6039777_3232.html\">Le Monde</a>, <a href=\"https://www.zeit.de/zustimmung?url=https%3A%2F%2Fwww.zeit.de%2Fkultur%2F2020-05%2Fwirtschaften-nach-der-pandemie-demokratie-dekommodifizierung-nachhaltigkeit-manifest\">Die Zeit</a>, <a href=\"https://blogs.publico.es/dominiopublico/32972/manifiesto-trabajo-democratizar-desmercantilizar-descontaminar/\">Publico</a>, <a href=\"https://www.eldiario.es/tribunaabierta/Trabajo-Democratizar-desmercantilizar-descontaminar_6_1027207295.html\">El Diario</a>, <a href=\"https://www.letemps.ch/opinions/travail-democratiser-demarchandiser-depolluer\">Le Temps</a>, <a href=\"https://www.scmp.com/comment/opinion/article/3084387/covid-19-pandemic-shows-why-people-and-environment-should-be-heart\">South China Morning Post</a>. In Italia gli autori hanno scelto <strong>il manifesto</strong>. </em></p>\n<p><em>L’appello è stato firmato da oltre 3.000 accademici e ricercatori di più di 650 università del mondo. Tra questi, Elisabeth Anderson, Thomas Piketty, Dani Rodrik, Jan Werner Mueller, Chantal Mouffe, Claus Offe, Julie Battilana, Joshua Cohen, Nancy Fraser, James K. Galbraith, Axel Honneth, Jan-Werner Müller, Benjamin Sachs, Debra Satz, Nadia Urbinati, Sarah Song, Lea Ypi, Isabelle Ferreras, Dominique Méda, Saskia Sassen, Lawrence Lessig.</em></p>\n<p>…</p>\n<p>Chi lavora è molto di più che una semplice risorsa. Questa è una delle lezioni principali che dobbiamo imparare dalla crisi in corso.</p>\n<p>Curare i malati; fare consegne di cibo, medicine e altri beni essenziali; smaltire i rifiuti; riempire gli scaffali e far funzionare le casse dei supermercati: le persone che hanno reso possibile continuare con la vita durante la pandemia di Covid-19 sono la prova vivente che il lavoro non può essere ridotto a una mera merce.</p>\n<p>La salute delle persone e la cura di chi è più vulnerabile non possono essere governati unicamente dalle leggi di mercato. Se affidiamo questi compiti esclusivamente al mercato, corriamo il rischio di esacerbare le diseguaglianze e di mettere a repentaglio le vite delle persone più svantaggiate.</p>\n<p>Come evitare che succeda questo? Implicando chi lavora nelle decisioni relative alle loro vite e al loro futuro nel luogo di lavoro. Democratizzando le imprese. De-mercificando il lavoro. Garantendo a tutti un impiego utile.</p>\n<p>Dinanzi al rischio spaventoso della pandemia e del collasso ambientale, optare per questi cambiamenti strategici ci permetterebbe non solo di assicurare la dignità di tutti i cittadini ma anche di riunire le forze collettive necessarie per poter preservare la vita sul nostro pianeta.</p>\n<h3>DEMOCRATIZZAZIONE.</h3>\n<p>Ogni mattina, donne e uomini si svegliano e vanno a lavorare per chi tra di noi può restare in casa in quarantena. La dignità del loro lavoro non ha bisogno di altra spiegazione se non quella contenuta nel termine di «lavoratore essenziale». Questo termine mette alla luce un fatto importante che il capitalismo ha sempre cercato di rendere invisibile, spingendoci a pensare alle persone come «risorse umane».</p>\n<p>Gli esseri umani non sono una risorsa tra le altre. Senza persone che vogliano investire il proprio lavoro non ci sarebbero produzione né servizi.</p>\n<p>Ogni mattina, si svegliano anche donne e uomini che, confinati in casa, si danno da fare per le imprese e ditte per le quali lavorano a distanza.</p>\n<p>Sono la dimostrazione che si sbaglia chi crede che senza supervisione non ci si possa fidare che i lavoratori si impegnino, che questi richiedano sorveglianza e disciplina esterna continua. Sono la dimostrazione, giorno e notte, che i lavoratori non sono solo una delle tante parti in gioco all’interno delle aziende: al contrario, sono loro la chiave per il successo dei datori di lavoro. Sono il nucleo costituente delle aziende; nonostante ciò, sono esclusi dalla partecipazione nella gestione dei luoghi di lavoro – un diritto, quest´ultimo, monopolizzato dagli investitori di capitale.</p>\n<p>Se ci chiediamo come le aziende e la società intera possono riconoscere il contributo dei lavoratori in tempo di crisi, la risposta è: democrazia.</p>\n<p>Certamente bisogna ridurre le enormi diseguaglianze salariali e assicurare che aumentino i redditi più bassi; ma questo non basta.</p>\n<p>Come, dopo le due Guerre Mondiali, si è riconosciuto il contributo innegabile delle donne alla società dando loro il diritto al voto, così oggi appare ingiustificato negare l’emancipazione di chi investe il suo lavoro e il riconoscimento dei suoi diritti di cittadinanza all’interno delle imprese.</p>\n<p>In Europa, la rappresentanza dei lavoratori sul luogo di lavoro esiste già a partire dalla fine della Seconda Guerra Mondiale, attraverso<a href=\"https://ec.europa.eu/social/main.jsp?catId=707&langId=en&intPageId=211\"> i Consigli di Lavoro</a>. Ma questi organi rappresentativi, nel migliore dei casi, hanno scarsa voce in capitolo nella gestione delle imprese, dove sono sempre subordinati alle decisioni dei direttori esecutivi scelti dagli azionisti.</p>\n<p>Questi Consigli non sono stati in grado di frenare o rallentare la spinta verso l’accumulazione del capitale, con effetti disastrosi per l’ambiente.</p>\n<p>Questi organi dovrebbero avere diritti simili ai Consigli di Amministrazione e i dirigenti aziendali dovrebbero avere l´obbligo di ottenere sempre un doppio consenso: sia da parte degli organi che rappresentano i lavoratori che da quelli che rappresentano gli azionisti.</p>\n<p>In Germania, Olanda e nei paesi scandinavi, vari tipi di co-gestione (<em>Mitbestimmung</em>) si sono stabiliti progressivamente dopo la Seconda Guerra Mondiale e hanno rappresentato un passo cruciale ma insufficiente verso la creazione di una vera e propria cittadinanza all’interno dell’impresa.</p>\n<p>Perfino negli Stati Uniti, dove le organizzazioni di lavoratori e sindacali sono state pesantemente indebolite, si alzano voci a favore del riconoscimento del diritto degli investitori di lavoro di eleggere rappresentanti con una maggioranza qualificata all’interno dei consigli di amministrazione.</p>\n<p>Questioni come la scelta di un amministratore delegato, le strategie principali e la distribuzione dei profitti sono troppo importanti per essere lasciate interamente nelle mani degli azionisti.</p>\n<p>Chi investe il proprio lavoro – ovvero, la propria mente e il proprio corpo, la propria salute o anche la propria vita – deve godere del diritto collettivo di appoggiare o respingere queste decisioni.</p>\n<h3>DE-MERCIFICAZIONE.</h3>\n<p>Questa crisi ci insegna anche che è sbagliato trattare il lavoro come mera merce e lasciare le scelte che incidono più profondamente sulle nostre comunità in mano interamente ai meccanismi di mercato.</p>\n<p>Da tempo le politiche di lavoro e di approvvigionamento nel campo sanitario sono state guidate dalla semplice analisi costi-benefici; la crisi della pandemia ci rivela come questo criterio ci abbia spinto a fare errori.</p>\n<p>Alcuni bisogni fondamentali e collettivi devono essere sottratti al criterio dell’analisi costi-benefici, come ci ricordano il numero crescente di morti di Covid in tutto il mondo. Chi sostiene il contrario ci mette in pericolo.</p>\n<p>Quando sono in gioco la salute e la nostra vita sul pianeta, ragionare in termini di costi e benefici è indifendibile.</p>\n<p>La de-mercificazione del lavoro significa proteggere alcuni settori dalla legge del cosiddetto «libero mercato»; significa inoltre assicurare che tutti abbiano accesso al lavoro e alla dignità che conferisce.</p>\n<p>Una possibile maniera per realizzare questo obiettivo è la creazione di una Garanzia di Impiego. L’articolo 23 della Dichiarazione Universale dei Diritti Umani afferma che ogni persona ha diritto al lavoro.</p>\n<p>Una Garanzia di Impiego non solo offrirebbe a ogni cittadino la possibilità di lavorare e vivere con dignità, ma rinforzerebbe anche la nostra capacità collettiva di far fronte alle tante sfide sociali e ambientali che ci troviamo davanti.</p>\n<p>Una Garanzia di Impiego permetterebbe ai governi, in collaborazione con le comunità locali, di creare lavoro degno e al contempo di contribuire agli sforzi per evitare il collasso ambientale.</p>\n<p>Davanti alla crescita della disoccupazione in tutto il mondo, i programmi per garantire l´impiego posso giocare un ruolo fondamentale per assicurare la stabilità sociale, economica e ambientale delle nostre società democratiche.</p>\n<p>Un tale programma deve essere adottato dall’Unione Europea come parte del suo <em>Green Deal</em>; al fine di assicurarlo, bisogna ridefinire la missione della Banca Centrale Europea, in modo che quest´ultima possa finanziarlo.</p>\n<p>Questo programma offrirebbe una soluzione anti-ciclica alla disoccupazione massiccia che sta per colpirci e sarà d’importanza fondamentale per la prosperità europea.</p>\n<h3>RISANAMENTO AMBIENTALE.</h3>\n<p>La nostra reazione alla crisi attuale non deve essere ingenua come lo fu quella alla crisi economica del 2008. Allora si adottò un piano di salvataggio senza condizioni che incrementò il debito pubblico senza pretendere nulla in cambio da parte del settore privato.</p>\n<p>Se i nostri governi si impegnano per salvare le imprese nella crisi attuale, anche queste ultime devono fare la loro parte, accettando alcune condizioni fondamentali della democrazia.</p>\n<p>I nostri governi, in nome delle società democratiche dai quali vengono scelti e alle quali devono rispondere, e in nome dell’obbligo che tutti abbiamo di assicurare l´abitabilità del nostro pianeta, devono appoggiare le imprese a condizione che queste adottino delle nuove pratiche, attendendosi a requisiti ambientali esigenti e introducendo strutture interne di governo democratico.</p>\n<p>Imprese governate democraticamente – all’interno delle quali avrà uguale peso, nelle decisioni strategiche, la voce di chi investe il suo lavoro e di chi investe capitale – saranno capaci di guidare la transizione dalla distruzione al risanamento e rigenerazione ambientali.</p>\n<p>Abbiamo avuto fin troppo tempo per costatare cosa succede, nel sistema corrente, quando il lavoro, il pianeta e i guadagni si scontrano: il lavoro e il pianeta ne escono perdenti.</p>\n<p>Sappiamo, grazie alle ricerche del Dipartimento di Ingegneria dell’<a href=\"https://pubs.acs.org/doi/abs/10.1021/es102641n\">Università di Cambridge</a>, che «cambiamenti di progettazione realizzabili» possono ridurre il consumo globale di energia del 73%. Ma questi cambiamenti richiedono l´impiego di molta forza lavoro e per metterli in atto sono necessarie scelte che nell’immediato risultano costose.</p>\n<p>Finché le imprese saranno gestite con l’obiettivo di massimizzare il profitto in un mondo in cui l´energia è a basso costo, perché mai verrebbero adottati questi cambiamenti?</p>\n<p>Nonostante le sfide che questa transizione comporta, imprese sociali e aziende cooperative, guidate da obiettivi che tengono in conto tanto considerazioni finanziarie quanto sociali e ambientali e che danno spazio alla democrazia interna, hanno già dimostrato il loro potenziale come agenti dei cambiamenti desiderati.</p>\n<p>Non illudiamoci: gli investitori di capitale, potendo scegliere, non si cureranno della dignità degli investitori di lavoro e non si faranno carico di combattere la catastrofe ambientale.</p>\n<p>È possibile scegliere un’altra strada.</p>\n<p>Democratizziamo le imprese; de-mercifichiamo il lavoro; smettiamo di trattare le persone come risorse in modo da potere impegnarci insieme per sostenere la vita sul nostro pianeta.</p>\n<p>-*-</p>\n<p><strong>L’appello, tradotto in 25 lingue, è stato firmato da oltre 3.000 accademici e importanti ricercatori di oltre 650 università di tutto il mondo.<a href=\"https://democratizingwork.org/sign\"> Firma qui</a>.</strong></p>\n<p><em>Tradotto in italiano da Serena Olsaretti (ICREA-Universitat Pompeu Fabra), Riccardo Spotorno (Universitat Pompeu Fabra), Laura Cementeri (CNRS–Centre d’étude des Mouvements Sociaux (EHESS))</em></p>\n<h4>Primi firmatari</h4>\n<ol>\n<li><em>Isabelle Ferreras (University of Louvain/FNRS-Harvard LWP)</em></li>\n<li><em>Julie Battilana (Harvard University)</em></li>\n<li><em>Dominique Méda (University of Paris Dauphine PLS)</em></li>\n<li><em>Julia Cagé (Sciences Po-Paris)</em></li>\n<li><em>Lisa Herzog (University of Groningen)</em></li>\n<li><em>Sara Lafuente Hernandez (University of Brussels-ETUI)</em></li>\n<li><em>Hélène Landemore (Yale University)</em></li>\n<li><em>Pavlina Tcherneva (Bard College-Levy Institute)</em></li>\n<li><em>Serena Olsaretti (ICREA – Universitat Pompeu Fabra)</em></li>\n<li><em>Lea Ypi (London School of Economics)</em></li>\n<li><em>Massimo Maoret (IESE Business School)</em></li>\n<li><em>Laura Cementeri, (CNRS – Centre d’étude des Mouvements Sociaux (EHESS))</em></li>\n<li><em>Elizabeth Anderson (University of Michigan)</em></li>\n<li><em>Philippe Askénazy (CNRS-Paris School of Economics)</em></li>\n<li><em>Aurélien Barrau (CNRS et Université Grenoble-Alpes)</em></li>\n<li><em>Neil Brenner (Harvard University)</em></li>\n<li><em>Craig Calhoun (Arizona State University)</em></li>\n<li><em>Ha-Joon Chang (University of Cambridge)</em></li>\n<li><em>Erica Chenoweth (Harvard University)</em></li>\n<li><em>Joshua Cohen (Apple University, Berkeley, Boston Review)</em></li>\n<li><em>Christophe Dejours (CNAM)</em></li>\n<li><em>Olivier De Schutter (UCLouvain, UN Special Rapporteur on extreme poverty and human rights)</em></li>\n<li><em>Nancy Fraser (The New School for Social Research, NYC)</em></li>\n<li><em>Archon Fung (Harvard University)</em></li>\n<li><em>Javati Ghosh (Jawaharlal Nehru University)</em></li>\n<li><em>Stephen Gliessman (UC Santa Cruz)</em></li>\n<li><em>Stefan Gosepath (Freie Universität Berlin)</em></li>\n<li><em>Hans R. Herren (Millennium Institute)</em></li>\n<li><em>Axel Honneth (Columbia University)</em></li>\n<li><em>Eva Illouz (EHESS, Paris)</em></li>\n<li><em>Tim Jackson (University of Surrey)</em></li>\n<li><em>Sanford Jacoby (UCLA)</em></li>\n<li><em>Rahel Jäggi (Humboldt University)</em></li>\n<li><em>Pierre-Benoit Joly (INRA – National Institute of Agronomical Research, France)</em></li>\n<li><em>Michele Lamont (Harvard university)</em></li>\n<li><em>Lawrence Lessig (Harvard University)</em></li>\n<li><em>David Marsden (London School of Economics)</em></li>\n<li><em>Chantal Mouffe (University of Westminster)</em></li>\n<li><em>Jan-Werner Müller (Princeton University)</em></li>\n<li><em>Susan Neiman (Einstein Forum)</em></li>\n<li><em>Thomas Piketty (EHESS-Paris School of Economics)</em></li>\n<li><em>Michel Pimbert (Coventry University, Executive Director of Centre for Agroecology, Water and Resilience)</em></li>\n<li><em>Raj Patel (University of Texas)</em></li>\n<li><em>Katharina Pistor (Columbia University)</em></li>\n<li><em>Dani Rodrik (Harvard University)</em></li>\n<li><em>Hartmunt Rosa (Max-Weber-Kolleg, Erfut)</em></li>\n<li><em>Benjamin Sachs (Harvard University)</em></li>\n<li><em>Saskia Sassen (Columbia University)</em></li>\n<li><em>Debra Satz (Stanford University)</em></li>\n<li><em>Pablo Servigne PhD (in-Terre-dependent researcher)</em></li>\n<li><em>William Sewell (University of Chicago)</em></li>\n<li><em>Susan Silbey (MIT)</em></li>\n<li><em>Margaret Somers (University of Michigan)</em></li>\n<li><em>George Steinmetz (University of Michigan)</em></li>\n<li><em>Laurent Thévenot (EHESS)</em></li>\n<li><em>Nadia Urbinati (Columbia University)</em></li>\n<li><em>Jean-Pascal van Ypersele (UCLouvain)</em></li>\n<li><em>Judy Wajcman (London School of Economics)</em></li>\n<li><em>Lisa Wedeen (The University of Chicago)</em></li>\n<li><em>Gabriel Zucman (UC Berkeley)</em></li>\n</ol>\n<p><strong><em>e più di 3.000 studiosi da più di 650 università del pianeta… </em></strong></p>\n<p><strong>(<a href=\"https://www.ilmanifesto.it/democratizing-work-lista-dei-firmatari/\" target=\"_blank\" rel=\"noopener noreferrer\">qui l’elenco aggiornato al 14 maggio 2020</a>)</strong></p>\n<p><strong>La lista completa con tutti i firmatari da oltre 650 università del pianeta è su <a href=\"https://democratizingwork.org/\">democratizingwork.org</a></strong></p>\n<p><a href=\"https://global.ilmanifesto.it/democratizing-work/\"><em><strong>English version at il manifesto global</strong></em></a></p>\n"

AngledLuffa commented 1 year ago

Are you running out of memory, GPU, or some other resource? I put that entire blob into a pipeline on a 3090, and it processed the result. No guarantee of the quality of that result, of course

AngledLuffa commented 1 year ago

depparse is not necessary for the NER, and might be one of the more expensive processors for long sentences. you could leave that out and try again

rjalexa commented 1 year ago

Thanks John. As you can see from my pipeline parameters I am running this on a CPU only server (on Hetzner). The snapshot of top of that host is while the pipeline is running on that text and does not show memory strain (and very little CPU usage)

image

How long does it take you with the GPU ? On my CPU only the behaviour is slightly erratic and when it does finish it takes in the ballpark of 10 minutes !

rjalexa commented 1 year ago

So, with my original pipeline (as in the first post) it took 06:17, without depparse 03:13 and with only tokenize, mwt and ner 01:17, so long but acceptable. Thank you very much.

stale[bot] commented 11 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

AngledLuffa commented 11 months ago

As a random followup, there has been some effort to make the depparse more tractable on long non-grammatical inputs such as this one, but the work isn't complete and I wouldn't expect any great results from such a depparse anyway