sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
221 stars 49 forks source link

Palabras que faltan proporcionadas por Kantabrigian KNTRO #1

Closed RickieES closed 8 years ago

RickieES commented 10 years ago

Corresponde al registro 725 de RLA-ES en Forja.rediris.es Creado por @Almorca con fecha y hora 2012-11-07 22:27

En un comentario puesto en https://forja.rediris.es/forum/forum.php?thread_id=6527&forum_id=3679 Kantabrigian KNTRO propuso una lista de palabras que no estaban en el diccionario.

Abro este bug para llevar un mejor control de ellas e ir añadiéndolas poco a poco. He comenzado por los adjetivos y poco a poco iré avanzando.

Hola, antes que nada, me presento: soy KNTRO de Buenos Aires. Soy colaborador en la localización es-AR de Mozilla, tanto como QA Leader como localizador de complementos. También, junto a mi hermana, contribuí al Diccionario español Argentina con algunos términos.

De esos términos, quisiera notificar aquellos que no son reconocidos por la versión 0.6 del diccionario en español para LibreOffice 3.5. Algunas de estas palabras son argentinismos —expresiones utilizadas en Argentina— y otras forman parte del habla informal o vulgar, por lo que lo aclararé cuando sea necesario.

SUSTANTIVOS Arial badware blog boludez (término vulgar) boludeces (término vulgar) chabón (término informal) chusmerío (término informal) cookies ciberconversación demo desprolijidad diariero (argentinismo) distro (término informal) Fedora filmadoras freeware gigabyte gigabit hidrostática Hotmail kbps laburo (término informal) Latinoamérica Mac malasangre (argentinismo) malware Mandriva Mbps megabyte megabit mouse Navigator Netscape ofimático papelerío Paralímpicos pelotudez (término vulgar) pelotudeces (término vulgar) politraumatismos previsualización punk quilombo (término vulgar) Remix SeaMonkey shareware Slackware smartphone sorete (término vulgar) spam subtítulo spyware subdominio supervisación tutorial Verdana WiFi WinRAR WinZip yuyo altorrelieve centauromaquia esfinge gigantomaquia metadatos revisación sic

VERBOS boludear (término vulgar) catalizar (término vulgar) pelotudear (término vulgar)

ADJETIVOS actualizable amarillista amateur boludo (término vulgar) capitalino convocante desprolija exhibidor futurista hinchabolas (término vulgar) hinchapelotas (término vulgar) inédita localizador multiplataforma pelotudo (término vulgar) rompebolas (término vulgar) satelital súper traumado versero

ADVERBIOS cómplicemente nomás (argentinismo) panregionalmente semiautomáticamente bohemiamente avergonzadamente indecisamente sorprendidamente lúcidamente

[El siguiente listado contiene nombres ausentes de: ■ Todos los barrios de la Ciudad Autónoma de Buenos Aires. ■ Todos los partidos (con sus cabeceras de partidos) del Gran Buenos Aires. ■ Todos los partidos (con sus cabeceras de partidos) de la Provincia de Buenos Aires. ■ Todas las ciudades de Argentina con más de 50.000 habitantes.]

Alsina Balvanera Berazategui Berisso Boedo Brown Chacarita Coghlan Echeverría Ezeiza Guaminí Hurlingham Lanús Lavalle Liniers Ortúzar Perón Puán Pueyrredón Quilmes Salliquello Sársfield Soldati Tilcara Urquiza Viamonte Villarino

NOMBRES DE PERSONAS Abel Abigail Alan Analía Ayelén Bianca Bibiana Brenda Camila Carina Celina Christian Cinthia Cintia Claribel Clarissa Cynthia Daiana Dalila Dalma Dámaris Débora Eleonora Eliana Elsa Érica Erick Estefanía Fabiana Fanny Gabriela Gianina Giannina Gimena Giorgina Gisela Gisele Giselle Gissele Gisselle Graciela Griselda Iliana Ivana Jésica Jimena Judith Julieta Karen Karina Katia Kevin Kiara Letizia Liu Luciana Lucila Lucrecia Ludmila Mabel Maia Maira Malena Malvina Marianela Marianella Maribel Mariela Marisa Marisol Mary Mayra Melody Mia Michelle Miriam Mirta Nadia Nancy Nélida Nelly Nelson Noemí Priscila Priscilla Rosana Roxana Sabrina Silvana Solange Tamara Umberto Vanessa Vanina Vannina Viviana Walter Wendy Ximena Yamila Yanina Yésica Zahira Zaira Zulma

Cualquier comentario será bienvenido.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2012-11-07 22:30 Enviado por: Alejandro Moreno Calvo

Mientras añadía las nuevas palabras que aparecen aquí me han surgido varias dudas:

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-02-18 19:37 Enviado por: Ricardo Palomares Martínez

No había visto tu comentario. Mi opinión:

  • Cómo se añaden al diccionario las palabras que son a la vez adjetivos y nombres. Se meten en los dos ficheros o sólo en uno.

Yo lo haría en los dos ficheros, cada uno de ellos con las reglas que le sean aplicables.

  • Como guardar la palabra multiplataforma, como un nuevo Adjetivo o se añade un nuevo prefijo y se le añade al nombre.

Yo lo haría como adjetivo.

Perdón por el retraso.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-02-21 23:53 Enviado por: Ricardo Palomares Martínez

En la revisión 58 he visto algunas cosillas que conviene corregir (o a lo mejor estoy equivocado):

https://forja.rediris.es/plugins/scmsvn/viewcvs.php/ortograf/palabras/RAE/NombresMasculinos.txt?root=rla-es&r1=58&r2=57&pathrev=58

altorelieve/S

altorelieve no existe según la RAE; la palabra correcta es altorrelieve.

aviso/Su

el prefijo "u" es trans-; no me suena "transaviso" y, en cambio, sí pondría el prefijo "n" correspondiente a "pre-" (preaviso). Creo que, en este caso y en otros como:

aproches/u bloqueo/Su

realmente querías usar el afijo v:

aproches/v aviso/Sv # yo añadiría también n bloqueo/Sv

y continuaría tu labor de "limpia" de palabra que comienzan con "contra", pero cursando un bug separado, que he visto que son unas cuantas palabras.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-02-22 00:00 Enviado por: Alejandro Moreno Calvo

Tienes razón en todas las correcciones.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-02-22 00:16 Enviado por: Ricardo Palomares Martínez

He encontrado otra cosilla. En la revisión 60 has añadido la regla U a la palabra nariz:

nariz/SU

Sufijo -ito (-ita): Asociado generalmente a la forma apreciativa

diminutiva. Relaciona sustantivos y adjetivos con sustantivos.

SFX U Y 18 (...) SFX U z cecita/S z

crearía naricecita (incorrecto, creo yo).

No quiero que pienses que estoy revisando los cambios "para pillarte". :-) Al contrario, es mi humilde aportación comparada con el trabajazo que te has dado.

¿Te parece si aplicas tú las correcciones que consideres oportunas de entre las que he formulado (así quedan con tu nombre también en el SVN) y yo registro el bug para revisas las palabras que comienzan con contra-?

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-02-24 21:41 Enviado por: Alejandro Moreno Calvo

Ricardo, muchas gracias por revisar las modificaciones porque con 4 ojos los errores se ven mejor que con 2.

He arreglado los errores que detectaste y los he subido al SVN.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-07-19 13:33 Enviado por: Ricardo Palomares Martínez

Asignando el bug a quien se ha encargado de él. Por cierto, Alejandro, este bug seguramente ya se puede cerrar, ¿verdad?

RickieES commented 10 years ago

Comentario escrito originalmente por forja.rediris.es

Fecha: 2013-07-19 22:58 Enviado por: Ricardo Palomares Martínez

De nuevo me respondo a mí mismo. En la lista hay muchas palabras que creo que no deberíamos añadir, pero también hay otras que pienso que pueden ser correctas pero siguen figurando como incorrectas. Así que tenemos que revisar la lista.

Creo que tenemos material para la 0.8 de sobra. :-)

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-07-21 02:58 Enviado por: Ezequiel Pérez Dittler

Hay palabras netamente inglesas que creo que no deben estar en el diccionario. El diccionario debe corregir palabras en español y el usuario debe ser consciente de que está escribiendo palabras en otro idioma. Se puede hacer la excepción si éstas aparecen en la RAE como "punk", "demo" o "blog"

Las palabras que creo que no deben aparecer son:

badware cookies freeware malware mouse (a pesar de que se usa mucho en Argentina) Remix shareware smartphone spyware spam WiFi (es una abreviatura inglesa)

Las marcas creo que tampoco deben estar, porque en ese caso, no hay diccionario que alcance para registrar todas las marcas del mundo. Por lo tanto, se podrían ignorar las siguientes palabras:

Arial Fedora Mac Hotmail Mandriva Navigator Netscape SeaMonkey Slackware Verdana WinRAR WinZip

Con las siguientes palabras estoy en dudas, ya que en informática se usan mucho:

gigabyte gigabit kbps Mbps megabyte megabit metadatos

Estas no las considero relevante para agregarlas...

ciberconversación distro (término informal) [demasiado informal]

Estas palabras son las que quedan por agregar aún:

previsualización sorete (término vulgar) subdominio supervisación tutorial centauromaquia gigantomaquia revisación sorprendidamente lúcidamente

Y todos los nombres de barrios, partidos y ciudades

Con respecto a los nombres de personas, creo que habría que aplicarles algún filtro ya que algunos no son tan comunes como para que estén en el diccionario.

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-07-21 12:43 Enviado por: Ricardo Palomares Martínez

Estoy de acuerdo con las palabras que crees que no deben aparecer por ser anglicismos, aunque yo haría una excepción de mouse, que incluiría en es-AR/noRAE, porque según tengo entendido es la palabra habitual para referirse a ese dispositivo en Argentina. Si no me falla la memoria, se usa mucho en la traducción es-AR de Mozilla. :-)

Sobre las marcas, pensaba abrir yo un bug. No tiene sentido que estén todas las marcas, desde luego, pero yo sí soy partidario de incluir las marcas de los productos en los que se instalarán las extensiones creadas por RLA-ES, es decir, LibreOffice, Apache, OpenOffice.org, Mozilla y los nombres de sus productos (Writer, Calc, Impress, Firefox, Thunderbird y SeaMonkey). Y quizá añadiría algunas marcas tecnológicas de uso habitual: Microsoft, Apple, Google, Facebook...

Las unidades de medida de información podríamos añadirlas, al menos las correspondientes a bit:

http://lema.rae.es/drae/?val=bit

En el caso de bytes lo veo más confuso:

http://lema.rae.es/drae/?val=byte

De las palabras que dices que sí habría que añadir al diccionario, éstas no figuran en la RAE:

sorete (término vulgar) ¿quizá sí iría en es-AR/noRAE? supervisación (pero sí figura supervisión) tutorial (la traducción correcta del inglés sería guía) centauromaquia gigantomaquia revisación (pero sí figura revisión)

Y, de la lista de nombres, a bote pronto veo bastantes que son nombres anglosajones que tendríamos que excluir, así que concuerdo contigo en que habrá que filtrar.

¿Nadie más opina? :-)

RickieES commented 10 years ago

Comentario escrito originalmente en forja.rediris.es

Fecha: 2013-07-22 22:24 Enviado por: Alejandro Moreno Calvo

Yo también tengo entendido que mouse se usa mucho en sudamérica y sí que se podría incluir en es-AR/noRAE.

En cuanto a las marcas lo mejor creo que es hacer lo que comenta Ricardo, abrir un bug separado y discutirlo ahí. De todas maneras, Libreoffice y Openoffice traen un diccionario que se llama technical que incluye un listado de marcas y términos informáticos, por lo que a lo mejor esto es redundante.

En cuanto al resto de palabras, bits y byte son anglicismos y por eso no los metí en el diccionario. El resto de palabras que faltan no las metí en RAE porque no existen en el diccionario y sorete no lo metí en noRAE porque buscando en google no encontré suficientes resultados (me marqué 100.000 como límite para meter una palabra) que demuestren que es una palabra común en Argentina.

Con la lista de nombre también abriría un bug aparte para ver cuales dejamos y cuales no.

sbosio commented 10 years ago

@RickieES / @Almorca: ¿Alguno de ustedes se anima a resumir un poco en qué situación está este issue? ¿Qué nivel de avance tiene, o qué grupo de palabras queda por revisar? Como para aclarar mejor el panorama y poder distribuir mejor el trabajo.

RickieES commented 10 years ago

Yo no he hecho ninguna aportación al repositorio en relación a este registro/problema (buff, no sé si al final debería rendirme y escribir bug o issue, pero me chirría un poco).

De todas formas, mi esperanza era acabar el registro 682 y publicar una nueva versión del diccionario, para luego continuar con el resto de registros.

RickieES commented 9 years ago

Ahora que tenemos la 0.8 publicada, podemos ir revisando estas listas de palabras. Lo primero, para no mezclar cosas, vamos a olvidarnos por completo de nombres propios correspondientes a marcas, así como a palabras de otros idiomas que, aunque se usen frecuentemente en el habla diaria, no sean palabras incorporadas a los diccionarios de español. Recuerdo también que usamos el criterio de no incorporar palabras, aunque sean válidas, si una búsqueda en Google no devuelve más de 50.000 resultados.

Voy con los sustantivos del primer comentario (o descripción) del bug.

blog (ya incluido en RAE/NombresMasculinos.txt) boludez, boludeces (recogido en la RAE, añadir en RAE/l10n/es_AR y RAE/l10n/es_UY/NombresFemeninos.txt como boludez/S) chabón (no recogido en la RAE; hay 1M+ resultados en Google, pero al menos los primeros son nombres propios; los argentinos ¿pensáis que se debe añadir?) chusmerío (no recogido en la RAE; hay 100K+ resultados en Google) ciberconversación (no recogido en la RAE, pero sí está el prefijo ciber-, por lo que creo que puede considerarse una palabra válida; sin embargo, solo hay 622 resultados en Google, de modo que no se añade) demo (recogido en la RAE, añadir en RAE/NombresFemeninos.txt como demo/S) desprolijidad (no recogido en la RAE, pero sí prolijidad; hay 100K+ resultados en Google, aunque realmente se están incluyendo los que contienen prolijo y desprolijo también; ¿lo añadimos? Sería añadir el prefijo h en RAE/NombresFemeninos.txt como prolijidad/hS) diariero (ya incluido en RAE/l10n/es_MX/Adjetivos.txt y en RAE/l10n/es_AR, es_CL y es_UY/NombresMasculinosFemeninos.txt) filmadoras (ya incluido en RAE/Adjetivos.txt) gigabyte, gigabit (recogidos en RAE bit y byte; ¿añadimos bit y byte y creamos una regla con todos los prefijos del sistema métrico internacional como kilo, mega, giga, tera? Si hacemos eso, ¿qué hacemos con deca, hecta, deci, centi, mili...?) hidrostática (recogido en RAE; hay 500K+ resultados en Google, añadir en RAE/NombresMasculinosFemeninos.txt como hidrostático/GS) laburo (ya recogido en RAE/l10n/es_AR y es-UY/NombresMasculinos.txt) Latinoamérica (no recogido en RAE, pero entiendo que es un nombre propio, ¿no? añadir en noRAE/NombresPropiosSiglas.txt como Latinoamérica) malasangre (ya recogido en RAE/Adjetivos.txt) mouse (no recogido en RAE, pero de uso común en Argentina; ¿no deberíamos añadirlo en noRAE/l10n/es_AR/NombresMasculinos.txt como mouse/S ?) ofimático (no recogido en RAE; sí está recogida ofimática como sustantivo) papelerío (ya recogido en RAE/l10n/es/NombresMasculinos.txt, excepto es_ES) Paralímpicos (ya recogido en RAE/Adjetivos.txt) pelotudez (ya recogido en RAE/l10n/es_AR y es_UY/NombresFemeninos.txt) politraumatismos (ya recogido en RAE/NombresMasculinos.txt) previsualización (recogido en la RAE; visualización sí está recogido, pero habría que añadir el prefijo n en RAE/NombresFemeninos.txt como visualización/nS) punk (ya recogido en RAE/Adjetivos.txt) quilombo (ya recogido en RAE/l10n/es_AR, es_BO, es_CL, es_HN, es_PE, es_UY y es_VE/NombresMasculinos.txt) Remix (no recogido en la RAE) sorete (no recogido en la RAE) subtítulo (ya recogido en RAE/NombresMasculinos.txt como título/Ss) subdominio (no recogido en la RAE como tal, aunque entiendo que es una palabra válida; habría que añadir el sufijo s en RAE/NombresMasculinos.txt como dominio/dfsSn) supervisación (no recogido en la RAE) tutorial (no recogido en la RAE, pero Fundeu ya lo acepta; ¿se añadiría en noRAE/NombresMasculinos.txt como tutorial/S ?) WiFi (no recogido en la RAE, tampoco como nombre común wifi) yuyo (ya recogido en muchas variantes RAE/l10n/es/NombresMasculinos.txt) altorrelieve (ya recogido en RAE/NombresMasculinos.txt) centauromaquia (no recogido en la RAE) esfinge (ya recogido en RAE/NombresFemeninos.txt) gigantomaquia (no recogido en la RAE) metadatos (no recogido en la RAE; aun así, ¿se podría considerar válida, ya que el prefijo y el sustantivo sí lo están?) revisación (no recogido en la RAE) sic (ya recogido en RAE/Adverbios.txt)

RickieES commented 9 years ago

Estos son los verbos:

boludear (ya incluido en RAE/l10n/es_AR y es-UY/VerbosIntransitivos.txt) catalizar (ya incluido en RAE/VerbosTransitivos.txt) pelotudear (ya incluido en RAE/l10n/es_AR y es-UY/VerbosIntransitivos.txt)

Por tanto, no hace falta añadir nada en cuanto a los verbos.

RickieES commented 9 years ago

actualizable (no recogido en la RAE, aunque yo entiendo que se debe considerar un término válido; habría que añadir el sufijo T en RAE/VerbosTransitivosPronominales.txt:actualizar/REDÀÁÄñ) amarillista (ya incluido en RAE/Adjetivos.txt) amateur (ya incluido en RAE/Adjetivos.txt) boludo (ya incluido en RAE/l10n/es_AR/Adjetivos.txt, también en es_CU, es_MX, es_SV y es_UY) capitalino (ya incluido en RAE/Adjetivos.txt) convocante (ya incluido en RAE/Adjetivos.txt) desprolija (ya incluido en RAE/l10n/es_AR/Adjetivos.txt:desprolijo/GS) exhibidor (ya incluido en RAE/Adjetivos.txt) futurista (ya incluido en RAE/Adjetivos.txt) hinchabolas (no recogido en la RAE) hinchapelotas (recogido en la RAE como término válido en Argentina y Uruguay; habría que añadirlo en RAE/l10n/es_AR y es_UY/Adjetivos.txt:hinchapelotas) inédita (ya incluido en RAE/Adjetivos.txt) localizador (ya incluido en RAE/Adjetivos.txt) multiplataforma (ya incluido en RAE/Adjetivos.txt) pelotudo (ya incluido en RAE/l10n/es_AR/Adjetivos.txt, también en es_CL y es_UY) rompebolas (no recogido en la RAE) satelital (ya incluido en RAE/l10n/es_AR/Adjetivos.txt, también en es_HN, es_MX y es_VE) súper (ya incluido en RAE/Adjetivos.txt) traumado (recogido en la RAE; habría que añadirlo en RAE/Adjetivos.txt:traumado/GS) versero (no recogido en la RAE)

RickieES commented 9 years ago

Por favor, para ir avanzando, y tras consultar con @Almorca, voy a añadir los términos de los tres comentarios anteriores siempre que esté recogido en la RAE, directamente o como término que se pueda derivar (p.e.: desprolijidad, ofimático). Antes de hacerlo, voy a dar hasta el fin de semana para que podáis hacer comentarios, por si me he equivocado en algo o tenéis opiniones distintas sobre los términos que faltan.

RickieES commented 9 years ago

Lo primero, al final no hice lo que prometí en mi comentario anterior. Es decir, no apliqué los cambios de los comentarios anteriores. Como @Almorca está ahora con la conversión a UTF-8, no voy a tocar nada hasta que él cierre el issue #17, pero lo que sí he hecho es asignarme este issue a mí mismo para asegurarnos de que no nos pisamos entre nosotros.

RickieES commented 9 years ago

Adverbios:

cómplicemente → 23.800 resultados en Google, por lo que no se añade nomás (argentinismo) → no solo en es_AR, sino en todas las variantes de América meridional (Sudamérica), Costa Rica, Honduras, México, Nicaragua y El Salvador habría que añadir esta palabra, en los respectivos archivos Adverbios.txt panregionalmente → 989 resultados en Google, por lo que no se añade semiautomáticamente → hay 675.000 resultados en Google, pero es porque realmente busca "semiautomática", que sí tenemos recogida. Yo opino que no se añada. bohemiamente → hay 27.200 resultados en Google, por lo que no se añade avergonzadamente → hay 4.800 resultados en Google, por lo que no se añade indecisamente → hay 8.940 resultados en Google, por lo que no se añade sorprendidamente → hay 3.660 resultados en Google, por lo que no se añade lúcidamente →La RAE no reconoce "lúcidamente", sino "lucidamente", que sí está recogida en RLA-ES, en RAE/Adverbios.txt.

En resumen, propongo añadir "nomás" únicamente.

RickieES commented 9 years ago

Sobre los topónimos, no tengo conocimientos de geografía como para revisar cada término, por lo que los daría por buenos. No obstante, acabo de comprobar que no los estamos incluyendo (actualmente solo existen en el repositorio entradas para España). Tenemos que revisar el script de creación de diccionarios para incluirlos, y para otras cuestiones más.

Por último, sobre los nombres propios, en noRAE/NombresPropiosSiglas.txt tenemos unos cuantos nombres propios de personas y de países, pero hay tantas cosas que deberíamos discutir para alcanzar criterios estables y suficientemente claros sobre qué nombres añadir y cuáles no, que estoy pensando en crear un issue específico que cubra la definición de criterios y la adición de los nombres de la lista de este issue que cumplan esos criterios. ¿Por qué no separarlo en dos issues, uno para los criterios y otro para añadir los nombres? Pues porque así tenemos a mano en el issue de criterios una lista de ejemplo en la que poder basar nuestras discusiones.

En resumen, propongo:

RickieES commented 8 years ago

Voy a comenzar a aplicar los cambios propuestos en este issue a los ficheros correspondientes. ¡Nos acercamos a la 0.9! :smiley:

RickieES commented 8 years ago

Acabo de terminar de añadir las palabras incluidas en este bug, con unas pequeñas modificaciones (por ejemplo, lúcidamente y wifi ya son parte de la RAE).

Pero he visto que, antes de poder subirlos, es necesario modificar el script de creación del diccionario, por lo que he creado el issue #39.

RickieES commented 8 years ago

Otra palabra que he añadido: tutorial, que ya está recogido en la 23ª edición del Diccionario de la RAE.

RickieES commented 8 years ago

Tras añadir las palabras consideradas aptas para su inclusión, creado un issue para modificar el script y otro para los nombres propios, doy por cerrado este issue.