fosil-project / fosil-project.github.io

0 stars 2 forks source link

Open data #6

Open jvcasillas opened 1 year ago

jvcasillas commented 1 year ago
  1. Why this is important: transparency, openness and reproducibility are vital features of science. – more checks on the quality.
  2. A view from the past to the present: Publication requirements (actual or perceived)
  3. What is changing? a Fears? Critiques, sharing mistakes? b More honest reproducible works c What can you do to change? (how?)
  4. The future a- Ability to easily reproduce papers.
  5. Wrap up
jvcasillas commented 1 year ago

important references on transparency/open science practices papers:

IvanAndreuRascon commented 1 year ago

https://docs.google.com/document/d/1pv2Q3a922dwHabKtADTBggeyYMayY4p6uNwOoTHGq3w/edit?usp=sharing

jvcasillas commented 1 year ago

@IvanAndreuRascon who worked on this with you?

IvanAndreuRascon commented 1 year ago

@IvanAndreuRascon who worked on this with you?

Isabelle

jvcasillas commented 8 months ago

The recent reproducibility crisis in fields ranging from linguistics to biology underscores the urgent need for open data. Such a crisis arises when many studies cannot be replicated due to a lack of accessible supporting materials. To maintain ethical standards and ensure research outcomes can be built upon, major academic journals now mandate the provision of raw data. In linguistics, especially, open data is not just about transparency—it's about fostering trust, promoting cross-disciplinary collaboration, and democratizing knowledge. Embracing open data is, thus, essential for researchers aiming to contribute effectively to the discipline and the broader scientific community.

The importance of Open data

  1. Transparency: The world of linguistics, like any other scientific domain, needs transparent research. Open data paves the way for this transparency. It not only offers a clear window into the datasets but also ensures that the methodologies and results derived from these datasets are open for scrutiny. By doing so, it enables researchers and enthusiasts alike to understand, critique, and validate the vast expanse of linguistic studies.
  2. Collaboration: Language, in its very essence, is a tool for communication and collaboration. It is only fitting that the study of language embodies these principles as well. Open data acts as a conduit for interdisciplinary projects. It opens the field-specific limitations, enabling global collaboration among linguists, thereby enriching the research outcomes with diverse perspectives.
  3. Replicability: One of the cornerstones of robust research is the ability for its findings to be verified and replicated by independent entities. Open data ensures this replicability. With the data at their fingertips, researchers can cross-check findings, delve deeper into the datasets, and reaffirm the results, solidifying the integrity of the research.
  4. Accelerating Research: Researches should be servants to society and progress. A way of helping progress is helping other research teams. Gathering data can often be a painstaking and time-consuming process. Open data provides a solution to this bottleneck. By giving researchers direct access to expansive datasets, it drastically reduces the time and resources traditionally invested in data collection.

Sources of Open Linguistic Data.

 #| label: fig-open-science-benefits
#| echo: false
#| fig.cap: This is a caption
knitr::include_graphics("open_science.png")

Why make your data publicly available?

In the digital age, traditional linguistic research methods are evolving and placing a stronger emphasis on open and easily accessible data for everyone.
The change affects individual researchers, the academic community, and society.

The Imperative of Data Sharing:

As linguistics recalibrates its approach to open science, there is a collective push towards increasing transparency. Initiatives worldwide now prioritize the sharing of raw data, methodologies, and research tools.

Navigating the Landscape of Open Linguistic Data Sources:

While sourcing is crucial, data preservation remains a challenge. Traditional storage methods, such as hard drives, are prone to failures.

Challenges and considerations

In the linguistic research, there are various challenges and considerations to account for, and among these, a key issue is the durability and accessibility of the data.

  1. Data Quality: Ensuring that the data collected is accurate, consistent, and complete is essential. Accuracy which can refer to pertains the data's veracity, while consistency ensures uniformity in data collection and representation. Completeness guarantees that the data provides a complete view as possible, and no essential details are omitted.

  2. Representation: With the endless linguistic diversity in the world we life in. It becomes necessary to collaborate in every language, minority languages and dialects are adequately represented.

  3. Ethics: Protecting participant privacy should also be key point. This involves obtaining consent, safeguarding privacy, and demonstrating cultural sensitivity. In the diverse field of linguistics, the type of data collected can span a spectrum from lab-based phonetics experiments to sociolinguistic video interviews. Consequently, the inherent characteristics of the data differ substantially. For example, data stemming from phonetic experiments can be conveniently de-identified, whereas disseminating video materials from sociolinguistic posses more ethical issues. Potential strategies to address these concerns encompass providing textual transcriptions, excluding video content, or procuring formal consents from study participants. Crucially, any determinations must attend the importance of safeguarding participants' well-being and confidentiality, all the while adhering to legal prescriptions and the ethical discernment of the researcher.

  4. Standardization: Here, transcription, and data storage practices come into play. These ensure that the data is universally understandable and ensures that the data can be utilized by other researchers for replication or further exploration.

On the topic of data storage, an unavoidable dilemma associated with the aging of technology is the failure of storage drives. Privately storing data over extended periods is trickier than one might assume. Drives can get lost, and even if they do not, hard drive failures are inevitable over time. So, how does one safeguard their invaluable linguistic data? One feasible solution is making the data public. Not only does this promote data preservation for future reanalysis, but it also encourages transparency in research.

Given the presented variability in the linguistic field, the decision to share data, especially data related to human subjects, warrants careful consideration. It becomes vital to assess the kind of study you're conducting: whether it's phonetics, a sociolinguistic interview, or an eye-tracking study.

As a principal investigator (PI), your objective should be achieving research reproducibility. You should as much information as feasible, enabling the broader research community and society to gain a profound understanding of your work.


To sum up, open data is important in scientific research for several reasons:

  1. Linguistic research is increasingly emphasizing open and accessible data.
  2. Data sharing boosts researcher credibility and fosters collaboration.
  3. Global initiatives are pushing for greater transparency in sharing.
  4. Data preservation is challenging; notable repositories exist to help.
  5. Ethical considerations, especially around participant privacy, are crucial.
  6. Technological failures necessitate innovative data storage solutions.
  7. Decision to share data should consider study type and aim for reproducibility.
IvanAndreuRascon commented 7 months ago

version traducida de la version online,

El libre acceso a los datos, resultado de una investigación dentro del ámbito de lingüística ha sido recientemente propuesto como un medio para impulsar prácticas de investigación éticas. Sobre todo, motivado por la crisis de reproducibilidad en este campo. Una crisis en la investigación puede definirse como una situación en la cual muchos estudios no pueden ser reproducidos debido a la falta de materiales sobre estudios previos. Aunque las principales revistas científicas ahora exigen acceso a datos brutos, esto no es único en la lingüística, ya que es un mero reflejo de la crisis de reproducibilidad experimentada en campos como la biología o la psicología.

El acceso a datos brutos y a todo el proceso de toma de decisiones es una necesidad en la lingüística, ya que la capacidad de confiar y construir sobre el conocimiento previo es la herramienta fundamental del desarrollo de la investigación. En este tutorial, explicamos por qué y cómo puedes hacer esto y convertirte en un mejor investigador.

¿Por qué deberías hacer accesibles tus datos? Hacer disponibles los datos, así como todo el proceso de toma de decisiones, es una práctica necesaria no solo para dar cuenta de la variabilidad en los resultados debido al proceso de toma de decisiones, sino también para técnicas de investigación inapropiadas, como HARKing, p-hacking y la presentación selectiva de resultados positivos. Compartir tus datos y hacerlos públicamente disponibles tiene un beneficio triple, ya que beneficia al investigador, a la comunidad y a la sociedad. Comenzando por el investigador, aumenta la visibilidad, reduce ineficiencias, mejora las conexiones y, lo más importante, te hace, como investigador, ganar mayor reconocimiento, credibilidad, validez y descubrimiento. Además, beneficia a la comunidad investigadora, ya que tus datos y procedimientos pueden ser utilizados para formar nuevos investigadores, reducir experimentos innecesarios, mejorar el conocimiento común a largo plazo y, más significativamente, facilitar la replicación. Finalmente, podemos informar a la sociedad al permitir la comprensión pública, promover la ciencia, aumentar la innovación y proporcionar al mundo un acceso más fácil a nuestros hallazgos.

La lingüística todavía está desarrollando una postura respecto al libre acceso científico y la disponibilidad de datos. Varias iniciativas están tratando de aumentar la accesibilidad de datos extraídos de estudios de investigación, incentivando el compartir voluntario de todos los materiales y procedimientos utilizados durante el proceso de investigación.

Almacenar tus datos de forma privada a lo largo del tiempo puede ser más complicado de lo que se puede pensar. Las unidades de almacenamiento pueden perderse, pero si no lo hacen, un disco duro fallará, consecuencia inevitable del paso del tiempo.

Entonces, ¿qué puedes hacer para proteger tus datos lingüísticos?

Como investigador, puedes hacer tus datos disponibles de varias maneras y grados, dependiendo del enfoque de tu proyecto de investigación. Una plataforma comúnmente utilizada es OSF, https://osf.io/, una herramienta web diseñada para ayudar a los investigadores a gestionar, almacenar y compartir de manera colaborativa su proceso de investigación y archivos relacionados con su investigación.

Compartir tus datos públicamente también permite la preservación de los datos para futuros reanálisis. Sin embargo, el campo lingüístico y el estudio del lenguaje es amplio, con mucha variabilidad y grados. Por lo tanto, una preocupación general radica en la capacidad de compartir datos relacionados con participantes humanos. Para responder a esta pregunta, primero necesitas mirar tu tipo de estudio: ¿es un estudio de fonética de laboratorio? ¿Es una entrevista de sociolingüística en video? ¿Es un estudio de seguimiento ocular?

Mientras que compartir datos de estudios fonéticos es más accesible, ya que los identificadores pueden eliminarse fácilmente, otras ramas de la lingüística, como la sociolingüística, que podrían involucrar grabaciones en video de los participantes, podrían representar una preocupación más significativa. Algunas alternativas para hacer públicos tus datos son enviar transcripciones, eliminar cualquier componente de video o firmar exenciones con participantes que tomaron el estudio. Por supuesto, la decisión final debe tomarse de acuerdo con la legalidad y los criterios del investigador así como del lugar donde la investigación esta siendo llevada a cabo.

Como investigador debes decidir qué información puede hacer tu investigación más reproducible y compartir tanta información como sea posible para que tú, tu comunidad de investigación y la sociedad puedan comprender tu trabajo más profundamente.

En resumen, los datos abiertos son importantes en la investigación científica por varias razones:

Reproducibilidad: Compartir públicamente datos permite a otros investigadores acceder y verificar los hallazgos de un estudio. Esto es importante para garantizar la reproducibilidad de la investigación científica. Colaboración: Compartir públicamente datos permite a los investigadores de diferentes disciplinas e instituciones colaborar en proyectos de investigación. Esto puede llevar a nuevos conocimientos y descubrimientos que de otro modo podrían no haber sido posibles. Eficiencia: Compartir públicamente datos permite ayudar a reducir la duplicación de esfuerzos y recursos al permitir a los investigadores construir sobre el trabajo de otros. Esto puede conducir a un progreso científico más rápido y eficiente. Transparencia: Compartir públicamente datos permite la transparencia en la investigación científica al permitir que otros vean los datos brutos detrás de las conclusiones de un estudio. Esto puede ayudar a reducir el potencial de sesgo o fraude. Innovación: Compartir públicamente datos lleva a descubrimientos nuevos e inesperados al permitir a los investigadores explorar conjuntos de datos de nuevas formas o aplicar nuevas técnicas a datos existentes. En general, compartir públicamente datos permite ayudar a mejorar la calidad y el impacto de la investigación científica al promover la transparencia, la colaboración y la innovación.