A propos du data set - Githubissues

TheophileBlard / french-sentiment-analysis-with-bert

How good is BERT ? Comparing BERT to other state-of-the-art approaches on a French sentiment analysis dataset

MIT License

146 stars 35 forks source link

A propos du data set #3

Closed dseddah closed 3 years ago

dseddah commented 3 years ago

Bonjour, c'est vraiment un beau travail ! Dites, vous pouvez en dire plus sur la constitution du jeu de données ? d'où viennent les annotations ? Aggregations des scores des reviews ? vote des utilisateurs ?

Djamé

dseddah commented 3 years ago

je viens juste voir le readme dans le dossier allocine_data set. Oubliez ce que j'ai dit.

Vous pouvez en dire plus sur la licence du data set ? est-ce qu'on peut le diffuser, etc ?

TheophileBlard commented 3 years ago

Bonjour, ce sont des données scrapées, comme l'explique le README, elles sont donc sans doute sujettes à des limitations. Je ne me suis pas vraiment posé la question, l'objectif de ce repo étant principalement d'entraîner des modèles. Concernant la licence et la diffusion je ne peux donc pas vous apporter de réponse claire. Dans tous les cas, les données peuvent être générées avec allocine_scraper.py en quelques heures.

hodhoda commented 3 years ago

Bonjour, Ma question se repose sur le code que vous avez utilisé pour calculer le pourcentage ( score) pour chaque sentiment (positive et negative), je le trouve pas sur votre page de github , le résultat d'affichage que je parle est montré sur cette page : https://huggingface.co/tblard/tf-allocine?text=Je+t%27appr%C3%A9cie+beaucoup.+Je+t%27aime. Pour moi, je veux exécuter ce code sur mon propre script et pas seulement tester le résultat sur le site. Pouvez vous svp de l'ajouter sur votre page github ou de me l'envoyer directement sur ma boite email: abzdhouda@gmail.com. Merci pour votre aide.

TheophileBlard commented 3 years ago

Bonjour, Ma question se repose sur le code que vous avez utilisé pour calculer le pourcentage ( score) pour chaque sentiment (positive et negative), je le trouve pas sur votre page de github , le résultat d'affichage que je parle est montré sur cette page : https://huggingface.co/tblard/tf-allocine?text=Je+t%27appr%C3%A9cie+beaucoup.+Je+t%27aime. Pour moi, je veux exécuter ce code sur mon propre script et pas seulement tester le résultat sur le site. Pouvez vous svp de l'ajouter sur votre page github ou de me l'envoyer directement sur ma boite email: abzdhouda@gmail.com. Merci pour votre aide.

Bonjour, votre question ne concernant pas le jeu de données, j'ai ouvert une autre issue #4 qui explique comment récupérer les scores associés aux classes depuis du code python.

hodhoda commented 3 years ago

Bonjour Teophile, J'ai un problème dans le code de scrape_allocine, les données scrapées sont toutes presques vides, lors j'applique le code explore data, l'erreur suivant s'affiche: "a must be greater than 0 unless no samples are taken", et lorsque je vois les donnees allocine.pickles ils sont toutes de moins de 1Ko, ce que j'ai compris qu'il y a une erreur lors du téléchargement , et ainsi j'ai essayé pas mal de fois de répeter le meme processus sur le code de scraping et dans le fichier de création de data je reçois toujours le meme erreur. Pouvez vous SVP de m'envoyer directement les données allocine.pickles que vous avez utilisées pour la creation de votre base de données en Francais. J'en ai vraiment besoin pour continuer mes recherches sur l'analyse de sentiment.