dataforgoodfr / batch7_rse

A search engine for French corporate societal and environnemental commitments and actions.
http://dataforgood.fr/batch7_rse/
MIT License
5 stars 2 forks source link

Mesure de similarité entre vecteurs #25

Closed CharlesGaydon closed 4 years ago

CharlesGaydon commented 4 years ago

Actuellement: scipy.spatial.distance.cosine est utilisée comme distance, et la similarité cosine est retrouvée en faisant similarité = 1 - distance. Le range de la distance est de [0 - 2], celui de la similarité est de [-1, 1] (@Renaud-D-Harreville FYI)

image

Normalisation:

CharlesGaydon commented 4 years ago

@Renaud-D-Harreville En plus de l'usage de cosine de sklearn, il faut simplement retirer sa moyenne au vecteur lors de sa création qui se fait ici: https://github.com/dataforgoodfr/batch7_rse/blob/252c03f8146a746bf044f6a50a8091c17051852f/webapp/polls/rse_model/rse_watch/scoring.py#L259