Automatický index uživatelských účtů podle rolí

Jeden z našich nejčastějších use casů je „hledáme člověka na roli“, například „hledáme technickou konzultantku pro Nezisk.Digital“. Máme databázi lidí a je otázka, jak tam takového člověka najít. Částečně nám můžou pomoct hashtagy dovedností, ale ty nemáme u všech lidí, nemusí být aktuální a podobně. Proto nás napadlo, že bychom mohli zkusit to hledání automatizovat. Naivní představa:

Napíšeme si seznam rolí, pro které hledáváme lidi. Každá role je stručně charakterizovaná například odstavcem textu, ve kterém můžou zaznít používané technologie, zkušenosti a podobně.
Z naší databáze uživatelských účtů vytáhneme ke každému člověku seznam věcí, co o něm víme – zejména hashtagy, ale taky bio, zkušenosti, potenciálně též představovací zprávu ze Slacku, příspěvky z diskuzního fóra, cokoliv.
Seznam rolí a seznam lidí předložíme nějakému jazykovému modelu a necháme ho udělat index lidí, kteří se hodí na tu kterou roli. Tenhle index můžeme následně zapsat zpět do databáze a následně používat při vyhledávání: #1053

Poznámky:

Můžeme udělat seznam pár rolí, o které máme zájem? Ideálně je pak můžem zkusit prohnat nějakým jazykovým modelem na zkoušku, abychom si ten koncept experimentálně ověřili.
V produkci by bylo ideální použít nějaký open source lokální jazykový model, ať nemusíme nikam posílat naše data.
Provizorní představa je, že by ten proces běžel například jednou denně v GitHub Actions. Tím pádem nejsme moc vázaní technologicky, může to být třeba v Pythonu. (Ale toho programování by tam nemělo být moc, jde hlavně o lepidlo mezi daty a modelem + skriptování kolem.)

cesko-digital / app

Automatický index uživatelských účtů podle rolí #1094