kartevonmorgen / FairSync

A general Syncronisation Tool for kvm and other maps
1 stars 0 forks source link

AI für Imort recherchieren #12

Open wellemut opened 10 months ago

wellemut commented 10 months ago

Wir koennen die neuen Daten mit AI aufbereiten (filtern) und so eine bessere Qualitaet erreichen. Selbiges kann auch fuer die Migration von zwei Datensaetzen verwendet werden und wir koennten ggf. sogar vorhandene Daten periodisch damit updaten.

Technik

Mit LLama2:7b, :13b verschiedene import Szenarien probieren. Vergleich zu ChatGPT 3.5 machen. Dann Kosten und weitere Faktoren abschaetzen.

Ggf. auch

Dann Ergebnisse vergleichen.

Prompts

Mit diesen hab ich etwas probiert, aber man sollte das noch um einiges erweitern. Z.b. das Zielformat json schon mit in die Anfage aufnehmen.

# requirement
convert the CVS data below the requirementinto a json document using these constraints:
* sort the order of json fields like this: title, ID, country, state and then all the other fields
* contact_email: check field has a valid email address or set null
* contact_phone: contains a valid phone number or set null, also remove all + signs from the contact_phone field
* location: should be a list containing the data lat and lng as a child field, fill the field if you know the location of the given city
* opening_hours: should be a list of all week days as keys, starting monday and ending sunday, with respective opening hours or null if not given
* guess the state field based on the city/country/zip/street code if not given
* don't makeup any field entry, if there is no entry, just set null
* only provide the json document as a result, no remarks, comments or similar
* process all datasets given

# data, first line specifies the CSV fields, and 3 more entries to process
ID,title,description,lat,lng,street,zip,city,country,state,contact_name,contact_email,contact_phone,opening_hours,founded_on,tags,homepage,license
d3d86276ae934a6db879336cc0615bb1,EINKORN unverpackt & mehr,++ Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Rathausstraße 41 b,68519,Viernheim,,,test,++hallo@einkorn-unverpackt.de,++06204 9198839,++Di. 10:00-18:00; Mi. 10:00-14:00; Do. 10:00-18:00; Fr. 10:00-18:00; Sa. 09:00-13:00; ,,"++Unverpacktladen,einkorn,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",++www.einkorn-unverpackt.de,CC0-1.0
5cbc6b5994f94b3a9bbcc436ec5cd694,Die Auffüllerei,Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Höhenstraße 40,60385,Frankfurt am Main,,,,hallo@dieauffuellerei.de,069 40564006,Mo. 10:00-19:00; Di. 10:00-19:00; Mi. 10:00-19:00; Do. 10:00-19:00; Fr. 10:00-19:00; Sa. 10:00-19:00; ,,"commercial,Unverpacktladen,dieauffüllerei,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",www.dieauffuellerei.de,CC0-1.0
4dd90ea493054f89a925dbf6bb3855a1,Emmas Erben ,Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Schlossgasse 7,64853,"Otzberg, OT Habitzheim",,,,info@emmas-erben.com,06162 9439461,Mi. 09:00-13:00; Do. 14:00-18:00; Fr. 14:00-18:00; Sa. 09:00-13:00; ,,"commercial,Unverpacktladen,emmaserben,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",https://emmas-erben.com/,CC0-1.0

more data

https://github.com/kartevonmorgen/openfairdb/issues/88

/v3/navigation/spaces/

https://wechange.de/api/v3/navigation/spaces/

tests

https://replicate.com/meta/llama-2-70b-chat?output=json

wellemut commented 9 months ago

Update

alex0107 commented 9 months ago

Btw. wir haben einen GPU Server für LocalAI...

wellemut commented 9 months ago

@qknight Frage gerne @alex0107 wenn es um Server und Rechenleistung geht...

wellemut commented 8 months ago

@qknight hat mit Lamma 2, bzw. olamma (lokal) 7B ( 7Mrd. token kontext) experimentiert i. Wie viele Tokens brauchen wir pro Anfrage? https://github.com/ollama/ollama?tab=readme-ov-file#model-library

Das Tool erkennt automatisch, welche Inhalte in welcher Sprache stehen. (das was man bei Monday manuell auswählen muss) grafik

Wie viele Einträge können wir auf einmal prüfen, um mehr kontext zu haben?...

Next Step

AI an Mapper von Markus anbinden und integration testen

qknight commented 7 months ago

ich hab etwas mit diesen prompts gespielt:


# requirement
convert the CVS data below the requirementinto a json document using these constraints:
* sort the order of json fields like this: title, ID, country, state and then all the other fields
* contact_email: check field has a valid email address or set null
* contact_phone: contains a valid phone number or set null, also remove all + signs from the contact_phone field
* location: should be a list containing the data lat and lng as a child field, fill the field if you know the location of the given city
* opening_hours: should be a list of all week days as keys, starting monday and ending sunday, with respective opening hours or null if not given
* guess the state field based on the city/country/zip/street code if not given
* don't makeup any field entry, if there is no entry, just set null
* only provide the json document as a result, no remarks, comments or similar
* process all datasets given

# data, first line specifies the CSV fields, and 3 more entries to process
ID,title,description,lat,lng,street,zip,city,country,state,contact_name,contact_email,contact_phone,opening_hours,founded_on,tags,homepage,license
d3d86276ae934a6db879336cc0615bb1,EINKORN unverpackt & mehr,++ Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Rathausstraße 41 b,68519,Viernheim,,,test,++hallo@einkorn-unverpackt.de,++06204 9198839,++Di. 10:00-18:00; Mi. 10:00-14:00; Do. 10:00-18:00; Fr. 10:00-18:00; Sa. 09:00-13:00; ,,"++Unverpacktladen,einkorn,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",++www.einkorn-unverpackt.de,CC0-1.0
5cbc6b5994f94b3a9bbcc436ec5cd694,Die Auffüllerei,Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Höhenstraße 40,60385,Frankfurt am Main,,,,hallo@dieauffuellerei.de,069 40564006,Mo. 10:00-19:00; Di. 10:00-19:00; Mi. 10:00-19:00; Do. 10:00-19:00; Fr. 10:00-19:00; Sa. 10:00-19:00; ,,"commercial,Unverpacktladen,dieauffüllerei,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",www.dieauffuellerei.de,CC0-1.0
4dd90ea493054f89a925dbf6bb3855a1,Emmas Erben ,Das ist ein Unverpackt-Laden. Hier können unverpackte Produkte gekauft werden. ,,,Schlossgasse 7,64853,"Otzberg, OT Habitzheim",,,,info@emmas-erben.com,06162 9439461,Mi. 09:00-13:00; Do. 14:00-18:00; Fr. 14:00-18:00; Sa. 09:00-13:00; ,,"commercial,Unverpacktladen,emmaserben,mehrwegstatteinweg,handlungsfeld1,unverpackt,kosmetik,lebensmittel,verpackungsfrei,hessenwillsmessen,hlnug0imp",https://emmas-erben.com/,CC0-1.0

und auf chatgpt 3.5 sind die ergebnisse richtig gut, auf llama2:13b mal ok, mal schlecht.

qknight commented 7 months ago

@alex0107 machen wir kommende woche mal nen call so ab mittwoch?

qknight commented 7 months ago

Hier mal zwei links zum spielen mit dem input von oben:

Und dazu das noch nicht probierte Modell:

qknight commented 7 months ago

https://api.ai.rhw24.it/