Closed WAILMAGHRANE closed 4 days ago
@WAILMAGHRANE Same Question
I've used this function, and it worked well. (I'm using Gemini.)
class Vision: @tool("Doc Verification") def vision(prompt: str, path: str): """ C'est un outil utilisé pour analyser les images en fonction d'une instruction à l'aide de Gemini.
Paramètres :
- prompt (str) : L'instruction textuelle pour l'analyse de l'image.
- path (str) : Le chemin complet vers le fichier image.
Renvoie :
- str : Le texte de réponse généré par le modèle de vision Gemini.
"""
# Vérifier la disponibilité de la clé API (à remplacer par votre gestion des erreurs)
if not GOOGLE_API_KEY:
raise ValueError("Clé API Gemini non fournie.")
try:
# Ouvrir l'image
image = Image.open(path)
# Créer une instance de modèle génératif (en supposant que 'genai' est la bibliothèque)
model = genai.GenerativeModel(model_name="gemini-pro-vision")
# Générer du contenu en utilisant l'instruction et l'image
response = model.generate_content([prompt, image])
return response.text
except FileNotFoundError:
return "Erreur : Fichier image introuvable."
except Exception as e: # Attraper d'autres erreurs potentielles
return f"Erreur : {e}"
@WAILMAGHRANE Same Question
Hey, do you have any idea how can we do this in GPT - 4o vision model?
This issue is stale because it has been open for 30 days with no activity. Remove stale label or comment or this will be closed in 5 days.
This issue was closed because it has been stalled for 5 days with no activity.
Can CrewAI's agents process images and provide results based on them? I know that CrewAI uses GPT-4 Turbo, which can handle both text and images, but I'm not sure how to pass an image to the agent and get a result.