ftnext / ocroy

https://pypi.org/project/ocroy/
MIT License
0 stars 0 forks source link

画像に書かれたテキストをGeminiで読み出す方法を知っている #5

Closed ftnext closed 9 months ago

ftnext commented 9 months ago

https://ai.google.dev/tutorials/python_quickstart#generate_text_from_image_and_text_inputs

ftnext commented 9 months ago
import google.generativeai as genai
from PIL import Image

image = Image.open("kanji.png")

genai.configure()

model = genai.GenerativeModel("gemini-pro-vision")
prompt = "画像の中に日本語で書いてあるテキストをすべて抜き出してください"
response = model.generate_content([prompt, image], stream=True)
response.resolve()

print(response.text)

(プロンプトを試行錯誤する必要があったが、ChatGPTを見つけて止まったのかも)

 - あなたた
- 稲田橋から神楽坂エリアで、新年会におすすめの居酒屋を探してください。予算は1人7000円以下で、8人が入れるお店にしてください。
- 稲田橋や神楽坂エリアで新年会におすすめの居酒屋として、「マルゲリータピッツァ」があります。こちらは本格的なイタリア料理を提供するお店で、ピザが特徴です。最大64人まで入れる宴会が可能で、予約は宴会コースで5000円から利用できます。また、「神楽坂スギタ」もおすすめです。こちらは本格イタリアンを提供する隠れ家的な雰囲気のお店です。5名以上で利用できるコースがあり、7500円の特別ピッツァコースが特におすすめです。

数字が全角になっている