Распознавание кириллицы

ghost commented 1 year ago

Здравствуйте. Не подскажите как сделать чтоб распознавалась кириллица ? Что-то вроде гайда можно как обучить? я не очень в этом понимаю, но есть нужда в распознавании. Был бы очень благодарен за вашу помощь .

imartemy1524 commented 1 year ago

https://habr.com/ru/articles/673440/ Тут есть более-менее подробный туториал

eremeyko commented 11 months ago

Тут есть более-менее подробный туториал

эх вот бы датасет для этого дела.......

ghost commented 10 months ago

Тут есть более-менее подробный туториал

эх вот бы датасет для этого дела.......

могу предоставить около 150к, результатом поделитесь?

eremeyko commented 10 months ago

могу предоставить около 150к

Уже решённых капч на кириллице?

ghost commented 10 months ago

могу предоставить около 150к

Уже решённых капч на кириллице?

Все верно, только с количеством ошибся маленько, 147к там. Ссылка ( https://disk.yandex.ru/d/grsLJ3w00ElQ_Q ) ведет на текстовой файл, где строки следующего формата:

/9j/4AAQSkZJRgABAQEAYABgAAD//gA+Q1JFQV................UAf/Z:дмфа2р

Все что до двоеточия - закодированная в base64 картинка, все что после - это собственно решение.

Поделись готовой моделью со мной и предоставь автору проекта пусть сделает доступным для всех.

ghost commented 10 months ago

https://habr.com/ru/articles/673440/ Тут есть более-менее подробный туториал

Предоставляю вам 147к решенных кириллических капч от вк, натренируйте пожалуйста новую модель.

https://disk.yandex.ru/d/grsLJ3w00ElQ_Q

eremeyko commented 10 months ago

Предоставляю вам 147к решенных кириллических капч от вк

На будущее: собирая такой большой файл, ищи закономерности для уменьшения количеств повторений. Так, например, я ещё давно заметил что начало у ВСЕХ base-64 капч имеет точное начало: /9j/4AAQSkZJRgABAQEAYABgAAD//gA+Q1JFQVRPUjogZ2QtanBlZyB2MS4wICh1c2luZyBJSkcgSlBFRyB2NjIpLCBkZWZhdWx0IHF1YWxpdHkK/9sAQwAIBgYHBgUIBwcHCQkICgwUDQwLCwwZEhMPFB0aHx4dGhwcICQuJyAiLCMcHCg3KSwwMTQ0NB8nOT04MjwuMzQy/9sAQwEJCQkMCwwYDQ0YMiEcITIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIy/8AAEQgAMgCCAwEiAAIRAQMRAf/EAB8AAAEFAQEBAQEBAAAAAAAAAAABAgMEBQYHCAkKC//EALUQAAIBAwMCBAMFBQQEAAABfQECAwAEEQUSITFBBhNRYQcicRQygZGhCCNCscEVUtHwJDNicoIJChYXGBkaJSYnKCkqNDU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6g4SFhoeIiYqSk5SVlpeYmZqio6Slpqeoqaqys7S1tre4ubrCw8TFxsfIycrS09TV1tfY2drh4uPk5ebn6Onq8fLz9PX29/j5+v/EAB8BAAMBAQEBAQEBAQEAAAAAAAABAgMEBQYHCAkKC//EALURAAIBAgQEAwQHBQQEAAECdwABAgMRBAUhMQYSQVEHYXETIjKBCBRCkaGxwQkjM1LwFWJy0QoWJDThJfEXGBkaJicoKSo1Njc4OTpDREVGR0hJSlNUVVZXWFlaY2RlZmdoaWpzdHV2d3h5eoKDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uLj5OXm5+jp6vLz9PX29/j5+v/

Попробую что-то сделать со своей стороны, не говоря про автора, в одной лодке как-никак

ghost commented 10 months ago

Предоставляю вам 147к решенных кириллических капч от вк

На будущее: собирая такой большой файл, ищи закономерности для уменьшения количеств повторений. Так, например, я ещё давно заметил что начало у ВСЕХ base-64 капч имеет точное начало: /9j/4AAQSkZJRgABAQEAYABgAAD//gA+Q1JFQVRPUjogZ2QtanBlZyB2MS4wICh1c2luZyBJSkcgSlBFRyB2NjIpLCBkZWZhdWx0IHF1YWxpdHkK/9sAQwAIBgYHBgUIBwcHCQkICgwUDQwLCwwZEhMPFB0aHx4dGhwcICQuJyAiLCMcHCg3KSwwMTQ0NB8nOT04MjwuMzQy/9sAQwEJCQkMCwwYDQ0YMiEcITIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIy/8AAEQgAMgCCAwEiAAIRAQMRAf/EAB8AAAEFAQEBAQEBAAAAAAAAAAABAgMEBQYHCAkKC//EALUQAAIBAwMCBAMFBQQEAAABfQECAwAEEQUSITFBBhNRYQcicRQygZGhCCNCscEVUtHwJDNicoIJChYXGBkaJSYnKCkqNDU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6g4SFhoeIiYqSk5SVlpeYmZqio6Slpqeoqaqys7S1tre4ubrCw8TFxsfIycrS09TV1tfY2drh4uPk5ebn6Onq8fLz9PX29/j5+v/EAB8BAAMBAQEBAQEBAQEAAAAAAAABAgMEBQYHCAkKC//EALURAAIBAgQEAwQHBQQEAAECdwABAgMRBAUhMQYSQVEHYXETIjKBCBRCkaGxwQkjM1LwFWJy0QoWJDThJfEXGBkaJicoKSo1Njc4OTpDREVGR0hJSlNUVVZXWFlaY2RlZmdoaWpzdHV2d3h5eoKDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uLj5OXm5+jp6vLz9PX29/j5+v/

Попробую что-то сделать со своей стороны, не говоря про автора, в одной лодке как-никак

есть успехи?

eremeyko commented 10 months ago

есть успехи?

Ждём-с

Sleeeepy7 commented 10 months ago

есть успехи?

Ждём-с

Ну как там успехи?

eremeyko commented 10 months ago

Ну как там успехи?

epoch 84/100. val_loss — 0.24353

ghost commented 10 months ago

Ну как там успехи?

epoch 84/100. val_loss — 0.24353

Получилось?

eremeyko commented 10 months ago

Ну как там успехи?

epoch 84/100. val_loss — 0.24353

Получилось?

0% :))

ghost commented 9 months ago

Ну как там успехи?

epoch 84/100. val_loss — 0.24353

Получилось?

0% :))

а по конкретнее ? что именно не получилось? распознанные капчи были верные как минимум на 95%, уверен потому что все эти капчи взяты из реального проекта....

T3h-Verm commented 8 months ago

Предоставляю вам 147к решенных кириллических капч от вк

На будущее: собирая такой большой файл, ищи закономерности для уменьшения количеств повторений. Так, например, я ещё давно заметил что начало у ВСЕХ base-64 капч имеет точное начало: /9j/4AAQSkZJRgABAQEAYABgAAD//gA+Q1JFQVRPUjogZ2QtanBlZyB2MS4wICh1c2luZyBJSkcgSlBFRyB2NjIpLCBkZWZhdWx0IHF1YWxpdHkK/9sAQwAIBgYHBgUIBwcHCQkICgwUDQwLCwwZEhMPFB0aHx4dGhwcICQuJyAiLCMcHCg3KSwwMTQ0NB8nOT04MjwuMzQy/9sAQwEJCQkMCwwYDQ0YMiEcITIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIy/8AAEQgAMgCCAwEiAAIRAQMRAf/EAB8AAAEFAQEBAQEBAAAAAAAAAAABAgMEBQYHCAkKC//EALUQAAIBAwMCBAMFBQQEAAABfQECAwAEEQUSITFBBhNRYQcicRQygZGhCCNCscEVUtHwJDNicoIJChYXGBkaJSYnKCkqNDU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6g4SFhoeIiYqSk5SVlpeYmZqio6Slpqeoqaqys7S1tre4ubrCw8TFxsfIycrS09TV1tfY2drh4uPk5ebn6Onq8fLz9PX29/j5+v/EAB8BAAMBAQEBAQEBAQEAAAAAAAABAgMEBQYHCAkKC//EALURAAIBAgQEAwQHBQQEAAECdwABAgMRBAUhMQYSQVEHYXETIjKBCBRCkaGxwQkjM1LwFWJy0QoWJDThJfEXGBkaJicoKSo1Njc4OTpDREVGR0hJSlNUVVZXWFlaY2RlZmdoaWpzdHV2d3h5eoKDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uLj5OXm5+jp6vLz9PX29/j5+v/

Попробую что-то сделать со своей стороны, не говоря про автора, в одной лодке как-никак

Тут есть более-менее подробный туториал

эх вот бы датасет для этого дела.......

могу предоставить около 150к, результатом поделитесь?

Я попробовал натренировать модель с вашим датасетом и кодом автора, получилось в районе 40% только. У вас нет дополнительного датасета?

Хм, кажется я допустил пару ошибок, попробую по новой и отпишусь.

T3h-Verm commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м']

точность 74%

mandjieff commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м']

точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

T3h-Verm commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

Перепроверил, сама модель ,без конвертации в onnx, выдает 94%, после конвертации 74,4%. Так как я далек от нейросетей, то пока не знаю куда думать, если есть идеи - предлагайте.

T3h-Verm commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

В целом если есть такой датасет, скидывайте, лишним не будет явно.

eremeyko commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

Перепроверил, сама модель ,без конвертации в onnx, выдает 94%, после конвертации 74,4%.

Ты пробовал другие репозитории для конвертации? Например, из кода дефасиума?

T3h-Verm commented 8 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

Перепроверил, сама модель ,без конвертации в onnx, выдает 94%, после конвертации 74,4%.

Ты пробовал другие репозитории для конвертации? Например, из кода дефасиума?

Я пробовал через пример автора, если есть еще какие то варианты, то кинь ссылку, попробую.

eremeyko commented 8 months ago

Я пробовал через пример автора, если есть еще какие то варианты, то кинь ссылку, попробую.

https://github.com/Defasium/vkCaptchaBreaker/blob/main/python/onnx_crnn_conversion.py

T3h-Verm commented 7 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Приветствую. Я тоже заинтересован в распознавании кириллицы. Могу достать датасет поболее чем 147к у автора. Возможно ли в этом случае повысить точность распознавания до 95 % хотя бы? Если около 1 млн предоставлю?

Что по итогу с датасетом? Получается?

eremeyko commented 5 months ago

Есть результаты?

internetrvze commented 5 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м']

точность 74%

Под эту модель кто-то пытался написать модуль? Я вот попробовал впихнуть данную модель в модуль vk_captchasolver, не вышло

eremeyko commented 4 months ago

Вот ссылка на модель https://cloud.mail.ru/public/Rks4/nVXkMG2Mz characters = ['ж', 'д', 'ф', 'ш', 'х', 'т', 'у', 'к', 'с', 'е', 'р', 'а', '2', '7', '5', 'м'] точность 74%

Под эту модель кто-то пытался написать модуль? Я вот попробовал впихнуть данную модель в модуль vk_captchasolver, не вышло

Использовал эту модель (именно onnx) для теста, на тестовых капчах он посыпался.

imartemy1524 / vk_captcha

Распознавание кириллицы #9