setnicka / ulozto-downloader

EOL - end of life | Uloz.to quick multiple sessions downloader
MIT License
280 stars 48 forks source link

noCAPTHA does not work #135

Closed carl7-7 closed 1 year ago

carl7-7 commented 1 year ago

Pokiaľ dám stiahnuť súbor uvedený v readme tak všetko funguje pretože vyžaduje captchu ulozto-downloader --parts 10 --parts-progress https://ulozto.cz/file/TKvQVDFBEhtL/debian-9-6-0-amd64-netinst-iso

Ale akonáhle dám iný súbor, ktorý nevyžaduje captchu tak sa to nerozbehne iba to stále píše [INFO] TOR get downlink ulozto-downloader --parts 10 --parts-progress https://ulozto.cz/file/YPivhc3Jyn9r/debian-live-11-1-0-amd64-mate-iso

python 3.8.2 ulozto-downloader 3.2.0 debian:11 in docker

...v minulosti bolo všetko v poriadku

2022-12-16 17:17:32 MAIN [INFO] [Autodetect] tflite_runtime available, using --auto-captcha 2022-12-16 17:17:32 MAIN [INFO] Starting downloading for url 'https://ulozto.cz/file/TKvQVDFBEhtL/debian-9-6-0-amd64-netinst-iso' 2022-12-16 17:17:32 MAIN [INFO] Getting info (filename, filesize, …) 2022-12-16 17:17:33 MAIN [INFO] CAPTCHA protected download - CAPTCHA challenges will be displayed 2022-12-16 17:17:33 MAIN [INFO] Download in progress 2022-12-16 17:17:33 CAPTCHA [INFO] Solve CAPTCHA dlink .. 2022-12-16 17:17:33 CAPTCHA [INFO] Solve CAPTCHA dlink .. 2022-12-16 17:17:33 CAPTCHA [INFO] Solve CAPTCHA dlink .. 2022-12-16 17:17:33 CAPTCHA [INFO] Solve CAPTCHA dlink .. 2022-12-16 17:17:33 TOR [INFO] Starting TOR... 2022-12-16 17:18:08 TOR [INFO] TOR is ready, download links started 2022-12-16 17:18:08 CAPTCHA [INFO] TOR get new CAPTCHA (timeout 30) 2022-12-16 17:18:08 CAPTCHA [INFO] Image URL obtained, trying to solve 2022-12-16 17:18:08 CAPTCHA [INFO] Auto solving CAPTCHA 2022-12-16 17:18:08 CAPTCHA [INFO] CAPTCHA auto solved as 'xbvf' 2022-12-16 17:18:08 CAPTCHA [INFO] CAPTCHA answer 'xbvf' (timeout 30) 2022-12-16 17:18:09 MAIN [INFO] Terminating download. Please wait for stopping all threads. 2022-12-16 17:18:09 CAPTCHA [ERROR] Network error get new TOR connection: Connection error, try new TOR session. 2022-12-16 17:18:10 TOR [INFO] Terminating tor 2022-12-16 17:18:10 TOR [INFO] Removed tor data dir: ./tor_data_dir_e1f4ae3e-cac7-446c-b2d3-ebc5c7e39996 2022-12-16 17:18:10 MAIN [INFO] Download terminated.

2022-12-16 17:18:19 MAIN [INFO] [Autodetect] tflite_runtime available, using --auto-captcha 2022-12-16 17:18:19 MAIN [INFO] Starting downloading for url 'https://ulozto.cz/file/YPivhc3Jyn9r/debian-live-11-1-0-amd64-mate-iso' 2022-12-16 17:18:19 MAIN [INFO] Getting info (filename, filesize, …) 2022-12-16 17:18:19 MAIN [INFO] You are lucky, this is slow direct download without CAPTCHA :) 2022-12-16 17:18:19 TOR [INFO] Starting TOR... 2022-12-16 17:18:35 TOR [INFO] TOR is ready, download links started 2022-12-16 17:18:35 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:37 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:41 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:42 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:43 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:44 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:46 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:48 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:50 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:51 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:51 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:55 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:56 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:57 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:18:58 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:00 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:02 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:03 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:06 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:07 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:08 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:10 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:13 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:15 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:16 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:20 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:21 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:22 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:26 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:26 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:28 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:33 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:41 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:41 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:43 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:44 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:46 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:47 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:48 CAPTCHA [INFO] TOR get downlink (timeout 30) 2022-12-16 17:19:49 MAIN [INFO] Terminating download. Please wait for stopping all threads. 2022-12-16 17:19:49 TOR [INFO] Terminating tor 2022-12-16 17:19:49 TOR [INFO] Removed tor data dir: ./tor_data_dir_754bf6e9-bfba-4563-ba5a-09ad17a612a7 2022-12-16 17:19:49 MAIN [INFO] Download terminated.

fighellboy commented 1 year ago

Mám naprosto totožný problém.... snad se brzy přijde na řešení.

fighellboy commented 1 year ago

image

Marikoscz commented 1 year ago

Taky totožný problém.

Snímek obrazovky 2022-12-16 195435

stinovlas commented 1 year ago

I had the same problem. I fixed it temporarily by disabling direct download. I'm not sure whether this is caused by incorrectly recognized direct download or some other problem. Anyway, this patch contains a minimal change that fixed the issue for the files I tried:

From 6f969cd03a0ea7270fd89b2b223643c247039114 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Jan=20Mus=C3=ADlek?= <stinovlas@gmail.com>
Date: Sat, 17 Dec 2022 13:58:55 +0100
Subject: [PATCH] Fix direct download

---
 uldlib/page.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/uldlib/page.py b/uldlib/page.py
index cc70bdf..f5f94ed 100644
--- a/uldlib/page.py
+++ b/uldlib/page.py
@@ -239,7 +239,7 @@ class Page:

                 resp = requests.Response()

-                if self.isDirectDownload:
+                if self.isDirectDownload and False:
                     solver.log(f"TOR get downlink (timeout {self.conn_timeout})")
                     resp = s.get(self.captchaURL,
                                  headers=XML_HEADERS, proxies=self.tor.proxies, timeout=self.conn_timeout)
-- 
2.35.1
Wlassko commented 1 year ago

How to apply that fix please? Thank you so much.

stinovlas commented 1 year ago

How to apply that fix please? Thank you so much.

  1. Clone this repository and enter the root dir.
  2. Copy the patch I posted above and store it as hotfix.patch.
  3. Run git am < hotfix.patch.
  4. Run 'pip install -e .' to install the patched version in editable mode (prefferably in venv, but that's optional).
Wlassko commented 1 year ago

Děkuji za odpověď, zkusím se zeptat jinak a česky - jak mám aplikovat patch? Myslím pod Windows 10 x64, instaloval jsem ulozto downloader dle návodu, mám tedy instalován Python 3.8.0 a instaloval jsem i GIT for Windows 2.39.0.windows.1 (nevím zda je ovšem pořeba, hádal jsem že ano) a dál nevím co - uložil jsem text toho patche viz příspěvek výše coby kopii textu jako hotfix.patch, ale nefunguje aplikace, jakmile spustím GIT a zadám příkaz "git am < hotfix.patch" tak to hodí error fatal: not a git repository (or any of the parent directories): .git a konec. Soubor hotfix.patch jsem dal do rootu GITu (Program Files\Git) a nejde aplikovat, taktéž ve složce AppData Pythonu \ uldlib nelze aplikovat. Pokud máte někdo nervy mi popsat jak to aplikovat pod Windows 10 popsané tak aby to pochopil i neprogramátor, děkuji předem.

PS: Neberte to prosím zle, jen nechápu proč se neopraví přímo ulozto-downloader aby při příkazu pip3 install --upgrade ulozto-downloader stáhl opravenou verzi a nemuselo se nikde nic složitě patchovat (pakliže by toto ovšem stačilo, opět opakuji - nejsem programátor, tak nevím zda je toto řešení).

stinovlas commented 1 year ago

Nejsem autorem, ani nemám oprávnění publikovat nové verze ulozto-downloaderu. Jsem jen příležitostný uživatel, který našel hotfix, který je ale spíš dočasný a určitě by v téhle podobě neměl zůstat (když už nic jiného, tak jsem jím vyrobil kus nepřístupného kódu, který by bylo čistší smazat). Věřím, že se k tomu @setnicka časem dostane.

Windows nemám a nemám ani praktické zkušenosti s tím, jak v nich funguje Python a git. Patch se dá aplikovat i na obyčejný adresář (ne git repozitář) pomocí příkazu patch, ale vzhledem k tomu, že mění jen jednu jedinou řádku, je možné tu změnu udělat i ručně:

  1. Najít a otevřít soubor uldlib/page.py (pod Windows asi uldlib\page.py).
  2. Najít v něm řádku if self.isDirectDownload: (měla by být pouze jedna)
  3. Nahradit ji za řádku if self.isDirectDownload and False: (tj. připsat před : řetězec and False).

Pozor na to, že jakákoliv takováhle změna je dočasná a ve chvíli, kdy dojde k instalaci nové verze uldlib (nebo i jen reinstalaci té stávající), bude přepsaná. Rozhodně ještě před úpravou doporučuju přesvědčit se, že je nainstalovaná poslední dostupná verze ulozto-downloader (aktuálně 3.2.0).

setnicka commented 1 year ago

Zkusím se k tomu dostat co nejdříve, ale projektů je spousta a času málo. Pořádný fix by snad neměl být příliš složitý, takže někdy během svátků se k tomu snad dostanu a (po vyřešení dalších issues, co se tu od poslední verze nashromáždily) vydám další verzi.

Wlassko commented 1 year ago

Děkuji, aplikoval jsem opravu editací page.py a funguje. Díky za rychlou reakci i za příslib aktualizace downloaderu 🙂

PS: Jen mi to po opravě nezobrazuje průběh stahování částí, jen souhrn dole, bez ohledu zda stahuji s nebo bez captha. Ale třeba to je chyba jen u mě. A jen mimochodem, když mi to hlásí že nemám cudart64_110.dll a tensorflow nemůže tudíž využít gpu, stačí někde stáhnou cudart64_110.dll a dát ho např. do Windows\System32 ? Díky i za toto, pokud ta gpu akcelerace tedy k něčemu je... (mám gpu nVidia).

setnicka commented 1 year ago

Vypadá to, že to fixuje i #136

Což potvrzuje to, že se stránka mylně detekuje jako podporující rychlý download bez CAPTCHA kódu, ale pak se tam CAPTCHA objeví.

setnicka commented 1 year ago

@Wlassko průběh stahování částí je teď defaultně skryt (od verze 3.2.0), pokud byl delší než terminálové okno, tak nebyl vidět celkový souhrn. Zobrazit se dá pomocí přepínače --parts-progress.