Добрый день, благодарю за время и парсер!
1) Почему-то в венве не запускается.
Пришлось вручную поставить зависимости (docx, htmldocx, selenium, undetected_chromedriver) через pip, но выдает ошибку ниже. Окно Хрома запускается, но в нем не запускается нужная ссылка, просто открывается сам https://ranobelib.me и все, без ссылки на введенное ранее ранобэ. Python 3.12, Хром последний 119 версия.
2) если в скрипте вручную поменять строку BASE_URL = "https://ranobelib.me/" на полную нужную нам, к примеру: "BASE_URL = "https://ranobelib.me/mikkakan-no-koufuku", то начинает запускаться, видимо нужно поменять "приклейку" ранобэ к префиксу сайта, т.е. "https://ranobelib.me/" и (к примеру) "mikkakan-no-koufuku". Но после отработки создается пустой (без текста внутри) Word файл "Три дня счастья (Новелла).docx"
1)
Введите ссылку на ранобе в ranobelib.me для парсинга.
https://ranobelib.me/mikkakan-no-koufuku
Запущен браузер. (chromedriver)
Нужен только до получения списка глав, дальше закроется сам.
Не трогайте, не двигайте, не меняйте размеры, не сворачивайте. НИКАК НЕ ВЗАИМОДЕЙСТВУЙТЕ С ЭТИМ ОКНОМ!!
ПОКА ЭТО ОКНО САМО НЕ ЗАКРОЕТСЯ НЕ ПЕРЕКЛЮЧАЙТЕСЬ НА ДРУГИЕ ОКНА!!!!!!!
Открывается ссылка, введенная пользователем
https://ranobelib.me
Traceback (most recent call last):
File "D:\BOOKS\non-lib\ranobelibParser\main.py", line 172, in
start_parse(input_url)
File "D:\BOOKS\non-lib\ranobelibParser\main.py", line 149, in start_parse
main_title = browser.find_element(by=By.XPATH,
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 741, in find_element
return self.execute(Command.FIND_ELEMENT, {"using": by, "value": value})["value"]
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 347, in execute
self.error_handler.check_response(response)
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 229, in check_response
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[3]/div/div/div/div[2]/div[1]/div[1]/div[1]"}
(Session info: chrome=119.0.6045.160); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
GetHandleVerifier [0x004C72A3+45731]
(No symbol) [0x00452D51]
(No symbol) [0x0034880D]
(No symbol) [0x0037B940]
(No symbol) [0x0037BE0B]
(No symbol) [0x003AD1F2]
(No symbol) [0x00398024]
(No symbol) [0x003AB7A2]
(No symbol) [0x00397DD6]
(No symbol) [0x003731F6]
(No symbol) [0x0037439D]
GetHandleVerifier [0x007D0716+3229462]
GetHandleVerifier [0x008184C8+3523784]
GetHandleVerifier [0x0081214C+3498316]
GetHandleVerifier [0x00551680+611968]
(No symbol) [0x0045CCCC]
(No symbol) [0x00458DF8]
(No symbol) [0x00458F1D]
(No symbol) [0x0044B2C7]
BaseThreadInitThunk [0x7786FCC9+25]
RtlGetAppContainerNamedObjectPath [0x77DE7C6E+286]
RtlGetAppContainerNamedObjectPath [0x77DE7C3E+238]
Exception ignored in: <function Chrome.del at 0x0000018BB7EE0FE0>
Traceback (most recent call last):
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init.py", line 843, in del__
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init__.py", line 798, in quit
OSError: [WinError 6] The handle is invalid
Press any key to continue . . .
2) 16 / 16
Произошла ошибка, страница скорее всего заблочена из-за слишком частых запросов.
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Завершено!
Exception ignored in: <function Chrome.del at 0x000001748C7A0FE0>
Traceback (most recent call last):
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init.py", line 843, in del__
self.quit()
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init__.py", line 798, in quit
time.sleep(0.1)
OSError: [WinError 6] The handle is invalid
Press any key to continue . . .
Добрый день, благодарю за время и парсер! 1) Почему-то в венве не запускается. Пришлось вручную поставить зависимости (docx, htmldocx, selenium, undetected_chromedriver) через pip, но выдает ошибку ниже. Окно Хрома запускается, но в нем не запускается нужная ссылка, просто открывается сам https://ranobelib.me и все, без ссылки на введенное ранее ранобэ. Python 3.12, Хром последний 119 версия.
2) если в скрипте вручную поменять строку BASE_URL = "https://ranobelib.me/" на полную нужную нам, к примеру: "BASE_URL = "https://ranobelib.me/mikkakan-no-koufuku", то начинает запускаться, видимо нужно поменять "приклейку" ранобэ к префиксу сайта, т.е. "https://ranobelib.me/" и (к примеру) "mikkakan-no-koufuku". Но после отработки создается пустой (без текста внутри) Word файл "Три дня счастья (Новелла).docx"
1) Введите ссылку на ранобе в ranobelib.me для парсинга. https://ranobelib.me/mikkakan-no-koufuku Запущен браузер. (chromedriver) Нужен только до получения списка глав, дальше закроется сам. Не трогайте, не двигайте, не меняйте размеры, не сворачивайте. НИКАК НЕ ВЗАИМОДЕЙСТВУЙТЕ С ЭТИМ ОКНОМ!! ПОКА ЭТО ОКНО САМО НЕ ЗАКРОЕТСЯ НЕ ПЕРЕКЛЮЧАЙТЕСЬ НА ДРУГИЕ ОКНА!!!!!!! Открывается ссылка, введенная пользователем https://ranobelib.me Traceback (most recent call last): File "D:\BOOKS\non-lib\ranobelibParser\main.py", line 172, in
start_parse(input_url)
File "D:\BOOKS\non-lib\ranobelibParser\main.py", line 149, in start_parse
main_title = browser.find_element(by=By.XPATH,
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 741, in find_element
return self.execute(Command.FIND_ELEMENT, {"using": by, "value": value})["value"]
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 347, in execute
self.error_handler.check_response(response)
File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 229, in check_response
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[3]/div/div/div/div[2]/div[1]/div[1]/div[1]"}
(Session info: chrome=119.0.6045.160); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
GetHandleVerifier [0x004C72A3+45731]
(No symbol) [0x00452D51]
(No symbol) [0x0034880D]
(No symbol) [0x0037B940]
(No symbol) [0x0037BE0B]
(No symbol) [0x003AD1F2]
(No symbol) [0x00398024]
(No symbol) [0x003AB7A2]
(No symbol) [0x00397DD6]
(No symbol) [0x003731F6]
(No symbol) [0x0037439D]
GetHandleVerifier [0x007D0716+3229462]
GetHandleVerifier [0x008184C8+3523784]
GetHandleVerifier [0x0081214C+3498316]
GetHandleVerifier [0x00551680+611968]
(No symbol) [0x0045CCCC]
(No symbol) [0x00458DF8]
(No symbol) [0x00458F1D]
(No symbol) [0x0044B2C7]
BaseThreadInitThunk [0x7786FCC9+25]
RtlGetAppContainerNamedObjectPath [0x77DE7C6E+286]
RtlGetAppContainerNamedObjectPath [0x77DE7C3E+238]
Exception ignored in: <function Chrome.del at 0x0000018BB7EE0FE0> Traceback (most recent call last): File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init.py", line 843, in del__ File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init__.py", line 798, in quit OSError: [WinError 6] The handle is invalid Press any key to continue . . .
2) 16 / 16 Произошла ошибка, страница скорее всего заблочена из-за слишком частых запросов.
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд
Пробуем дождаться ответа страницы. ждем 10 секунд Завершено! Exception ignored in: <function Chrome.del at 0x000001748C7A0FE0> Traceback (most recent call last): File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init.py", line 843, in del__ self.quit() File "C:\Users\archie\AppData\Local\Programs\Python\Python312\Lib\site-packages\undetected_chromedriver__init__.py", line 798, in quit time.sleep(0.1) OSError: [WinError 6] The handle is invalid Press any key to continue . . .