avpretty
avpretty
Рейтинг:
37.510 за неделю
Постов: 11
Комментов: 113
C нами с: 2014-11-16

Посты пользователя avpretty

reactor-crw v0.1.0

Добрейший вечерочек. Новая версия reactor-crw и в ней уже используется graphql API реактора. Тот самый, на который, с недавних пор, переехала мобильная версия сайта. Ссылка на API.
Выглядит это следующим образом:
На данный момент reactor-crw поддерживает два парсера, HTML и API. Оба доступны в виде подкоманд:
- ./reactor-crw html -p "http://joyreactor.cc/tag/Photo+art" - HTML версия
- ./reactor-crw api -t "Photo Art"  - API версия
Ограничения
Внимательный читатель заметил, что этап получения ссылок происходит дольше самого скачивания файлов. Хотя по идее мы ничего не парсим а сразу получаем нужный результат. Так происходит потому что у реактора довольно жесткие лимиты по запросам на API. Собственно, у меня получилось заблочить себя даже в плейграунде.
Таким образом, каждый новый запрос на API происходит с таймаутом в 2 секунды.
Что позволяет API парсер
На данный момент, только пакетное выкачивание тегов. По умолчания API отдает абсолютно все, что связано с тегом, поэтому, была добавлена поддержка заблокированных тегов и подписок пользователя. 
./reactor-crw api -t "Photo Art" -с "строка с куками"
Это уберет из результата все что у вас заблокировано. Но так же отфильтрует контент, на который нужно явно подписаться, что бы видеть. Куки нужно брать мобильной версии сайта.
Список всех флагов и их описание на странице github.
Изменения в версии 0.0.2
- Была добавлена поддержка socks5 и прокси (работает для HTML и API). Пример:
./reactor-crw api -t "tag name" --socks5 "socks5://127.0.0.1:9050"
- Значительно повысилась скорость обработки файлов. Теги, которые качались по 10-12 минут, сейчас тащатся за 2-3.
Скачать последнюю версию здесь. Если обнаружили ошибку или есть идея для нового функционала - создайте issue.
p.s. да, мы все знаем про Kelly.

reactor-crw v0.0.2

Для лучшего понимания контекста см. пост reactor-crw.
Вдохновившись отзывами, комментариями и замечаниями к первой версии краулера, я постарался исправить почти все упомянутые проблемы и выкатил новый релиз. Далее приведен список наиболее критичных исправлений:
- отслеживание уже скачанных файлов. Теперь при приостановке клиента (по любой причине), имеющиеся файлы не будут перекачиваться заново.
- поддержка парсинга результатов поиска на реакторе. В предыдущей версии нельзя было передать страницу формата http://joyreactor.cc/search?q=games&user=&tags=pc%2C.
-
пофикшен баг при котором нельзя было скачивать теги с одной страницей (без указания флага -o, --single-page).
-  добавлена поддержка 32-битных версий windows.
- обновил readme с более подробными примерами и FAQ.
Большое спасибо всем кто обратил внимание на баги и отписал в комментарии или даже создал issue на странице проекта, а так же всем, кто просто попробовал эту поделку. Если у вас есть идеи/пожелания/замечания - создайте issue.
p.s. ну и тег добавил, что бы его можно было заблочить.
Воспользовавшись избытком свободного времени и неисправимой привычкой лепить велосипеды, решил реализовать удобный, хотя бы для себя, способ выкачивания годноты с реактора. Плюс иметь возможность спасти то, что возможно уже завтра будет потерто копирастами или другими "обеспокоенными".
Я видел несколько схожих решений и они либо не уже поддерживаются, либо являются подключаемыми библиотеками. Какие-то generic решения я не искал (см. пункт про велосипеды).

Что это?

Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, которую вы укажите и сохранит все куда скажете. Если crawler найдет на странице пагинацию, то он попытается выкачать каждую страницу. Хотя вы можете указать так не делать.
Ссылка на проект на github.

Как начать?

Скачайте билд и запустите его из командной строки (для windows тоже). Windows может ругаться потому как это хрен пойми чей билд. Мак может ругаться потому что не может проверить поставщика. Линуксу насрать. Выполните .\reactor-crw_0.0.1_Windows_64bit.exe --help (либо ознакомьтесь с доступными флагами на странице github).
Пример запуска на windows:
,парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Краткий FAQ

В:Какие страницы можно передавать?
О:Любые. Передайте ссылку на тег и будет выкачан весь контент по нему. Или ссылку на закладки. Если передать ссылку на конкретный пост, не забудьте указать флаг -o (--single-page).
В:Почему некоторые изображения не скачались?
О:Если качаете NSFW, то не забудьте указать флагом свои куки (посмотреть куки можно в браузере).
В:Что делает флаг -w (--workers)?
О: Насколько шустро все отработает. Укажите слишком большое значение и реактор вас накажет. Для тега в ~4500 изображений я ставил 3.
В:Ничего не работает/не качает. Какая-то ошибка и все.
О:Текущая версия далека от идеала. Если поделитесь деталями ошибки - буду весьма признателен.
В:Можно ли человеческий UI для всего этого?
О:Можно. Если кто-то умеет в UI, то я только за.
Если остались вопросы, постараюсь ответить в комментариях.
,школа,stand-up,Джимми Карр,песочница
			
	а Г. < %	т ••	
		•	
н	г.	Г •/. м	• • • *•.
	«Я говорю: сын,	% это уже третья школа за год».	Ф 	- Hccora/rgrumb^e,школа,stand-up,Джимми Карр,песочница
«Может, работа учителя — не твоё?»,школа,stand-up,Джимми Карр,песочница

,Звездные Войны,Star Wars,фэндомы,косплей
,гиф анимация,гифки - ПРИКОЛЬНЫЕ gif анимашки,подруга,Трусы,песочница