1 Неплохо бы улучшить энергоблок распознавания картинок вне зависимости от разрешения, алгоритмов много и некоторые даже проходят в институте
А то это игра в рулетку, перебирать весь реактор на дубль никто не будет
Сумма md5 тоже может помочь
http://www.ab-log.ru/smart-house/video_camera_security/face-detection
http://startubuntu.ru/?p=27013

2 Для популярных тегов типа аниме должны быть отдельные формы подбора тегов с фильтрацией, будет меньше ошибок

3 Не помешает интеграция с поиском картинок, встроить это в сайт реактора элементарно, что сильно упростит коллизии

4 Чтоб выдрать ID ролика из поста есть regex , тогда можно будет дубли отсекать без привязки к способу встраивания, можно сделать проверку вероятностной, так как regex может ошибаться