Майкрософт представила мультимодальную большую языковую модель
Она называется Kosmos-1 и может воспринимать как текст, так и картинки и аудио. Подробности можно почитать в препринте: https://arxiv.org/pdf/2302.14045.pdf
А это примеры результатов работы:
Отличный комментарий!