Про БЯМ и творческие способности
С появлением БЯМов, начались разговоры о том, что дескать люди творческих профессий скоро отправят на мороз: писатели, художники, программисты, вставьте_свое. У меня почему-то каждый раз с этих разговоров подгорает. Наверное, потому что я сам программист. Что-то меня занесло порыться в литературе на счет творчества и креативности, чтобы понять, когда мне покупать тужурку, чтоб не замерзнуть. В этой статье соберу все свои посты из своего канала в телеге: обзор статей на тему творчества с БЯМ, как творческий процесс устроен у людей и немного про ТРИЗ.
Обзор статей
Начнем со статьи, в которой авторы используют такой метод: участнику дается предмет, а он должен за определенное время придумать как можно больше способов использовать его нестандартно. По-английски он называется Alternative Uses Test. Участниками были сто человек и 5 БЯМов. Оригинальность результатов оценивали 6 человек и специально обученные модели. Предметами были: штаны, мяч, покрышка, вилка, зуб (pants, ball, tire, fork, tooth). Результаты показали, что по средним оценкам людские ответы где-то хуже, где-то лучше, где-то вровень с моделями. В итоге, авторы заключают, что БЯМы хороши в качестве творческого ассистента, но до полной замены им еще далеко. Как минимум потому что они не креативят сами по себе, а лишь отвечают на затравку. Их главная сила в объеме знаний. В отличие от человека, они ничего не забывают и всегда могут достать из себя всё, что знают. Поскольку креативный процесс — это поиск скрытых взаимосвязей, то доступ к большой базе знаний — ключ к успеху.
В другой статье авторы в качестве базового метода используют тест Торренса, один из известных методов оценки креативности. Методика авторов такая: возьмем семь заданий из теста, размножим из с помощью GPT4 так, чтобы у каждого задания получилось 100 вопросов, проверим эти вопросы человеками, и будем предлагать эти вопросы разными БЯМам. Оценивать будем по четырем критериям: беглость (fluency), гибкость (flexibility), оригинальность (originality), разработанность (elaboration). Эта сетка была предложена Гилфордом, другим видным исследователем креативности. Подробнее про нее, про сам тест будет в следующем параграфе.
Оценку, естественно, тоже будет делать GPT4, но человеками авторы тоже проверили. Какая БЯМ лучше, можете посмотреть в Таблице 1, не особо важно. Интересно, что результаты зависят от затравки — детальные инструкции показали себя лучше во многих замерах. Роль, которую вы задаете БЯМ, тоже очень важна: роль ученого пробивает потолок метрики, а роль первоклашки едва отрывается от пола. Авторы также показали, что совместная работа БЯМов также улучшает оценки. Наконец, они посмотрели на корреляцию набора персоналий из Большой пятерки плюс эмоционального интеллекта, эмпатии и самоэффективности (self-efficacy) с оценками креативности. Авторы сослались на метаанлиз, в котором показано, что этот набор коррелирует с креативностью у людей. Для БЯМов же умеренно коррелируют 7 из 8 персоналий.
Вы знаете секретного агента МакГайвера? Тогда вы сразу поймете, на что похож датасет из этой статьи. Для тех, кто родом уже из века текущего: датасет состоит из задач, которые решаются просто будь у вас инструмент, но у вас только мультитул и изолента. Вот пример: у вас есть банка с одной печенькой на дне, которую вы очень хотите съесть. Рука ваша не пролезает, перевернуть банку нельзя. Под рукой у вас щипцы, китайские палочки и клейкая лента. Вы, конечно, попробуете использовать щипцы, но вот засада — они не достают. Что же вы будете делать? В общем, суть вы уловили.
Авторы создали набор таких задач следующим образом: брали проблему, которая решается очевидно (достать печеньку щипцами), добавить ограничения, чтобы очевидность пропала (укоротим щипцы) и добавим лишние объекты (любые, в примере выше я их не показал). Не понял, где они взяли исходный набор задач, но усложняли они с помощью — барабанная дробь — GPT4. А затем проверяли человеками на то, что задачи можно в принципе решить. Конечно, они позаботились о разнообразии задач. Золотые решения они также генерировали с помощью GPT-4 и считали их таковыми, если все три разметчика согласятся, что решение правильное. По результатам замеров на датасете, люди все еще лучше, но GPT4 наступает на пятки. Как побочка, авторы нашли, что люди лучше в «ежедневной» креативности, но плохи в доменной. Это известный факт, его также обсуждали авторы первой статьи из этого обзора. Проблемы БЯМов, которые сто раз уже проговорены: галлюцинации и отрыв от реальности. Чтобы снизить влияние этих проблем, авторы предложили две стратегии для затравок. В двух словах, в первой модель должна сама проверить решение на адекватность, а во второй сначала нагенерить множество идей, а затем выбрать из них наиболее адекватные. Первый этап относится к дивергентному мышлению, а второй — к конвергентному.
Тест Торренса
Оказывается, в Вики нормально описали то, на чем стоит тест Торренса, а также что он измеряет. Именно эти критерии используются во второй статье из обзора. Опишу здесь, что входит в этот тест из книжки Е. Е. Туник «Лучшие тесты на креативность». Там и критерии оценки, и методика проведения, всё, всё, всё.
Оригинальный тест состоит из 7 задач вербальной части и 3 задачи образной. Вот вербальные задачи:
- «Вопросы» — дана картинка, нужно придумать вопросы по ней.
- «Причины» — дана картинка, нужно придумать причины, которые вызвали событие на картинке
- «Следствие» — то же самое, что «Причины», но только придумать следствия из-за происходящего.
- «Улучшение предмета» — как улучшить игрушечного слона.
- «Необычное использование» — придумать как можно использовать картонные коробки.
- «Необычные вопросы» — придумать вопросы о картонных коробках.
- «Невероятные ситуации» — придумать последствия невероятной ситуации (животные умели бы говорить, например).
Первые три задания оценивают «научную» креативность: все ученые задаются вопросами, ищут причины и просчитывают следствия. Четвертый вопрос описывается туманно: содержит много информации из-за сложности задачи. В пятом и шестом вопросах коробки выбраны из-за их «простоты»: нужно постараться, чтобы придумать для них другую роль, и тем более, чтобы долго придумывать про них вопросы. В седьмом вопросе упор идёт на фантазию: вы сначала должны вообразить эту ситуацию, а потом вообразить последствия, а потом вообразить последствия последствий и так далее. Пишут, что для некоторых людей это может быть не то что трудно, а раздражительно.
Теперь образные, для которых описания не нашлось:
- «Создание рисунка» — дана цветная фигура, нужно сделать на ее основе рисунок.
- «Незаконченные фигуры» — дано несколько одинаковых незаконченных фигур, нужно сделать из них оригинальные рисунки.
- «Повторяющиеся линии» — сделать как можно больше рисунков из параллельных линий.
Авторы второй статьи, где тоже речь идет про тест Торренса, использовали не совсем его. Его измени так, чтобы в вербальных задачах все условия тоже были вербальные, то есть без картинок. Если говорить про отличающиеся от перечисленного набора задачи, то в одной надо было придумать как необычно использовать повседневные вещи. Чем-то оно напоминает вторую задачу из образной части и ровно эта же задача использовалась в первой статье обзора. Другая задача придумать историю, исходя из затравки. Да-да, как БЯМ. Мне понравился пример авторов «Невидимый слон».
Теперь давайте поиграем немного в «Незаконченные фигуры». Есть одна книга, на обложке которой как раз показано, как выполняется второе задание образной части. Вот вам фигура на картинке ниже, попробуйте ее закончить/увидеть в ней разные вещи. Если вы сейчас в дороге, то можете просто про себя их называть, рисовать не обязательно. Проскрольте вниз, что увидеть возможные варианты с обложки книги.

@
@
@
@
@
@
@
@
@
@
@

Как устроен творческий процесс у людей
Вы заметили, что исследователи часто проверяют БЯМ так, как они проверяли бы людей. Это в целом естественно, ведь БЯМ позиционируется как интеллектуальная вещь. Вот только в БЯМ запихнули весь интернет, что может сильно искажать результаты, ведь у человека таких знаний нет. Эту разницу необходимо как-то выравнивать, чтобы получить более объективные оценки. Для этого предлагаю вообще посмотреть, как устроен творческий процесс у людей. Кстати, может так мы сможем лучше использовать потенциал БЯМ, как ассистентов.
В книжке «Психофизиология» М. В. Вихи и В. М. Кроль есть целая глава о творчестве. Весь процесс умещается в несколько этапов. Сперва вы пытаетесь решить задачу очевидными вариантами. Не получается. Вы гуглите смежные решения. Снова обдумываете. Не получается. (Накопление информации и попытки решить проблема). В конце концов, раздраженные и уставшие, с обостренным синдромом самозванца, вы задвигаете проблему и занимаетесь чем-то другим, чтобы успокоить своё эго (забывание проблемы). Время идёт, вы не занимаетесь задачей активно. Может, занимаетесь вообще чем-то другим пару дней (созревание решения в подсознании). И вот вы стоите в душе, ловите приятности от теплой воды и вдруг в голове появляется долгожданное решение (Озарение). Вы выпрыгиваете из душа, наспех вытираетесь и бегите его воплощать с криками «эврика» (Проверка решения). Другой вариант: вы посмотрели на предмет или произошло событие, что спровоцировало «открытие». Знакомо?
Кстати, давным-давно, когда я работал в инфбезе, я разбирал файлы на байты. Мой рабочий экран был простынёй из шестнадцатеричных чисел. И вот еду я домой, задремал, а как проснулся, понял, что во сне продолжал перебирать эти байты. Правда, в отличие от Менделеева, гениального решения мне не пришло.
Интересно получается, что первая мучительная стадия проб и ошибок раскачивает подсознательный маятник, «запуская» поиск решения в фоне. Да и «решение во сне», кажется, не просто фигура речи.
В книжке ещё описывают механизм творческого мышления. Его проще описать на примере ситуации с недоступной печенькой в вазе и предметами вокруг. Напомню, что это были столовые щипцы, китайские палочки, клей, изолента и другие, «отвлекающие» вещи. Переведем всё в абстракцию. Предметы станут объектами с набором свойств и связями между собой. Вы смотрите на щипцы и понимаете, что между ними и печенькой есть связь «захватить», при помощи которой и можно достать ее. Вы пробуете и открываете связь новую связь между щипцами и печенькой «не достает». Вам нужно устранить эту связь. Вы пытаетесь то же самое сделать китайскими палочками, но у них открывается такая же связь. Вы понимаете, что щипцы можно «удлинить» палочками, но как их «соединить»? Допустим, вы пытаетесь использовать клей, но у вас не получается «присоединить» палочки к щипцам «надежно». Тогда вы используете изоленту (синюю) и «надежно соединяете» щипцы и палочки. Наконец, после нескольких попыток достаёте вашу печеньку.
Получается, что для творчества нам нужно знать сами объекты, с которыми мы работаем, а также уметь генерировать всевозможные варианты связей между ними. Если в нашей задаче вынести за скобки другие предметы, лежащие на столе, то вариантов решить задачу не особо много. А вот, например, в инженерных задачах вариантов между объектами может быть неисчислимое количество. Известна байка про Эдисона, который сделал 1000 вариантов лампочки, прежде чем получить рабочую версию. Не то, чтобы неисчислимое, но кто из нас хоть в чем-нибудь сделает хотя бы 20 вариантов? На бумаге «уметь генерировать всевозможные варианты» выглядит просто, но человеку бывает нелегко увидеть связь между привычными вещами, которая решает поставленную проблему. Тем более, когда речь идет про абстрактные и/или профессиональные задачи. Если взять нашу NLPшную стезю, то поставьте себя на место господина Миколова или Девлина и попробуйте представить насколько неочевидными были word2vec и BERT. Сами авторы, кстати, определяют творчество как способность к установлению новых связей между отдельными, внешне независимыми, разнородными, разноплановыми данными или объектами.
А теперь, давайте проведем небольшой эксперимент.Вот вам простая задача на творческое мышление. Попробуйте ее решить, замерив время. Задача: необходимо, не отрывая руки, перечеркнуть все точки тремя линиями так, чтобы вернуться туда, откуда начали.

Ответ к задаче — скрольте ниже.
@
@
@
@
@
@
@
@
@
@
@

Опрос в моем канале либо проходили суперкреативщики (что не удивительно, ведь мои подписчики это потенциально те, кто решает сложные нетривиальные задачи), либо те, кто знал эту задачу, либо сама задача на самом деле не так уж и сложна, как полагали авторы. С другой стороны, не мало тех, кто не стал решать: прочитали, посмотрели и не стали тратить время на размышления, потому что были заняты чем-то другим, либо просто лень. Изюменка в том, что если бы они увидели картинку ниже, то они решили бы задачу моментально. Вряд ли бы вообще у взрослого человека потребовалось больше секунды, чтобы найти решение. Идея задачи — продемонстрировать особенность нашего восприятия условий. Мы часто ограничиваем себя рамками, которых на самом деле нет. Так и в задаче основная сложность — выйти за рамки квадрата, образованного точками.

Эвристики и системы
А что делать-то, чтобы не перебирать 1000 вариантов как Эдисон? Можно как-то побыстрее? Такими вопросами занимается эвристика. Вы сто процентов слышали это слово. Им обычно называют решения или правила, которые не всегда срабатывают точно, зато они простые. Этим же словом называют способы, которые как раз помогают уменьшить число вариантов. Но они могут завести не в ту сторону, такая побочка.
Эвристики, которые знакомы MLщикам:
- add more data — самый просто способ улучшить модель, не нужно даже голову ломать.
- stack more XGBoost — лет шесть-семь назад это был проверенный способ выиграть соревнование на Kaggle.
- add more parameters — это в контексте БЯМ, чем она больше, тем лучше решает задачи.
Не могу назвать это чистой эвристикой, но среди всяких проблем ML я как-то заметил: задачи, где есть скрытая переменная, решаются через EM-алгоритм. Поэтому если задачу можно свести к задаче со скрытой переменной, то какое-то решение вы получите. Наверное, буду капитально Очевидность, если скажу, что метод «давайте сведем вот эту неизвестную штуку к тому, что мы знаем, как решать» довольно часто встречается в литературе. У математиков такое часто встречаю: прежде, чем решать задачу с каким-то неизвестными вводными или ограничениями, давайте решим ее так, будто нам все известно и никаких ограничений нет, а потом уже посмотрим, что и как будет меняться, если мы что-то уберем.
Единичные эвристики это хорошо, мало и не для всех задач. Некоторые люди пытались сделать целые эвристические системы, чтобы решить вопрос под корень. Теория решения изобретательских задач или ТРИЗ — одна из них. Репутация у нее не очень, судя по постам на том же Хабре. И как я понимаю, в основном из-за апологетов, которые пытаются сделать из ТРИЗ больше, чем она есть, при этом втюхивая свои курсы за деньги. Кроме того, резонная мысль, что если бы это было бы эффективно, то было бы везде, чего мы не наблюдаем, тоже заставляет усомниться в актуальности. Я решил почитать первоисточник, потому что среди материалов так и не удалось найти пример, как эту теорию применяют.
Создателя теории зовут Генрих Альтшуллер, советский изобретатель и писатель-фантаст (есть в этом какая-то ирония). Он проанализировал огромное количество патентов, точнее их серии для одного изделия, и смог выявить некоторые закономерности в развитии техники. И довольно убедительно их описал.
Ключевым понятием ТРИЗ является противоречие — состояние, когда мы, улучшая одну сторону устройства, неизбежно ухудшаем другую. Задача изобретателя — убрать это противоречие. Развитие любой технической штуки — это история разрешения противоречий. В качестве примера Альтшулер приводит историю велосипеда. Фрагмент слишком большой, чтобы вместить его полностью, но вот часть. В какой-то момент времени люди стали увеличивать диаметр колеса, чтобы увеличить скорость велосипеда. Проблема в том, что колеса делались из дерева, которое не выдерживало высокую скорость. Нужно было заменить его на более прочный, но в то же время легкий материал. Этим материалом стал металл. Вы спросите «как это легкий?». А я скажу «а много надо металла-то по сравнению с деревом, чтобы равной прочности добиться?».
Еще Альтшуллер сделал вывод, что концептуально противоречий немного, как и способов их решений. В итоге он свел процесс изобретения к эвристическому алгоритму, который должен, по задумке автора, эффективно направлять изобретателя. Он состоит из нескольких стадий: анализ, оперативная стадия и синтез.
Первый этап служит для определения, что/где мы должны менять. Этот этап задает направление работы. Его шаги:
- Четко поставить задачу.
- Представить себе идеальный конечный результат.
- Определить, что мешает достижению этого результата (то есть найти противоречие).
- Определить, почему мешает (найти причину противоречия).
- Определить, при каких условиях не мешало бы (то есть найти условия, при которых противоречие снимается).
Далее идет оперативный этап. Это, собственно говоря, и есть систематический перебор вариантов решения.
Первый шаг. Проверка возможных изменений в самом объекте (т. е. в датой машине, данном технологическом процессе).
- Изменение размеров.
- Изменение формы.
- Изменение материала.
- Изменение температуры.
- Изменение давления.
- Изменение скорости.
- Изменение окраски.
- Изменение взаимного расположения частей.
- Изменение режима работы частей с целью максимальной их нагрузки.
Второй шаг. Проверка возможности разделения объекта на независимые части.
- Выделение «слабой» части.
- Выделение «необходимой и достаточной» части.
- Разделение объекта на одинаковые части.
- Разделение объекта на разные по функции части.
Третий шаг. Проверка возможных изменений во внешней (для данного объекта) среде.
- Изменение параметров среды.
- Замена среды.
- Разделение среды на несколько частичных сред.
- Использование внешней среды для выполнения полезных функций.
Четвертый шаг. Проверка возможных изменений в соседних (т. е. работающих совместно с данным) объектах.
- Установление взаимосвязи между ранее независимыми объектами, участвующими в выполнении одной работы.
- Устранение одного объекта за счет передачи его функций другому объекту.
- Увеличение числа объектов, одновременно действующих на ограниченной площади, за счет использования свободной обратной стороны этой площади.
Пятый шаг. Исследование прообразов из других отраслей техники (поставить вопрос: как данное противоречие устраняется в других отраслях техники?).
Шестой шаг. Исследование прообразов в природе (поставить вопрос: как данное противоречие устраняется в природе?).
Седьмой шаг. Возвращение (в случае непригодности всех рассмотренных приемов) к исходной задаче и расширение ее условий, т. е. переход к другой, более общей задаче.
Конкретный пример вы можете найти в книге «Как научиться изобретать», начиная со страницы 43. Пдфка книги легко гуглится. На страница 65 показан прям полный протокол на все два этапа. Этап синтеза, о котором Альтшуллер больше не говорит, заключается в том, чтобы другие части машины или процесса привести в соответствие с новой частью.
Звучит всё слишком замечательно, почему же это не применяется везде? ТРИЗ разрабатывался под технические задачи. Это уже потом Альтшуллер пытался обобщить теорию на всё и, видимо, не очень получилось. В той книжке 1962 года, что я читал, она называется еще не теорией, а методикой. И, кажется, это более правильный вариант. Да и не понятно вообще, насколько успешно она применялась даже в технике — данных нет. Кто-то называет ТРИЗ набором очевидностей, которые доступны всякому, кто пытался такие задачи решать.
По мне, если не ожидать от ТРИЗ способ решения всех проблем, то это вполне хороший инструмент генерации идей. Ее точно можно дать новичкам в профессии, которые еще не успели сами эвристики набрать. Еще ее можно поместить в одну корзину с мозговым штурмом. Мне лично нравится, что за набором этих идей стоит аналитическая работа, которую занятно читать.
Если интересно узнать больше, то вот ресурсы: раз, два, три. Ну и книги Альтшуллера, само собой.
БЯМ и научные открытия
Возвращаемся к БЯМ. Оказывается, они отлично подходят на роль генераторов эвристик. Человеку нужно только верифицировать результат. Пока что это остаётся за людьми, потому что галлюцинации никто не отменял. Но если задача позволяет, то можно и проверку автоматизировать.
В конце прошлого (2023) года статья из Nature наделала шуму: БЯМ сделала научное открытие. Игорь Котенков сделал обзор этой статьи на Хабре/. В двух словах, БЯМ нашла эвристику, которая решает задачу упаковки лучше, чем любое другое известное решение. Сама задача звучит так. Вам приходят «коробки» разных размеров, которые вам нужно поместить в «контейнер». Вы можете эту коробку либо положить в текущий контейнер, либо положить в новый. Сколько придет коробок, вы не знаете. Успех задачи — использовать как можно меньше контейнеров. Почему это сложно и где это полезно, можете посмотреть в обзоре Игоря.
Задача прекрасна тем, что ее решение и проверку можно закодить. Перед БЯМ ставилась задача написать решение (эвристику) так, чтобы оно работало лучше, чем предыдущее. Начальное решение также было написано БЯМ. Изюминка статьи — эволюционный механизм, который не позволяет БЯМ заходить в тупик — генерить одинаковые решения. Чем эта статья интересна в контексте творческого процесса?
Во-первых, при условии, что результат задачи можно точно проверить, например, в виде результата работы программы, то мы получаем полностью автоматизированный творческий процесс. Это чем-то напоминает экспертные системы. В их основе лежат математические правила и формально описанные факты. Ripple Down Rules как примеры таких штук. Применяя первое ко второму, можно было теоретически получить новые знания. Подход с БЯМ выглядит как «экспертная системы 2.0», где формальные правила заменили на более гибкий синтез эвристик, вручную прописанные факты заменили миллиардами весов, в которых эти факты зашиты, а проверка выполняется программой. Правда, подходящих задач вряд ли много наберется, но факт того, что «так можно», завораживает.
Во-вторых, интересно, что БЯМ нужен внешний механизм, чтобы выйти из тупика идей, которые она, имея такие знания, вполне может генерить сходу и бесконечно. С одной стороны, это чем-то роднит ее с человеком, ведь мы тоже заходим в тупик идей, а внешние алгоритмы, как условный ТРИЗ или мозговой штурм, могут нам помочь из него выйти. С другой стороны, в общем случае эти алгоритмы людям не нужны, у нас внутри есть решатель, если верить модели из той книги по психофизиологии. До изобретения этих алгоритмов с творчеством у людей тоже было все в порядке. Кроме того, от машинного творческого процесса мы бы не хотели таких тупиков — калькуляторы не тормозят, когда считают десяти- или двадцатизначные числа. Поэтому говорить о замене человека пока рановато. Посмотрим, на что способно новое детище OpenAI.
Кстати, мы вот поговорили про устройство творчества у людей, но мы пока ничего не знаем о том, как устроен творческий процесс у БЯМ. Может быть они просто уже видели решение в тренировочных данных? А если нет, то как тогда? Какая-то мега версия эмбеддинговой алгебры, как у word2vec? А может в творчестве действительно есть какие-то законы, как Альтшуллер предполагал? Есть ли что-то общее между творческими процессами людей и БЯМ? Можете еще пяток вопросов накидать.
Пока вот что точно можно сказать. В творчестве БЯМ могут дать новый взгляд на задачу, ослабив проблему людей с доступностью знаний, точнее вспомнить то, что нужно в нужный момент. Даже, когда вы отметаете то, что БЯМ вам нагенерила, вы уменьшаете пространство поиска. Или, может, пока вы анализируете гипотезу БЯМ, поймете, что конкретно эта идея фигня, но вообще направление-то интересное. С другой стороны, вы можете выдергивать БЯМ из тупика, заранее показывая, куда копать не надо. Вот и получаются такие качели: вы спросили варианты у БЯМ, проверили, сами подумали, не получилось, снова спросили у БЯМ с учетом опыты, снова проверили, снова сами подумали и так далее. По факту и получается не замена, а ассистент.