Наш подход к общему искусственному интеллекту

Этот обзор содержит набор идей, сформированных OCCAM за последние годы. Они касаются непосредственно создания общего искусственного интеллекта (AGI — Artificial General Intelligence). Хотя мы пришли ко всему самостоятельно, большинство из наших методов (если не все) не новы и встречаются в тематической литературе.

Хотелось бы сделать акцент на слове “общий”. К сожалению, после первых неудачных попыток исследования в сфере искусственного интеллекта (ИИ) многие научные группы сосредоточились на решении узкоспециализированных проблем и задач. Они получили название “узкий ИИ” (Курцвейл, 2005 г.): игра в шахматы, Jeopardy и нарды на мировом уровне; беспилотные автомобили; говорящие персональные помощники и мириады других коммерческих применений. Хотя все это — впечатляющие достижения, и полезность подобных устройств не вызывает сомнений, к созданию системы с признаками общего интеллекта мы практически не приблизились.

Сведя воедино множество определений, данных в литературе, Легг с соавторами (2007 г.) вывел определение интеллекта, согласующееся с большинством других вариантов:

“Интеллект оценивает способность агента добиваться своих целей в широком спектре сред.”

Это именно то, чего не достигает узкий ИИ, запрограммированный только для конкретного, четко выраженного набора условий, и именно любое отклонение от этого ограниченного набора чаще всего приводит к сбою системы.

А вот люди способны решать всевозможные задачи в самых разнообразных условиях. Более того, результаты нейробиологических исследований показывают, что мозг может обрабатывать данные кросс-модально, т.е. преобразовывая визуальные данные в слуховые или тактильные стимулы в устройствах сенсорного замещения. Также известно, что у новорожденных хорьков нейроны в слуховой зоне коры головного мозга принимают характеристики зрительных клеток, если получают стимулы из зрительного пути (Сур с соавторами, 1988 г.). Такие наблюдения указывают на гипотезу о том, что человеческий мозг является универсальным процессором многообразно структурированных данных.

Эта идея, конечно же, не нова. Она существует, по меньшей мере, со времен универсального решателя задач, созданного Саймоном и Ньюэллом в 1957 году. Хотя проблема еще далека от практического решения, Хуттер (2005 г.) разработал математическую формулировку и теоретическое решение универсальной проблемы AGI под названием AIXI. Хотя AIXI невычислимая, из этой формулировки и общего направления исследований можно почерпнуть много полезного. Базовая идея заключается в следующем. Агент AGI получает входные данные от своих сенсоров и выбирает действие на каждом временном этапе, пытаясь максимизировать награду. Все данные могут быть выражены в виде двоичной последовательности. Для того чтобы действовать успешно, последовательности необходимо прогнозировать, что достигается с помощью универсальной теории индукции Соломонова. Соломонов получил оптимальный способ прогнозирования будущих данных на основе предшествующих наблюдений при условии, что данные выбраны из вычислимого распределения вероятностей. Коротко говоря, Хуттер определяет AIXI, применяя уравнение Беллмана для обучения с подкреплением к прогнозированию последовательностей Соломонова.

Соломонов (1964); Соломонов (1978) дал определение своему знаменитому универсальному априорному распределению, которое назначает априорную вероятность (или, точнее, полумеру) каждой последовательности,

\( M(x)\equiv\sum_{p:U(p)=x}2^{-\text{|}p|}\)

где суммируются все останавливающиеся программы \(p\) длиной \(|p|\) для которых универсальная префиксная машина Тьюринга \(U\) выдает последовательность \(x\). Универсальное априорное распределение имеет признаки смещения Оккама: основная вероятностная мера по большей части определена короткими объяснениями (программами) для наблюдения \(x\). Впечатляет, что Соломонов доказал, что это распределение корректно прогнозирует любую вычислимую последовательность: \(M(x_{t}|x_{1},\ldots,x_{t-1})\rightarrow1\) как \(t\rightarrow\infty\), где \(x_{i}\) описывает \(i\)-й элемент последовательности. По сути это означает, что, если нам удастся найти короткие программы для произвольных последовательностей, то проблема универсального вывода доказуемо разрешима. На интуитивном уровне суть данного научного метода заключается в поиске простых (коротких) объяснений явлений. Некоторые считают этот метод рассуждений слишком формальным и абстрактным, но люди (даже младенцы) используют его в более простых, повседневных ситуациях (Гопник с соавторами, 1999 г.). Если понимание мира подразумевает сжатие сенсорных данных, то нам необходима универсальная система сжатия данных.

К сожалению, индукция Соломонова невычислимая. Как следствие, Хуттер с коллегами разработал аппроксимацию AIXI, например, аппроксимацию методом Монте-Карло, в которой используются деревья суффиксов, позволяющие прогнозировать двоичные цепи Маркова различного порядка (Венесс с соавторами, 2011 г.). Это впечатляющее достижение ведет к тому, что отдельная система может играть в различные игры (“Pac-Man”, покер Куна, крестики-нолики, оценочная игра “камень-ножницы-бумага”, “1D-Maze”, “Cheese Maze”, “Тигр” и расширенная версия “Тигра”) без целенаправленного программирования под них, что является ощутимым шагом вперед на пути к универсальности ИИ. Несмотря на это, существуют сомнения, что эту аппроксимацию можно расширить за пределы цепей Маркова, поскольку это подразумевает столкновение с известной вычислительной проблемой: “проклятием размерности”. Вернемся к этому вопросу позже.

Может показаться неочевидным, что сжатие данных в совокупности с обучением с подкреплением может привести к решению столь разнообразных и нетривиальных задач. Традиционно предполагается, что для решения подобных задач должны быть задействованы различные когнитивные процессы. Хуттер показывает, каким образом сжатие данных косвенно включает в себя такие процессы. Можно возразить, что простой глубокий поиск внутри шахматной программы тоже замещает собой всевозможные мыслительные процессы, которые по всей видимости протекают в мозгу человека-шахматиста. Тем не менее, AIXI — это не упрощенное, узконаправленное ИИ-решение, а доказуемый, по-настоящему универсальный метод. Это убедило нас, что универсальное сжатие данных — именно тот путь, который мы должны избрать для получения общего интеллекта.

Подход к универсальному сжатию данных

Простые, но общие представления

Учитывая форму универсального априорного распределения, можно рассмотреть вариант универсального поиска. Например, поиск по Левину. В этом случае алгоритм пишет все возможные программы, начиная с самой короткой,

до тех пор, пока одна из них не сгенерирует требуемую последовательность. Хотя этот метод является универсальным, не удивительно, что он требует больших вычислительных затрат и редко применяется на практике.

На другом конце спектра находятся неуниверсальные, но применимые с вычислительной точки зрения подходы: общие алгоритмы ИИ и методики машинного обучения. Почему же их нельзя обобщить? Проблема в том, что все эти методики в какой-то момент сталкиваются с так называемым “проклятием размерности”. Рассматривая (алгоритмическую) сложность и разнообразие задач, решаемых типичными современными алгоритмами, мы замечаем, что большинство из них (если не все) очень специфичны и многие способны решать довольно сложные задачи. Алгоритмы из сферы сжатия данных — не исключение. Например, прославленный алгоритм сжатия Лемпеля-Зива (см. например, Ковера с соавторами, 2012 г.) справляется со стационарными последовательностями, но неспособен эффективно сжать простую нестационарную последовательность. Алгоритмы ИИ, несомненно, демонстрируют определенные признаки интеллекта, но при сравнении с людьми становится очевидным разительное отличие: задачи, решаемые людьми, гораздо менее сложные, хотя и очень разнообразные. Действительно, людям очень сложно выполнить глубокий поиск, чтобы просчитать наперед 10 шахматных ходов, или определить вероятности переходов в стохастическом Марковском процессе переменного порядка, хотя человек и способен решить обе эти задачи. Например, для решения последней из них можно выполнить предложенную Хуттером аппроксимацию AIXI методом Монте-Карло. Хотя Хуттер обнаружил универсальное, но невычислимое решение проблемы AGI, в аппроксимации методом Монте-Карло он, опять-таки, использует метод, подобный узкому ИИ. Другие же пытаются заполнить пространство задачи, “склеивая” различные узкоспециализированные алгоритмы в надежде на то, что они синергетически устранят комбинаторные взрывы друг друга (Гёртцель, 2009 г.).

Мы считаем, что нам не нужно побеждать немилосердное проклятие размерности, которое постоянно преследует нас в задачах высокой сложности. Вместо этого мы предлагаем сосредоточиться на общих алгоритмах и на уровнях малой сложности и заполнять стакан задачи снизу вверх.

Учитывая, что мы поставили перед собой задачу сжатия общих, но простых наборов данных, возникает вопрос: “Каким будет алгоритм решения этой задачи: сложным или тоже простым?”. С точки зрения “узкого ИИ”, программист должен исчерпывающе предвидеть все ситуации с данными, которые вероятно будет обрабатывать его алгоритм, иначе возникнут ошибки во время выполнения. Такой подход, естественно, ведет к созданию очень сложных и по-прежнему не общих алгоритмов. Тем не менее, как уже упоминалось ранее, отличительный признак общих алгоритмов заключается именно в том, что сам алгоритм должен уметь справляться со всем разнообразием ситуаций с данными. Означает ли это, что общий алгоритм ИИ сам по себе может быть в действительности достаточно простым?

В этом направлении указывает биологический аргумент (Берглас, 2008 г.). Человеческий интеллект, в конечном итоге, должен быть закодирован в ДНК. ДНК человека состоит всего из 3 миллиардов пар оснований. Поскольку существуют четыре основания (A, C, T и G), одному основанию соответствует объем информации в 2 бита. Таким образом, объем информации, закодированной в ДНК, составляет всего лишь \(3\cdot10^{9}\cdot2/8/1024^{2}=715\) мегабайт. Она поместится на один компакт-диск и занимает гораздо меньше места, чем массивные компоненты таких неинтеллектуальных программных средств как Microsoft Vista, Office или базы данных Oracle.

“Более того”, — пишет Берглас, — “фактический генный код содержится лишь примерно в 1,5% ДНК [хотя в настоящий момент ведутся споры о том, является ли остальная часть просто избыточным повторяющимся ‘мусором’]. В гене, формирующем фрагменты ДНК, к интеллекту имеет какое-то отношение лишь его малая часть (скажем, 10%). Различие между ДНК шимпанзе и человека составляет всего лишь около 1% областей генного кода и 5%, не имеющих отношения к генам. Бóльшую часть этих отличий можно отнести к сферам, не связанным с интеллектом, например, быстрому изменению иммунной системы и очень слабому обонянию человека. Таким образом, различие между ‘программным обеспечением’ людей и шимпанзе может составлять всего лишь \(715\cdot10\%\cdot1.5\%\cdot1\%=11\) килобайт реальных данных”. Разумеется, мы имеем дело с очень компактной моделью, и Берглас может ошибаться в величинах. Но не более чем на один или два порядка. “С точки зрения компьютерного программного обеспечения, даже 1 мегабайт — это совершенно мизерное значение”.

Итак, мы приходим к заключению, что алгоритм для общего интеллекта (по крайней мере, настолько же общего, как человеческий) должен быть простым в сравнении с современным программным обеспечением. Мы имеем дело с проблемой программного обеспечения, а не проблемой памяти.

Инкрементное и иерархическое сжатие

В соответствии с этим общим направлением исследований мы разработали теорию инкрементного сжатия, способную эффективно находить короткие представления для произвольных строк, которые могут генерироваться композицией функций: \(x = f_1\circ\cdots\circ f_k\). Наверное будет справедливо сказать, что таким способом можно сгенирировать подавляющую часть данных, встречающихся в естественных условиях. Аналогичным образом, использование локальности корреляций (степенная функция корреляций), которые обычно присутствуют в естественных данных, может привести к получению еще более эффективных алгоритмов сжатия, и мы сейчас работаем над этим.

Заземленные рассуждения

Хотя центральный вопрос для AGI — универсальное сжатие данных, исследователи сталкиваются и с несколькими другими не менее важными и пугающими проблемами. Это например, язык, память, мышление, повседневные знания, хрупкость программ и многие другие. Ниже будут представлены мои идеи о некоторых из них (хотя они и далеки от каких-либо окончательных решениях), а также будет показано, каким образом они взаимосвязаны с универсальным сжатием данных. Предположим, универсальное сжатие работает. И что из этого? Одна из наиболее актуальных проблем в сфере ИИ заключается в том, что системы ИИ на самом деле ничего не знают об окружающем мире и не обладают повседневными знаниями любого трехлетнего ребенка. Как выразился об этом Марвин Минский: “Ни одна современная программа не может осмотреть комнату и идентифицировать вещи, попадающиеся ей на глаза” (Минский, 2001 г.). Хотя проблема не в идентификации, а в неспособности понять и описать объекты, в отсутствии знаний об их функциях Более подробно эта тема раскрыта в нашей статье, излагающей основные позиции, в которой мы аргументированно показываем, почему заземленные рассуждения являются важным этапом на пути к повседневному мышлению и, как следствие, к AGI, и каким образом они плотно и неразрывно связаны с универсальным сжатием.

Ссылки

  1. Thomas M Cover and Joy A Thomas. Elements of information theory. John Wiley & Sons, 2012.
  2. Alison Gopnik, Andrew N Meltzoff, and Patricia K Kuhl. The scientist in the crib: Minds, brains, and how children learn. William Morrow & Co, 1999.
  3. Marcus Hutter. Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability. Springer, Berlin, 2005. ISBN 3-540-22139-5. doi: 10. 1007/b138233. URL http://www.hutter1.net/ai/uaibook.htm. 300 pages, http://www.hutter1.net/ai/uaibook.htm
  4. Ray Kurzweil. The singularity is near: When humans transcend biology. Penguin, 2005.
  5. Shane Legg and Marcus Hutter. A collection of definitions of intelligence. In B. Goertzel and P. Wang, editors, Advances in Artificial General Intelligence: Concepts, Architectures and Algorithms, volume 157 of Frontiers in Artificial Intelligence and Applications, pages 17–24, Amsterdam, NL, 2007. IOS Press. ISBN 978-1-58603-758-1. URL http://arxiv.org/abs/0706.3639.
  6. Marvin Minsky. Interior grounding, reflection, and self-consciousness. Information and Computation, pages 287-305, 2011.
  7. Ray J Solomonoff. A formal theory of inductive inference. part i. Information and control, 7(1):1–22, 1964.
  8. Ray Solomonoff. Complexity-based induction systems: comparisons and convergence theorems. Information Theory, IEEE Transactions on, 24(4):422–432,1978.
  9. Mriganka Sur, Preston E Garraghty, and Anna W Roe. Experimentally induced visual projections into auditory thalamus and cortex. Science, 242(4884): 1437–1441, 1988.
  10. Joel Veness, Kee Siong Ng, Marcus Hutter, William Uther, and David Silver. A Monte-Carlo AIXI approximation. Journal of Artificial Intelligence Research, 40:95–142, 2011. ISSN 1076-9757. doi: 10.1613/jair.3125. URL http:// arxiv.org/abs/0909.0801.

Контакты