ПРОБЛЕМЫ НАУКИ И ТЕХНИЧЕСКОГО ПРОГРЕССА В. И. ВАРШАВСКИЙ Д. А. ПОСПЕЛОВ
ОРКЕСТР ИГРАЕТ БЕЗ ДИРИЖЕРАРАЗМЫШЛЕНИЯ ОБ ЭВОЛЮЦИИ НЕКОТОРЫХ ТЕХНИЧЕСКИХ СИСТЕМ И УПРАВЛЕНИИ ИМИ
32.81 В 18 УДК 62-50 Варшавский В. И., Поспелов Д. А. В 18 Оркестр играет без дирижера: размышления об эволюции некоторых технических систем и управлении ими.—М.: Наука. Главная редакция физико-математической литературы, 1984.— 208 с., 50 илл.— 65коп. Мир, создаваемый человеком в технических системах во многом похож на тот, который окружает человека в природе. И в искусственном мире техники могут происходить процессы, подобные эволюции живых организмов. Возникают колонии и сообщества технических систем, формируются «сверхорганизмы» типа муравейника, возникают «коллективы», живущие по своим законам. Авторы книги анализируют эти аналогии и рассматривают принципы построения управления в таких технических системах, которые во многом отличаются от привычных схем управления. Для чтения книги не требуется никакой специальной подготовки, хотя она обращена не только к так называемому широкому читателю, но и к специалистам, работающим в области управления и кибернетики. В 1502000000-058 185-84 ББК 32.81 053(02)-84 6Ф 0.1 © Издательство -«Наука» Главная редакция физико-математической литературы. 1984
ВМЕСТО ПРЕДИСЛОВИЯ13 февраля 1922 года в Москве состоялось первое публичное выступление Персимфанса — Первого симфонического ансамбля Моссовета. Это выступление стало настоящей сенсацией для всех профессионалов и любителей музыки, Дело в том, что Персимфанс исполнял музыку без дирижера. И не какие-нибудь легкие для коллективного исполнения сочинения. В его первой программе прозвучали такие серьезные музыкальные вещи, как Третья (Героическая:) симфония Бетховена или концерт для скрипки с оркестром того же авторе. И звучали они настолько слаженно и артистично, что профессионалы уходили после концерта в полном недоумении. Им казалось, что в игре Персимфанса есть какой-то трюк, фокус, кто-то скрытно дирижирует оркестром, создает то неповторимое исполнение, которое может обеспечить лишь воля дирижера. Ибо лишь дирижер способен дать свою, глубоко индивидуальную интерпретацию музыкального произведения, навязать динамику исполнения, синхронизировать партии различных инструментов, заставить огромный оркестр звучать слаженно. Именно поэтому обычно музыканты сидят на сцене так, чтобы видеть дирижера и следовать его указаниям. А музыканты Персимфанса сидели совсем иначе. Струнные сидели, образуя полный круг (частично спиной к зрителям!), а духовые располагалась в середине этого круга. Каждый музыкант видел каждого, ибо в Персимфансе каждый слушал каждого и всех, а все слушали каждого. Не было никакого трюка. Взаимодействуя непосредственно друг с другом, прекрасные музыканты, входившие в Персимфанс, легко обходились без дирижера. Десять лет продолжались с неослабевающим успехом выступления Персимфанса, и все это время загадка этого оркестра интересовала и широкую публику, и специалистов. В рамках общей цели — достижения артистичного исполнения, того или иногопроизведения, каждый музыкант реализовал наилучшим образом свою локальную цель, демонстрируя в полной мере свои профессиональные возможности. (Другим примером, возможно более близким некоторым читателям, может служить джазовый ансамбль, играющий в стиле диксиленд.) Таким образом, вместо централизованного управления, реализуемого дирижером, в Персимфансе восторжествовал децентрализованный способ управления. Этот способ реализовался за счет коллективного взаимодействия музыкантов, которое «порождало» процесс управления. Но как это происходило, оставалось непонятным» не укладывалось в четкие и формальные правила. Подобная ситуация, когда сложные процессы развиваются не за счет централизованных воздействий, а за счет локальных взаимодействий их элементов, широко распространена в природе и в человеческом обществе. Она встречается гораздо чаще, чем это может показаться на первый взгляд. А, значит, вопрос о том, как рождается децентрализованное управление в результате коллективного взаимодействия элементов — куда глубже того, который возник у тех, кто стремился понять загадку Персимфанса. Ответ на него — одна из целей этой книги. Авторы ее поставили перед собой задачу рассказать на популярном уровне о проблемах управления в сложных системах, которые в теории управления принято называть большими. В подобных системах часто приходится переходить от централизованного управления к децентрализованному. Это представляет собой как бы плату за сложность, присущую большим системам. Централизованное управление в них, как правило, неэффективно, а в ряде случаев просто невозможно. Но откуда берутся столь сложные системы? Не есть ли категория больших систем надуманной? Как мы постарались показать в книге, мир больших систем, окружающих человека, все время обогащается. Рост сложности искусственных систем, создаваемых человеком, происходит постоянно. Идет эволюционное развитие созданных ранее искусственных систем, в какой-то степени напоминающее эволюцию в мире живых организмов. Децентрализованное управление — закономерное порождение этой эволюции. И наша задача — убедить читателей в справедливости этих утверждений. Глава 1 КАК ВОЗНИКАЕТ ДЕЦЕНТРАЛИЗОВАННОЕ УПРАВЛЕНИЕ?
Голос: «До того, как что-нибудь было, ничего не было.» И. Шток § 1.1. Искусственный мирС того момента, как наш далекий пращур взял в руки камень и стал обрабатывать им бесформенный кусок породы, стараясь придать ему нужную форму, стал возникать мир вещей, которых не было в природе. Эти создания человеческих рук и человеческого ума со временем образовали то, что теперь принято называть словом техноценоз. Техноценозы,— подобно биологическим сообществам, биоценозам — представляют собой множество различных технических устройств, приборов, систем и приспособлений, связанных между собою тесными и на первый взгляд непривычными связями. Живя среди этих искусственных вещей, человек не часто фиксирует эти связи. Редко, кто сознательно отмечает, что ручки на двери располагаются на определенной высоте, а сама дверь требует для своего открывания и закрывания определенных усилий, никого не удивляет, что шурупы устроены так, что их можно ввинчивать и вывинчивать с помощью отвертки, не приводит нас в изумление и то, что железнодорожный вагон, прицепленный к поезду в Москве, может пересечь в составе поезда всю Европу (проезжая по мостам через реки и через туннели в горах), переплыть пролив на пароме и оказаться в Лондоне. Техноценозы подобно биоценозам заставляют «организмы», входящие в них, жить по законам, диктуемым всем сообществам. Если, например, конструктор пополняет техноценоз новым типом самолета, который требует для своего взлета и посадки полосы длиной, большей, чем на существующих в данный момент аэродромах, то такой самолет не сможет существовать нигде, кроме как в воображении конструктора или в цехе завода-изготовителя. Для него просто нет соответствующей «экологической ниши» в техноценозе, связанном с полетами. В этой книге мы часто будем пользоваться анало-гиями из биологии, использовать термины, принятые при описании структуры и функционирования биологических сообществ. Это не просто прихоть авторов. Мы глубоко убеждены, что между органическим миром, созданным природой, и техническим миром, созданным и создаваемым человеком, имеется большое сходство. И это сходство не внешнее, а глубинное. Фундаментальные законы природы влияют на биологические организмы и на технические систему, которые должны функционировать в той же среде,' что и живые организмы. Одинаковость целей даже при условии кардинальных различий живого и неживого приводит к появлению сходства в структуре и функционировании. И в нашей книге мы попытаемся вскрыть некоторые черты этого глубинного сходства. Рассмотрим теперь грубую схему того, как человек создает новый элемент техноценоза. В рамках рациональной деятельности человек ничего не делает «просто так», без определенной цели. И создаваемые им технические устройства изобретаются, проектируются и изготовляются для решения некоторой задачи, достижения определенной цели. У этих изделий есть цель существования, которую мы будем обозначать через Ge. Например, создавая мотыгу, ее первые изобретатели ставили перед собой вполне определенную цель: создать приспособление, с помощью которого можно было бы взрыхлять нa определенную глубину землю для посадки растений. Это предопределило и множество допустимых форм рабочей поверхности мотыги, и длину ее ручки, и выбор материала для изготовления ее частей. Создавая автомобиль типа «БелАЗ», конструкторы ставили перед собой вполне определенную задачу, породившую «существование» этого семейства сверхтяжелых грузовиков,— перевозку больших объемов породы на открытых карьерных разработках. Естественно, что создатель нового объекта учитывает, что Ge должна быть достижима. Но, как правило, он хочет, чтобы эта цель достигалась эффективным образом. Что вкладывается в это понятие? Ответить на такой вопрос очень трудно. Но для нас важно, что в понятие эффективности в частности может входить требование о возможно меньшем расходе каких-либо ресурсов (например, энергетических, сырьевых или временных) на достижение Ge, надежности достижения Ge, полноты (точности) ее достижения, минимизации затрат на изменения в техно-ценозе для обеспечения функционирования создаваемого объекта. Все эти требования можно объединять в некоторое понятие «ограничения». Не все читатели, вероятно, согласятся с такой трактовкой понятия ограничения. В теории управления этот термин понимается более узко. Но для нас такое его расширение в рамках данной книги представляется оправданным. Для того чтобы созданный объект техноценоза мог бы достигать Ge, требуется еще организовать процесс ее достижения. Мало создать мотыгу, нужны еще человеческие руки, способные заставить ее действовать. Мало создать «БелАЗ», нужен еще шофер, способный использовать тяжеловоз по назначению. Другими словами, для достижения Ge необходим процесс управления. Управление требует для своей реализации определенных средств, ресурсов, которые мы будем обозначать R, и наличия информации о текущем состояния дел в той среде, где функционирует наш объект, состояниях самого объекта и состоянии управляющих средств. Обозначим всю эту информацию через I. Необходимость в управлении как бы выделяет в объекте две части: исполнительную и управляющую. Деление это весьма условно и в реальном объекте может иногда происходить лишь на уровне рассуждения об объекте, но оно весьма удобно. Именно к управляющей части обычно относят рассуждения об эффективности процесса достижения Ge. И для оценки ее работы вводят понятие критерия управления (например, достижение цели минимальными средствами) Q, который может носить как количественный, так и качественный характер. С течением времени техноценозы растут количественно, структура их усложняется, число различных связей и зависимостей увеличивается. При этом возникает качественно новая задача управления — управление в рамках некоторого техноценоза или части его. Эта задача возникает потому, что цель существования самого техноиеноза обычно не формулируется каким-либо отдельным человеком или группой людей, a Ge объектов, входящих в техноценоз, далеко не всегда согласованы между собой. Рассмотрим некоторый пример. Пусть нам необходимо перевезти контейнер с грузом из пункта А в пункт Б. Между этими пунктами нет прямой связи (даже воздушной), и мы вынуждены везти контейнер сначала по морю на корабле, потом по железной дороге и, наконец, на автомобиле. Каждый вид транспорта, которым мы воспользуемся, «живет» в своем техноценозе. Для морского транспорта в него в частности входят порты, предназначенные для грузовых операций. Они в свою очередь состоят из причалов, погрузочно-разгрузочных механизмов и складов. Железнодорожный транспорт не может существовать вне сортировочных станций, складов и тех же погрузочно-разгрузочных механизмов, а для автомобиля в его техноценоз входят и дороги, и авторемонтные хозяйства, и заправочные станции. Простая операция перевозки контейнера требует согласованной формы взаимодействия техноценозов и многих объектов внутри них. Если между портовым складом и железной дорогой нет связи, способной осуществить передачу контейнера, то он не достигнет пункта Б. Если заправочные станции не обеспечат горючим автомобиль, выделенный для перевозки контейнера, и его нельзя доставить ни на каком другом автомобиле, то результат будет тот же, контейнер никогда не попадет в пункт Б. Именно это требует специальных усилий по управлению в рамках одного техноценоза или группы взаимодействующих техноценозов*). Но на самом деле ситуация еще сложнее. Весь этот искусственный мир существует не сам по себе. Он существует в тесном переплетении с миром естественным. Человек, породивший техноценозы, сам становится их элементом, взаимодействует с объектами техноценоза» ставит и реализует в них свои собственные цели, наконец, организует управление внутри техноценоза и между техноценозами. Это резко усложняет структуру связей, ограничений и критериев. Учет экономических и социальных факторов делает управление особенно сложным. Тот всплеск работ по созданию автоматизированных систем управления, который так ярко проявился в последнее десятилетие, свидетельствует о том, что проблемы управления в техноценозах и между ними превратились в «горячие точки» техногенной цивилизации. *) Отметим, что выделение тех или иных техноценозов как самостоятельных единиц сама по себе задача нетривиальная Но в этой книге мы ее не решаем. В чем сложность возникшей перед человечеством задачи в области такого управления? Почему до сих пор не видно кардинальных успехов в этой области? Частичный ответ на свои вопросы мы получим в следующем параграфе. § 1.2. Системы, которые в полном объеме никто не создавалВероятно, все читатели нашей книги пользовались междугородним телефоном. Предположим, что некто X, живущий в небольшом районном городке на юге Днепропетровской области, очень хочет поговорить со своим братом, работающим в Магадане. Оформив заказ на разговор и прождав необходимое для службы связи время, абонент Х начинает говорить со своим братом Y. Как возникает возможность такого разговора, ни X, ни Y, как правило, не интересует. Им важно только, чтобы слышимость была хорошей, а время ожидания начала разговора небольшим. Однако десятки, если не сотни различных технических устройств обеспечивают этот разговор. Между Х и Y протягивается канал, скоммутированный с помощью этих устройств. А при полуавтоматическом или ручном каналах связи в обеспечении разговора Х и Y участвуют и люди — диспетчеры. И ни X, ни Y не знают маршрута движения своих сообщений. Но мы не будем анализировать сейчас те принципы управления, которые позволяют сети телефонной связи обеспечивать коммуникацию Х с Y и многих других абонентов, которые одновременно с нашими Х и Y используют ту же сеть телефонной связи. Обратим внимание на другую особенность столь привычной для большинства обитателей земного шара системы, входящей в современную техногенную сферу. В отличие от радиоприемника или телевизора, самолета или автомобиля мировая сеть телефонной связи не имеет единого проектировщика, который бы воплотил свой замысел в имеющуюся сеть. Та система, которая существует, возникла из более простых систем эволюционным путем, путем постепенного объединения более простых систем и усложнения функционирования в процессе их объединения. Поясним эту очень важную для авторов книги мысль. Когда в 1878 г. в Нью-Хойзене в США появилась первая телефонная станция, то возник как бы зародыш будущей системы. Конечно, у этой станции был свой создатель и проектировщик. И, создавая свое детище, он создал и способ управления им. Так появилось наборное коммутационное поле и первые работники связи—миловидные девушки, ловко орудовавшие штекерами, обеспечивая необходимые соединения между абонентами. Телефонный аппарат, каналы связи и коммутатор стали первыми важными Элементами этой телефонной сети. Такие локальные сети быстро распространились по многим странам. Потом появилась каналы связи между городами и странами, которые связывали между собой отдельные телефонные сети. Постепенное усложнение структуры сети приводило к возникновению новых технических проблем, без решения которых эти новообразования не могли бы функционировать. Возникли промежуточные усилители, полуавтоматические и автоматические коммутаторы и многое другое. И на каждом этапе развития телефонной сети работали изобретатели, ученые и проектировщики, которые улучшали элементы сети, изобретали новые устройства для коммутации абонентов, повышения качества передачи сигналов и т. п. В развивающейся сети появилась иерархия — верный признак усложнения ее структуры. Усложнялись и методы управления сетью. Но что же происходило с системой управления сетью связи? Создатели телефонного аппарата сначала исходили из того, что абонент, соединившись с коммутационным узлом, назовет диспетчеру необходимый ему номер. Появление автоматических узлов коммутации принципиально ничего не изменило. Только вместо произнесения номера вызываемого абонента в трубку мы набираем его на вращающемся диске или с помощью кнопочного устройства. Но при вызове абонента из другого города, с которым пока еще не установлена автоматическая коммутация по коду города, мы продолжаем пользоваться «старым дедовским способом», называя диспетчеру номер необходимого телефона и город, в котором этот абонент проживает. Таким образом, управление со стороны абонента, пытающегося установить связь с нужным ему лицом, практически никак не изменилось со времен тех телефонов, когда он крутил ручку магнето, посылая сигнал начального вызова в коммутатор. И рост телефонной сети сказывается для пользователя лишь в расширении его возможностей по связи с другими абонентами, да в росте отказов и времени ожидания при попытках установления связи. А какие изменения произошли в системе управления на коммутационном узле? Внешне тоже никаких, ибо принцип коммутации каналов остался старым. Но изменения коснулись более глубинного пласта управления. В телефонной сети каждый коммутационный узел, каждая национальная компания или одна из таких компаний имеют свои собственные цели и предпочтения. Но для работы всей сети нужно, чтобы вое эти индивидуальные цели были бы как-то скомпенсированы, согласованы с другими индивидуальными целями. Сеть, связывающая отдельные подсети, заставляет всех пользователей образовывать некоторую коалицию, коллектив. И без соотнесения личных интересов пользователя с интересами партнеров по коалиции ничего нельзя добиться. Это приводит к тому, что вместо максимизации своего личного выигрыша (будем называть так всю совокупность требований, которые индивид предъявляет к сети) каждый специалист, принимающий участие в управлении, должен максимизировать свой личный выигрыш лишь в условиях согласованных действий остальных специалистов. Поэтому и возникает новая функция управления — достижение согласованных действий при управлении объектом при наличии многих управляющих систем (пользователей) со своими личными локальными интересами. Как можно добиться такого согласования? Один из способов — распространение специальной служебной информации по всей сети, организация переговоров и совещаний, плакирование ее работы. Этот путь имеет скорее теоретический, чем практический интерес. Время, затрачиваемое на переговоры и согласования, будет слишком большим, планирование в условиях случайных требований абонентов на обслуживание невозможно, ситуации, возникающие в сети, динамичны и трудно предсказуемы. Где же выход из создавшегося положения? По-видимому, он единственный. Согласование действий управляющих органов в сети должно возникать как бы «само собой» в процессе автономного и децентрализованного функционирования всех частей этой системы. А для того чтобы оно стало возможным, необходим некоторый регулирующий механизм, реализуемый не каким-либо «верховным органом» сети, а в процессе обмена незначительной информацией локального типа между отдельными подсистемами управления. В телефонной сети земного шара это может быть реализовано в виде взаимных платежей между государствами и компаниями, отражающими качество согласования работы отдельных участков сети и величину потоков требований на связь в тех или иных участках сети. Для нас чрезвычайно важен и принципиален следующий вывод из сказанного. Система, возникшая эволюционным путем, не может управляться централизованно, единым органом управления. И достижение глобальной цели функционирования такой системы (ее Ge) происходит за счет согласования действий отдельных подсистем объекта, за счет своеобразного конформизма систем управления этими отдельными подсистемами. Централизованное управление в подобных системах может привести только к ее развалу. Известному советскому ученому А. А. Ляпунову принадлежит следующий замечательный по своей наглядности пример бессмысленности централизованного управления в определенных технических системах. Предположим, что кому-нибудь в голову пришла идея централизованно управлять использованием всех товарных вагонов, находящихся в распоряжении железных дорог СССР. Крайним случаем выражения этой идеи было бы создание грандиозного парка свободных вагонов, размещаемого где-нибудь в районе Урала. Требования на перевозки поступали бы в центральную диспетчерскую, которая и выделяла бы необходимое заказчику множество вагонов и гнала бы их к месту погрузки. После выполнения задания вагоны возвращались бы в парк. Ясно, что подобная организация управления парком грузовых вагонов неэффективна и попросту вредна. Хотя это отнюдь не означает, что не может существовать некоторой глобальной цели управления и критерия управления, относящегося ко всему парку грузовых вагонов. Но они должны достигаться не путем прямого управления ресурсами, как это было в едином парке вагонов на Урале, а путем согласованных действий отдельных подсистем в условиях организации между ними такой системы поощрения и наказания, которая обеспечивала бы достижение этой цели с учетом глобального критерия управления. Такое управление и подобное взаимодействие управляющих подсистем встречается не столь уж редко. Для иллюстрации этого утверждения приведем несколько поучительных примеров. § 1.3. Несколько поучительных примеров1. По-видимому, каждый из читателей посещал колхозный рынок. На рынке, если исключить лиц, зашедших туда из любопытства или в поисках случайного заработка, все остальные посетители делятся на два класса: покупателей и продавцов. Основной операцией, совершаемой на колхозном рынке, является единичный акт купли — продажи. В результате этого акта некоторое количество определенного товара переходит из рук продавца в руки покупателя. Мы не хотели бы пока вдаваться в тонкости, связанные с совершением этого акта, ибо многие из них должны исследоваться не в данной книге, а в литературе иного направления (от юридической и психологической до художественной). Поэтому, обедняя процесс, мы будем каждый единичный акт купли — продажи характеризовать тремя параметрами: С1, С2 и С. Смысл этих параметров следующий: C1 характеризует опорную цену продавца, т. е. ту цену, ниже которой ему невыгодно продавать свой товар; С2 — предельную цену, за который покупатель может приобрести товар, отказываясь его покупать по более высокой цене; С — цену, которая была реализована в акте купли — продажи. Конечно, если этот акт совершился, то C1 £С £ С2. Будем считать, что продавцы и покупатели не договариваются заранее о величине C1 по всему множеству продавцов (что иногда явно наблюдается на рынке) и о величине С2 но всему множеству покупателей. Конкретное значение С в этом случае будет появляться в результате некоторого процесса, протекающего в конкретной паре покупатель — продавец. Но никто не заставляет покупателя не получать информацию о ценах, которые требуют за свой товар различные продавцы, а продавца — не анализировать готовность назначить ту или иную цену множеством отдельных покупателей. Никто не заставляет покупателя выбирать именно этого продавца, а продавца — именно этого покупателя. С помощью изменения цен на товары и тот и другой как бы управляют процессом купли—продажи. Будем для определенности считать, что класс покупателей есть объект управления, а класс продавцов — управляющая система, цель которой — продать весь имеющийся у продавцов товар (предполагается, что запросы покупателей и количество товара, имеющегося на рынке у продавце», сбалансированы). Эта общая цель как бы разлагается на индивидуальные цели отдельных продавцов—продать тот товар, который они привезли на рынок. Общая цель мало интересует конкретного продавца. Она интересует скорее местный горисполком» получающий от продажи товаров на рынке определенный процент от количества проданного товара. В реальной жизни этот процент получается не непосредственно, а косвенным образом, с учетом таких показателей, как обеспечение населения города необходимыми продуктами питания, но нас устраивает подобная очень грубая модель. Если теперь зафиксировать закон изменения цен в процессе торговли между покупателями и продавцами и учесть, что цель продавца — максимизировать С при ограничении С ³ C1 и продать как можно больше товара, то эта цель может быть достигнута при замене каждого продавца устройством, изменяющим по заданному закону величину назначаемой за товар цены, начиная с некоторой цены С*, определяемой начальным состоянием продавца' при приезде на рынок (например, значением продажной цены, которое было установлено перед выездом на рынок на семейном совете), до величины его опорной цены C1. При этом отказ очередного покупателя от покупки товара по запрашиваемой цене в простейшем случае снижает эту цену на основании заложенного в устройство закона изменения цен. Каждое устройство-продавец действует как бы автономно. Множество покупателей и другие устройства-продавцы выступают для него как некоторая среда, подающая ему сигналы о необходимости снижения или повышения цен. Как показывает анализ процессов, протекающих в такой рыночной модели, децентрализованное управление, совершаемое множеством устройств-продавцов, приводит к выравниванию цен С на рынке. При этом достигается и общая цель всего коллектива продавцов — количество продаваемого товара стремится к максимуму. Если же увеличить количество информации, поступающей к продавцам, сообщая им, например, среднее значение величины С в данный момент по всем уже совершенным актам купли — продажи или полную информацию о значениях С по всем уже реализованным актам купли — продажи, то сходимость процесса выравнивания цен на рынке будет иметь значительно большую скорость. Что мы должны особенно выделить в этом примере? Прежде всего децентрализованный характер управления. Управление происходит с помощью коллектива почти автономных устройств (продавцов), получающих информацию о действиях друг друга только через среду. И тем не менее, как эта ни парадоксально, такое управление приводит к удовлетворению всех локальных целей продавцов и обеспечивает некоторый глобальный выигрыш, отражающий интересы системы управления более высокого уровня, которая, однако, не оказывает непосредственного влияния на локальные процессы во взаимодействии продавцов и покупателей. 2. Второй наш пример относится к пчелиному улью и описывает ситуацию, хорошо известную наблюдательным пчеловодам. Наступило похолодание. Оно грозит неприятностями расплоду. Он может погибнуть. И рабочие пчелы собираются на сотах с расплодом плотной массой, тесно прижавшись друг к другу. Температура в районе расплода поднимается и опасность исчезает. А когда жара такова, что температура в улье начинает катастрофически под- ниматься, рабочие пчелы приносят в улей воду и покрывают ячейки с расплодом тонкой водяной пленкой. После этого каждая из рабочих пчел, находящихся в улье, начинает выполнять роль своеобразного вентилятора. Она быстро работает крыльями, помогая испарению воды и охлаждению ячеек с расплодом. В описанных процессах все пчелы действуют индивидуально, независимо друг от друга, децентрализованно, ибо каждая из них своими органами чувств ощущает критические перепады температуры в улье и включает программы ликвидации нежелательных последствий. 3. Рассмотрим грубую модель конвейерного производства автомобилей. Некоторые цеха или группа цехов выпускает отдельные узлы будущего автомобиля; они поступают на главный конвейер и собираются в готовое изделие. В отдельных производствах также могут существовать свои «главные конвейеры», узлы для которых готовятся во вспомогательных подразделениях второго порядка и т. д.: «я гайки делаю, а ты для гаек делаешь болты». Это приводит к взаимной увязке работы всех частей сложного производственного процесса. И если соответствующий участок, производящий гайки, ежемесячно выполняет план на 200 %, а участок, производящий болты — на 150 %, то радости от этого немного. И если нельзя увеличить выпуск болтов до 200 %, то необходимо снизить выпуск гаек до 150 %., Таким образом, основной заботой для автозавода в целом должен быть комплекс мероприятий, обеспечивающих ритмичность и бесперебойность работы главного сборочного конвейера, а не максимизацию выпуска каких-либо вспомогательных узлов (если только не удается использовать их для снабжения автохозяйств дефицитными запасными частями). Руководители вспомогательных подразделений могут действовать автономно и децентрализованно лишь в пределах решения основной задачи, подчиняя свои локальные цели общей цели завода. 4. Всякий житель большого города имел дело с радиофицированными такси. Водители этих машин могут принимать информацию о поступающих в диспетчерскую заказах. Давайте вспомним, как происходит их распределение. Диспетчер может придерживаться различных .стратегий распределения. Во-первых, он может просто сообщить всем автомашинам, находящимся на линии, условия поступившего заказа. Если у кого-то из водителей этот заказ встретит интерес (например, данный водитель простаивает и находится недалеко от места, где надо брать пассажира, или он заинтересован в перемещении к конечному пункту, указанному в заказе), то он может взять заказ на себя, сообщив об этом диспетчеру. Во-вторых, диспетчер может назначить того или иного водителя для выполнения заказа, исходя из своего понимания обстановки или из каких-либо личных соображений. Однако второй путь оказывается гораздо менее эффективным как для парка, так и для заказчика, у которого в среднем растет время ожидания исполнения заказа. Особенно это проявляется в том случае, когда заказы поступают не для незамедлительного выполнения, а с указанием срока их выполнения. В этом случае децентрализованное управление, осуществляемое водителями такси (здесь диспетчер выполняет роль информационного, а не управляющего звена), оказывается более эффективным, чем централизованное. § 1.4. Обсуждение примеровНам кажется, что приведенных примеров уже достаточно для того, чтобы можно было сделать некоторые выводы. В последующих главах читатель встретит еще немало примеров объектов из того множества естественных и искусственных систем, которые обладают теми же специфическими свойствами, что и телефонная сеть, пчелиный улей, колхозный рынок или большое автохозяйство. Выше мы ввели такие характеристики систем управления, как I, Q и R. Попробуем теперь, опираясь на приведенные примеры, дать самую общую классификацию систем управления, причем мы заранее предупреждаем читателя, что цель этой классификации весьма узка. Она нужна нам для пояснения идей, развиваемых в данной книге, а не для исчерпывающей классификации централизованных и децентрализованных систем управления. Вторая задача неизмеримо труднее и серьезнее, чем та классификация, которая будет дана в этом параграфе. Рассмотрим сначала управление температурой в улье. Каждая рабочая пчела имеет полную информацию о состоянии улья. И эта информация одина- кова для всех рабочих пчел, находящихся в улье. Она сводится к знаниям о текущей температуре в улье. Каждая рабочая пчела обладает не только одинаковой I, но и одинаковым Q. Цель управления — приведение температуры около сот с расплодом в допустимый интервал, а в качестве дополнительного требования выступает время, в течение которого это необходимо сделать. Кроме того, и R у всех рабочих пчел одинаковы. Все они умеют махать крыльями с одинаковой скоростью, повышать. температуру своего тела на 10 градусов но сравнению с температурой воздуха, приносить и распылять воду. Таким образом, в случае регулирования температуры в улье мы имеем управляющую систему, состоящую из однотипных подсистем управления, каждая из которых характеризуется одними и теми же значениями I, Q и R. Кроме того, локальные интересы таких подсистем согласованы с глобальной целью управления (попросту cовпадают с ней), что не требует от них каких-либо действий по согласованию интересов. Подобные системы можно отнести к простейшим децентрализованным системам управление. В них отсутствует какая-либо специализация подсистем управления, и если управление не может быть осуществлено отдельной подсистемой, то, увеличивая их число, мы получаем систему управления, способную решить поставленную перед вей задачу («не умом, так количеством»—вот девиз подобных систем), Когда пожарная команда прибывает к месту тушения пожара, то картина несколько отличается от ситуации в улье. Хотя все пожарные подразделения имеют одинаковую глобальную цель — потушить пожар с минимальными затратами и в минимально возможное время — и одинаковую исходную информацию, средства их различны, а значит, различны и индивидуальные локальные цели, которых они могут достичь. Одни из них баграми и топорами взламывают крышу, под которой находится очаг пожара, а другие с помощью специального раствора пытаются сбить пламя. Здесь наблюдается не только чисто структурная децентрализация системы управления (пожарной части), но и специализация подсистем по средствам. Системы такого класса иаиболее часто встречаются в технических системах, образующих техноценозы. Если же при этом на пожаре нет начальника, ставящего подразделениям задачи и разумно координирующего их действия, то мы имеем дело с типичной децентрализованной по средствам системой управления. Конвейерная система автомобильного завода дает нам пример того, что подсистемы системы управления могут и не обладать полной и однотипной информацией. Средства, имеющиеся в руках отдельных подразделений завода, и их локальные цели могут также различаться между собой (во всяком случае, в условиях принятой системы стимулирования производства). И лишь административное подчинение всех заводских подсистем управления главному диспетчеру завода и ряду других лиц вносит в эту систему ту централизацию, которая необходима для согласования этих локальных целей. Если же централизация будет отсутствовать, то автомобили все равно будут собираться, если зарплату платить только за собранные автомобили. Как это сделать, по-видимому, представляют все читатели. Таксопарк дает нам пример системы, где водители автомобилей, обладая однотипной информацией и одинаковыми средствами достижения целей, принимают различные решения из-за различных критериев достижения своих целей. Роль диспетчерской сводится к тому, чтобы эти личные цели не вступили в противоречие с целью таксопарка (например, выполнением спущенного ему плана). При необходимости диспетчер может навязать тому или иному водителю свою волю, отражающую стремление к достижению глобальной цели всего коллектива. Наконец, ситуация на рынке, где отсутствует опо- вещение о сделках между продавцами и покупателя- ми, дает нам пример децентрализованного управления, в котором из-за взаимного влияния подсистем управления друг на друга происходит принудитель-ное согласование личных целей продавцов, приводящее к равновесным ценам в актах купли — продажи. Сказанное означает, что понятие децентрализации в системе управления может быть весьма различным. Обязательно лишь наличие отдельных подсистем в системе управления, которые должны выбирать средства воздействия на объект управления, не получая информации о том, какое решение в тот же момент времени принимают другие подсистемы. Корректировка действий подсистем происходит только через информацию, получаемую подсистемами от объекта управления. Весьма часто подсистемы могут быть таковы, что они «не знают» о существовании других подсистем или имеют весьма ограниченную информацию об их функционировании.
Рис. 1.1. На рис. 1.1 приведена классификационная структура, использующая значение трех классификационных параметров: I, R, Q. Звездочка означает, что. в данной системе управления для разных подсистем нет совпадения по множеству значений этого параметра. Около каждой позиции классификационной структуры указан пример системы управления, для которой выполнены соответствующие условия. Пояснения нужны только для двух случаев, так как остальные примеры мы уже проанализировали. Для случая (I*, R*, Q) можно рассматривать систему управления движением городского транспорта. В такой системе происходит естественная декомпозиция системы управления на подсистемы по видам транспорта (троллейбусно-трамвайное управление, управление метрополитеном и т. п.). В распоряжении каждой такой подсистемы имеются свои средства достижения однотипной цели — максимизации количества перевозимых пассажиров при обязательной экономии энергии и ресурсов. Для случая же (I*, R*, Q*) примером может служить система управления ходом спектакля в театре. Ведущие спектакль согласуют между собой различные подсистемы (систему освещения сцены, систему музыкального сопровождения, систему смены декораций и т. п.). Все подсистемы имеют свои средства и свои цели, согласованные с помощью режиcсерского плана с глобальной целью максимизации эстетического наслаждения, которое испытывают зрители. Приведенные нами иллюстративные примеры в ряде случаев упрощены, но нам хотелось, чтобы они были несложны и ненадуманы. И если читатели почувствовали смысл классификации, приведенной на рис. 1.1, то авторы достигли своей цели полностью. § 1.5. Зачем нужна децентрализация?Возникает вполне законный вопрос: не является ли децентрализация в системе управления следствием нашего плохого знания поведения объекта управления или того, как надо строить системы управления? Мы хотим привести ряд соображений в пользу того, что во многих случаях децентрализованное управление есть не ухудшенный вариант централизованного или иерархического, но вполне законный, а часто и единственно возможный вид управления. Кое-какие мысли по этому поводу мы уже высказывали выше. Здесь же мы суммируем их окончательно. 1. Не все технические, а особенно экономические и организационные системы, возникли на основании единого проектировочного замысла. Многие системы в их современном виде «никто не изобретал, не проектировал и не создавал». Они возникли из более простых систем в результате своеобразной технической эволюции, о которой мы будем говорить в заключительной части книги. Выражение, которое мы взяли в кавычки, является метафорическим. Конечно, в создании этих систем принимали участие и изобретатели, и проектировщики, и ученые. Но мы хотим подчеркнуть, что ни один из них не создал всю систему «целиком». Были люди, которые проектировали автоматические телефонные станции или локальные сети связи, но нет единого создателя Мировой телефонной сети или Мировой транспортной сети или Всемирного сообщества филателистов. В системах такого типа централизованное управление возможно лишь на уровне соглашений о путях развития системы, договоров о стандартах и основных ограничениях на пользование системой и т. п. Оперативное же управление самим процессом в них возможно, по-видимому, лишь децентрализованным образом. 2. Сложность тех систем, которыми в настоящее время пытается управлять человечество, достигла такого порядка, что централизованное управление ими становится невозможным из-за огромного потока информации, подлежащей переработке центральным управляющим органом и передаче по каналам связи. Время, затрачиваемое на это, делает, как правило, дальнейшую работу по управлению в динамическом режиме бесполезной. Иллюстрацией может служить положение, сложившееся в метеорологии при решении задачи краткосрочного прогноза погоды. Наземные метеостанции и метеоспутники поставляют сейчас такое количество оперативной информации, которое просто невозможно обработать в нужные сроки. Это породило остроумное и печальное замечание одного из крупных специалистов по прогнозу погоды, сказавшего, что «сегодня мы можем с абсолютной точностью предсказать погоду на завтра, но для этого нам нужен месяц работы». 3. С ростом сложности больших систем падает их надежность. При числе контактов порядка 1010, что примерно соответствует числу контактов в современной мировой телефонной сети, наличие отказов практически постоянно. Другими словами, система должна выходить из строя с вероятностью, весьма близкой к единице. Тем не менее, практика использования телефонной сети показывает, что этот феномен нами не наблюдается. Причиной такого парадокса является все та же децентрализация, которая обеспечивает в системе избыточность по управлению, необходимую для нормального функционирования системы. Нормальное функционирование таких систем, как мировая сеть связи или большая энергосистема, обеспечивается за счет локальных решений по изменению коммутации каналов или по переброске энергии из одной точки энергосети в другую. Если бы эти решения принимались централизованно, то время, затрачиваемое на передачу необходимей информации, сделало бы функционирование таких систем абсолютно ненадежным и неэффективным. 4. В ряде случаев очень трудно сформулировать на том уровне точности, который необходим для централизованного управления, цель существования объекта управления и критерий управления. Но даже если это и можно сделать для сложной системы, то, к сожалению, почти, никогда не удается указать, как, исходя из них, осуществлять само управление объектом. Однако весьма часто такую информацию можно указать для подсистем управления и увязать их функционирование через, ограничения, формируемые из цели существования и критерия управления всем объектом в целом. Примером подобной ситуации могут служить различные автоматизированные системы управления региональными объектами (типа города, области и т. п.). 5. При создании межнациональных и межгосударственных систем децентрализация в условиях современного состояния мира просто неизбежна, хотя отдельные межгосударственные органы управления и могут быть созданы в результате специальных соглашений. Все сказанное заставляет весьма серьезно отнестись к самой идее децентрализованного управления в сложных системах. Исторически первые интересные модели такого управления были созданы М. Л. Цет-линым, чей вклад в это направление трудно переоценить. Он был создателем целого направления исследований, получившего название «коллективное поведение автоматов». Им были сформулированы основные принципы, лежащие в основе подобных мо- делей, и способы их реализации. Последующие исследования в этой области позволили создать ряд оригинальных и интересных моделей децентрализованного управления типа (I, R, Q*), а впоследствии и других типов. Итак, объектами наших дальнейших исследований будут децентрализованные системы управления разных типов (см. рис. 1.1). При этом, как правило, мы будем рассматривать системы управления, в которых подсистемы однотипны. Децентрализация в таких системах достигается за счет согласования действий подсистем через объект управления (среду, в которой функционируют подсистемы), что позволяет всей системе достигать поставленной перед ней цели в результате действий подсистем, направленных на достижение своих локальных целей. Такое ограничение рассматриваемых систем управления связано с тем, что в противном случае нам пришлось бы говорить о столь широком классе систем, что никакие результаты, кроме тривиальных, мы бы получить не смогли. Кроме того, однотипность подсистем управления резко облегчает задачу компановки самой системы управления и значительно снижает сложность ее проектирования. Чаще всего мы будем рассматривать такие подсистемы управления, работу которых можно описы-вать моделью конечного или вероятностного автомата. Хотя читатель встретит в дальнейшем и другие модели. Такое наше пристрастие определяется двумя фактами: хорошей разработанностью теории именно для таких подсистем и широким спектром приложений, в которых автоматные модели управления находят свое применение. План нашего дальнейшего изложения таков. В следующей главе мы рассмотрим модель отдельной подсистемы, представляющей собой или детерминированный, или вероятностный автомат, функционирующий в случайной среде. Мы покажем, что, несмотря на весьма простую конструкцию, устройство этого типа могут с успехом приспосабливать свое поведение к априорно неизвестным условиям функционирования. Затем в гл. 3 и 4 мы опишем различные способы организации взаимодействия таких подсистем и приведем много разнообразных примеров решения задач управления, успешно решаемых таким образом. В гл. 5 мы обсудим проблемы, относящиеся к однородным структурам, в которых протекают параллельные и асинхронные процессы. Такие распределенные системы децентрализованного управления обладают многими важными для техники сегодняшнего дня свойствами, позволяющими использовать их в тех случаях, когда централизованным управлением воспользоваться невозможно. В заключительной главе книги мы проанализируем эволюционный путь развития технических объектов и систем управления ими, который, как нам представляется, начинает играть все большую роль в техническом прогрессе человечества. Для систем такого типа децентрализованное управление оказывается единственно возможным. В тексте книги, учитывая ее популярный (насколько это нам удалось) характер, почти нет аналитических выкладок и доказательств. В ней господствует качественный характер изложения. Какие-либо ссылки на источники отсутствуют. Однако краткий комментарий (библиография), завершающий книгу, позволит заинтересованным читателям найти работы, в которых строго доказаны все результаты, упомянутые в этой книге, а также те работы, которые были использованы авторами в качестве источников примеров и моделей. И последнее. Кое-что читатель должен знать (например, азы теории вероятностей или математического анализа). Если бы мы этого не могли потребовать от читателя, то ничего, кроме вводной главы, нам бы написать не удалось, Глава 2 ПРОСТО ЛИ СУЩЕСТВОВАТЬ В СЛОЖНОМ МИРЕ?
«Подражанье, повторенье — мира этого дела. Омар Хайям § 2.1. Парадоксы целесообразностиЛиса вернулась с богатой добычей. Часть ее насытила лисий выводок, а оставшуюся пищу лиса прячет «на черный день». Тщательно роет яму, кладет в нее мясо и засыпает его землей. Наблюдая за ее поведением, можно прийти к выводу, что цель действий лисицы порождена ее «интеллектом». Столь целесообразно и «разумно» ее поведение. Но судьба оказалась для нашей героини по очень счастливой. Она попала в западню и стала жительницей зоопарка. Теперь ей уже не приходится тратить силы на добывание пищи. Ее кормят служители. Но что делать лисе, когда пищи избыток? Конечно, спрятать! И лиса скребет когтями бетонный пол вольера, а через некоторое время, когда «яма» готова, «прячет» в нее мясо. И после этого перестает обращать внимание на остаток трапезы, который, конечно, так и остается лежать на полу вольера. Лиса просто игнорирует его, не видит «зарытое» мясо. То, что в привычной для животного среде выглядело целесообразно, в условиях другой реальности становится лишенным каких-либо черт разумности. Такие узко специализированные действия, тесно связанные с типовой ситуацией в окружающем мире, принято называть рефлексами. Чем проще организован организм, тем жестче схема рефлекса. Тем нелепее выглядит их поведение в изменившейся среде. Разных видов рефлексов существует немало и классификация их довольно неустойчива. Для нас важно лишь то, что существуют рефлексы, которые помогают живому организму приспосабливаться к условиям той среды, в которой он обитает. Рассмотрим два небольших примера. Зоопсихологи очень любят использовать для наблюдения за поведением живых организмов и за изменением этого поведения в условиях той или иной среды специально сконструированные лабиринты. Площадки и коридоры лабиринтов снабжаются всевозможными приятными и неприятными для живущего в нем раздражителями. А различные размещения этих раздражителей позволяют экспериментаторам создавать по своему желанию ту или иную «географию» среды обитания. Простейшие лабиринты — Т-образные. На рис. 2.1 показано два таких лабиринта. Рассмотрим сначала верхний. Его использовал для своих опытов с обычными дождевыми червями американец Йеркс. В начале опыта черви помещались на площадку в основании буквы Т. Эту площадку ярко освещали, и червь начинал движение, стремясь найти более комфортабельное место. Там, где коридор имел разветвление, червь мог сделать выбор из двух альтернатив: поворачивать влево или поворачивать вправо. Конечно, червь «не мог знать», что левый коридор сулит ему одни неприятности. По дороге налево включено электрическое поле, а камера в конце коридора представляет собой ванночку с раздражающим червя солевым раствором. Зато правый коридор приводил червя в затемненную и влажную камеру, где он чувствовал себя превосходно. В процессе эксперимента червь многократно преодолевал лабиринт и «принимал решение» о выборе коридора при разветвлении. И постепенно обучался поворачивать только в правый коридор. Другими словами, не имея никакой первоначальной информации об особенностях среды обитания, червь в процессе взаимодействия с окружающим миром вырабатывал целесообразный способ поведения в нем. Изменение среды экспериментатором (например, замена раздражителей левого коридора на благоприятные условия правого и перенесение этих раздражителей в правый коридор) делало поведение обученного червя нецелесообразным. Казалось бы, что червь должен был бы до конца своего существования быть в полном разладе с окружающей его средой. Но через некоторое число безуспешных попыток найти в правом коридоре уютную камеру для отдыха червь впервые поворачивал в левый коридор. Шло переучивание. И снова наступала пора полной адаптации червя к изменившемуся миру. Рассмотрим теперь нижний лабиринт, показанный на рис. 2.1. Его использовал другой зоопсихолог— Торндайк для опытов с крысами. При разветвлении коридора голодная крыса, привлекаемая запахом приманки, должна сделать альтернативный выбор между левым и правым коридорами. Но в каждом из них крысу ждут неприятные ощущения от раздражения электрическим током. Эти раздражения происходят с фиксированными вероятностями Рп и Pл, которые не изменяются в одной серии опытов. Цель эксперимента — определить, сможет ли крыса в процессе обучения научиться выбирать только тот коридор, ведущий к пище, в котором вероятность электрического раздражения меньше. Опыты Торндайка повторяли неоднократно. В экспериментах принимали участие не только крысы, но и другие животные. Формы лабиринтов изменяли. Но основной качественный результат во всех экспериментах оставался неизменным. После более или менее длительного периода обучения наступал момент, когда животное правильно оценивало разницу в значениях Ру и Рл (в случае Т-образного лабиринта) и принимало целесообразное решение по выбору маршрута движения к пище. При незначительной разнице в значениях вероятностей болевых раздражении выбор пути движения происходил без заметных предпочтений. Казалось бы, что математики должны были бы обратить на эти интересные факты свое внимание. Но этого не произошло. Эпоха моделей и открытий на стыке наук еще не наступила, науки еще сильно разобщены, у представителей каждой из них свой «внутрицеховой» язык, непонятный для непосвященных. Интерес к результатам в соседних областях знаний минимален. Идет глубокий анализ явлений в отдельных областях, а время синтеза и интеграции знаний еще отделено от времени опытов Торндайка десятилетиями. Альянс между математикой и зоопсихологией в те далекие годы, предшествующие первой мировой войне, не состоялся. Математики не заметили опытов Торндайка, а психологи были очень и очень далеки от овладения языком математики. И лишь через 50 лет наступило время посмотреть па поведение червей и крыс с иной точки зрения. § 2.2. «Маленькая зверушка»Моделирование и объяснение эффекта Йеркса и Торндайка были получены в цикле исследований по моделированию простейших форм поведения, выполненных в 60-х годах нашего века оригинальным и глубоким советским ученым, оказавшим заметное влияние на все развитие работ в области моделирования поведения, Михаилом Львовичем Цетлиным. Он был одповременно и изобретательным инженером, и великолепным математиком. Активно и вовсе не дилетантски интересовался медициной и биологией. Талант инженера, превосходная математическая интуиция и способность к точной, но одновременно весьма образной интерпретации фактов самых различных областей науки позволили ему объединить усилия специалистов в области математики, биологии, психологии, технических наук. Этот «незримый колледж» сложился в своеобразное научное направление, подобного которому в то время, пожалуй, не было нигде в мире. В рамках этого научного коллектива были решены многие важные научные и прикладные проблемы (например, впервые в мире создан биоуправляемый протез). Но нас интересует лишь одно направление в его работе. Направление, которое вылилось со временем в новую научную теорию — теорию коллективного поведения и управления. В основе этой теории лежит гипотеза простоты, высказанная М. Л. Цетлиным. Суть ее сводится к тому, что любое достаточно сложное поведение слагается из совокупности простых поведенческих актов. Их совместная реализация и простейшее взаимодействие приводят в результате к весьма сложным поведенческим процессам. Отсюда возникла идея о том, что совместное функционирование простых «маленьких зверушек» в сложной среде способно обеспечить устойчивое существование всего коллектива, который можно рассматривать как некий «сверхорганизм». Клетки человеческого тела, пчелы улья или муравьи муравейника должны вызвать у читателя нужную ассоциацию. Вернемся к схеме опыта Торндайка. На рис. 2.2 показана некоторая интерпретация этой схемы. Маленькая зверушка воспринимает из окружающей среды сигналы, которые являются оценками действий, совершенных ею перед этим. Эти оценки будут нами рассматриваться как двоичные: поощрение за выполненное действие (нештраф) и наказание за него (штраф). Зверушка может выбирать свои действия из некоторого заданного конечного набора D==[di, ds, ..., dn]. Значения оценок действия (будем их обозначать 1 и 0) формируются средой. Одна среда отличается от другой тем, как вырабатываются оценки. Рассмотрим один важный частный случай, когда среда формирует эти оценки следующим образом. Если зверушка делает в некоторый момент действие di, то с вероятностью Pi среда выдает оценку «наказание» (штраф) и с вероятностью 1—Pi —оценку «поощрение» (нештраф). Если с течением времени значения Pi остаются неизменными, то такая среда называется стационарной. Для полного определения стационарной среды достаточно задать вектор E=(P1,P2,...,Pn). Вернемся к опыту с крысой, описанному выше. В нем мы имеем дело со стационарной средой вида Е=(Рп,Рл), компоненты которой характеризуют вероятности наказаний (болевых раздражений) при выборе крысой правого или левого коридоров в Т-образном лабиринте. Эти выборы характеризуют множество действий крысы. М. Л. Цетлин поставил перед собой вопрос: «Сколь сложным должна быть зверушка, которая подобно крысе в опытах Торндайка могла бы адаптировать свое поведение к стационарной среде так, чтобы всегда вести себя наиболее целесообразным образом?» Но прежде чем дать ответ на подобный вопрос, следует уточнить само понятие целесообразности поведения. Заменим нашу зверушку механизмом случайного равновероятного выбора действий. На каждом шаге своего функционирования этот механизм, никак не учитывая приходящих на его вход сигналов штраф — нештраф, с одинаковой вероятностью, равной 1/п, выбирает любое из доступных ему действий. В опытах с крысами это соответствовало бы следующей ситуации. Перед началом левого и правого коридоров имеются запирающиеся дверцы. Когда крыса подбегает к развилке, то всегда оказывается открытой лишь одна из них. Открывание их происходит равновероятно. Для этого экспериментатор может, например, подбрасывать монету и на основании выпадения ее той или иной стороной открывать соответствующую дверцу. В таких условиях крыса, конечно, лишена возможности принимать какое-либо решение о выборе маршрута движения. Это решение «принимает» за нее механизм случайного равновероятного выбора. При бесконечном повторении опыта со зверушкой, устроенной как механизм равновероятного выбора действий, будет накоплен некоторый суммарный штраф. Его величина определяется как математическое ожидание штрафа по формуле, хорошо известной в теории вероятностей: Значение М* позволяет интерпретировать понятно целесоорбазного поведения следующим образом. Будем говорить, что зверушка ведет себя целесообразно, если накопленный ею суммарный штраф меньше, чем в случае механизма равновероятного выбора действий. А нецелесообразным будем считать такое поведение, при котором этот суммарны» штраф оказывается больше М*. Пусть, например, в Т-образном лабиринте Рп=0,9, а Рл = 0,4. Если бы крыса заранее знала эти вероятности, то она, конечно, всегда бы предпочитала бежать в левый коридор. Суть опытов Торнданка а том, что именно это предпочтение и сформируется у крысы после некоторого опыта предварительного обучения. Если при наших значениях вероятностей штрафов за действия крысу поставить в условия равновероятного выбора (ввести открывающиеся равновероятно дверцы), то суммарное значение штрафа для нее будет равно М == 0,5*0,9 + 0,5*0,4 == 0,65. Поведение крысы будет целесообразным, если суммарный штраф, накопленный ею, будет меньше 0,65. А наилучшим ее поведением будет то, при котором этот штраф достигнет своего минимума (при выборе только левого коридора). В этом случае М=0*0,9+1*0,4=0,4. Поставим перед собой следующую задачу: можно ли построить техническое устройство, которое вело бы себя аналогично нашей зверушке, обеспечивая целесообразное поведение в любой априорно неизвестной стационарной среде? И одним из удивительных результатов теории коллективного поведения явилось создание конструкции ряда технических устройств, способных к этому. § 2.3. Линейная тактика — залог успехаПервой конструкцией такого типа был автомат с линейной тактикой, предложенный М. Л. Цетлиным. На рис. 2.3 показан принцип функционирования подобного устройства. Число лепестков «ромашки» равно числу действий, доступных автомату. На рисунке для простоты показан случай, когда число таких действий равно трем. В каждом лепестке выделено четыре устойчивых состояния, в которых может находиться автомат. В любом из состояний, образующих лепесток ромашки, устройство выдает в среду сигнал действия, приписанного этому лепестку. Смена состояний происходит с учетом сигналов оценок за действия, поступающих от внешней среды. Как уже говорилось, эти сигналы двоичные. При поступлении сигнала нештраф наступает смена состояний, показанная на рис. 2.3 сплошными стрелками. Автомат как бы переходит к внешнему краю лепестка, а когда достигает последнего состояния в лепестке, то остается в нем. Если же на вход автомата приходит сигнал штраф, то состояния сменяются в соответствии с пунктирными стрелками на рисунке. Автомат идет в глубь лепестка, в какой-то момент под влиянием сигнала штраф переходит «а другой лепесток ромашки и происходит смена действий автомата. Смена лепестков, как видно из рисунка, происходит поочередно. Поясним теперь принцип работы устройства подобного типа. Пусть оно взаимодействует со стационарной средой, характеризуемой вектором вида Е = (0,9, 0,0001, 0,8). И пусть в начальный момент наше устройство находилось в состоянии, показанном на рис. 2.3 штриховкой. Понаблюдаем за его функционированием. Находясь в заштрихованном состоянии, устройство выполнит действие d1. За это действие среда с вероятностью 0,9 оштрафует нашу зверушку и лишь с вероятностью 0,1 поощрит ее. Тогда устройство с вероятностью 0,9 перейдет из заштрихованного состояния в состояние 1 в том же лепестке, а с вероятностью 0,1 — в состояние 3 в том же лепестке. В любом случае оно снова произведет в среде действие d1. И опять неумолимая среда с вероятностью 0,9 выдаст сигнал штраф и лишь с вероятностью 0,1 поощрит устройство. Как следует из формул теории вероятностей для независимых событий (а выработка сигналов средой на каждом шаге происходит независимо от других шагов), вероятность получения от среды двух сигналов штрафа подряд за действие d1 есть 0,9*0,9 == 0,81, вероятность получения двух поощрений подряд равна 0,1*0,1 = 0,01, а вероятность получить один штраф и одно поощрение — 0,9*0,1+0,1*0,9=0,18. Это означает, что после двух тактов взаимодействия со средой наше устройство с вероятностью 0,01 окажется в состоянии 4 группы состояний, соответствующих действию d1, с вероятностью 0,18 останется в заштрихованном состоянии и, наконец, с вероятностью 0,81 перейдет в состояние 1 той группы, которой соответствует действие d3. С ростом числа взаимодействий качественная картина не изменится. Вероятность покинуть группу состояний, в которой совершается действие d1, неуклонно возрастает, а вероятность остаться в ней — падает. Что произойдет, когда устройство перейдет в состояние 1 того лепестка, который соответствует действию d3? После формирования этого действия среда с вероятностью 0,8 оштрафует устройство, и оно перейдет в состояние 1 того лепестка, которому соответствует действие d2. С вероятностью же 0,2 будет получен сигнал поощрения, который заставит наше устройство перейти в состояние 2 лепестка, соотносимого с действием d3. Но, как и в предшествующем случае, вероятность остаться в состояниях этого лепестка будет убывать с ростом числа взаимодействий, и автомат в конце-концов покинет и этот лепесток, перейдя в группу состояний, соответствующих действию d2. Здесь наблюдается иная картина. Поскольку величина вероятности штрафа за действие d2 весьма мала, то с большой вероятностью автомат заберется в последнее состояние лепестка и почти не будет покидать его. Вероятность уйти на другие лепестки ничтожно мала. По порядку величин она равна 10*E-15. А это значит, что после некоторого периода обучения автомат, имитирующий поведение зверушки, будет вести себя почти самым наилучшим образом. «Почти» связано с тем, что существует ненулевая, хотя и очень малая, вероятность ухода автомата из состояния, соответствующего действию d2. Тогда после очередного периода блуждания по лепесткам действий d1 и d3 автомат вновь вернется на благоприятный лепесток действия d2 и вновь надолго останется в нем. Однако за это «отступничество» ему придется накопить некоторый дополнительный штраф, которого не было бы, если бы всегда выполнялось действие d2. На нашем рисунке в каждом лепестке ромашки по четыре состояния. Выбор этого числа состояний произволен. Каждый лепесток может содержать не четыре, а большее или меньшее число состояний. Обозначим это число через q. Оно называется глубиной памяти автомата. Смысл этого параметра заключается в следующем. Чем больше q, тем более инерционен автомат, ибо тем большая последовательность штрафов вынуждает его к смене действий. Интуитивно ясно, что, чем больше инерционность автомата, тем ближе он к тому, чтобы, выбрав наилучшее в данной среде действие, продолжать выполнять только его. Читателю должно быть ясно, что с ростом глубины памяти растет при функционировании в стационарных средах и целесообразность поведения автомата. И, наоборот, при малом значении q функционирование автомата подвержено воздействию сигналов штрафа, часто выводящих автомат на лепестки с невыгодными действиями. Конструкция автомата, рассмотренная нами, была названа М. Л. Цетлиным автоматом с линейной тактикой. И эта весьма простая в технической реализации система (набор сдвигающих регистров, соотносимых с лепестками и тривиальная логическая схема для организации сдвига единички в этих регистрах и перехода с регистра на регистр) решает сложную задачу о целесообразном поведении в любой заранее не фиксированной стационарной среде. Факт этот вызывает глубокое изумление. Сколь же просты оказываются конструкции, способные выполнять процедуры адаптации, представляющиеся на первый взгляд весьма сложными. Но оказывается, что целесообразное поведение это еще не все. Можно показать (и М. Л. Цетлин сделал это), что если minP, не превосходит 0,5, то при росте величины q мы получим последовательность автоматов с линейной тактикой со все увеличивающейся глубиной памяти, которая является асимптотически оптимальной. Это означает, что при q -->бесконечность имеет место M(q,E) —>М, где М—минимальный суммарный штраф, который можно получить в данной стационарной случайной среде. Таким образом, во многих таких средах конструкция, предложенная М. Л. Цетлиным, обеспечивает при достаточно больших значениях q поведение, сколь угодно близкое к наилучшему. А это уже совсем фантастично. После автоматов с линейной тактикой было найдено еще много конструкций зверушек, которые могли вести себя целесообразно, а зачастую асимптотически оптимально в любых стационарных случайных средах. О них мы расскажем ниже. § 2.4. «Личные» качества автоматовАвтомат с линейной тактикой аккуратен и педантичен. Неторопливо движется он по состояниям лепестков, отсчитывая число поступивших на его вход наказаний и поощрений. Но возможны и другие автоматы. Вот один из них, предложенный В. И. Кринским. Он похож на автомат с линейной тактикой и действует при поступлении сигнала штраф аналогично автомату с линейной тактикой. Но при сигнале поощрение его поведение резко отлично от педантизма автомата с линейной тактикой. В каком бысостоянии лепестка в этот момент не был автомат В. И. Кринского, он тут же меняет его на самое глубокое для данного лепестка состояние. Соответствующая картина показана на рис. 2.4 (пока не следует обращать внимание на штрихпунктирные линии). Такой автомат можно назвать «доверчивым». Он всегда «верит» в хорошее. И всякий положительный сигнал от среды приводит его в состояние «эйфории». Казалось бы, подобный способ поведения ничего кроме неприятностей автомату не сулит. Но мир автоматов оригинален и странен. Строго доказано, что доверчивые автоматы В. И. Кринского ведут себя целесообразно в любых стационарных случайных средах, а последовательность подобных автоматов с ростом их глубины памяти q образует асимптотически оптимальную последовательность. Оказывается, что и автоматы, предложенные Г. Роббинсом, которые отличаются от доверчивых автоматов тем, что при переходе с лепестка на лепесток они переходят не в начальное состояние лепестка, а в конечное его состояние (на рис. 2.4 эти переходы показаны штрихпунктирными стрелками), также ведут себя целесообразно в любой стационарной случайной среде и при росте глубины памяти q образуют асимптотически оптимальную последовательность автоматов. Создается такое впечатление, что любые меры по повышению инерционности автомата, задержке его в группе состояний, принадлежащих одному лепестку, улучшат качество его функционирования в среде. Пояснить это можно следующим примером. Заядлый рыболов, обнаружив однажды место, где был хороший клев, может ходить сюда довольно долго, хотя результаты могут быть нулевыми. И часто при достаточном терпении он бывает вознагражден сторицей за предшествующие неудачи. А, сменив место ловли и не поймав ни одной рыбешки, такой рыболов не отчаивается и еще много раз приходит сюда, чтобы попытать счастья. И окончательно разочаруется в облюбованном месте лишь тогда, когда довольно много раз уйдет отсюда без какой-либо добычи. И, как показывает жизненный опыт многих поколений любителей рыбной ловли, средний улов такого рыболова всегда выше, чем у его коллеги, придерживающегося тактики менять место ловли, как только при первой же рыбалке его улов оказывается незначительным. Опишем еще одну конструкцию автомата, обеспечивающего целесообразное поведение в любой стационарной среде и дающего возможность построить асимптотически оптимальную последовательность автоматов, позволяющую получать минимальный возможный штраф в данной среде с любой наперед заданной точностью. В отличие от ранее рассмотренных конструкций этот автомат будет не детерминированным, а вероятностным. Устроен он подобно автомату с линейной тактикой. При поступлении сигнала нештраф смена состояний в нем происходит так, как показано на рис. 2.3. Но при сигнале штраф такой автомат не спешит менять состояние. Сначала он «подбрасывает монетку» и по результату подбрасывания либо переходит в состояние по пунктирной стрелке, показанной на рис. 2.3, либо сохраняет то состояние, в котором автомат получил сигнал штраф. Эта конструкция, предложенная В. Ю. Крыловым, может быть названа «осторожным» автоматом. Интересен вопрос о том, насколько модели зверушек, построенные в рамках теории коллективного поведения, идентичны тем моделям, которые лежат в основе поведенческих актов, наблюдавшихся в опытах Торндайка, или в ситуациях альтернативного выбора, характерных для человека. М. А. Алексеев, М. С. Залкинд и В. М. Кушнарев провели серию экспериментов с людьми. Они проводили опыты в изолированной комнате, где ничего нет, кроме пульта с двумя кнопками, перед которым стоит стул. Испытуемый садится на него и надевает наушники. Если нажать ту или иную кнопку, то с некоторой фиксированной вероятностью, неизвестной испытуемым, в наушниках раздастся щелчок. Это сигнал поощрения. Отсутствие щелчка — аналог сигнала штраф. Цель испытуемого максимизировать сигналы нештрафа путем правильного выбора нажимаемых кнопок. Внешне все выглядит так же, как в опытах Торндайка, т. е. альтернативный выбор из двух возможностей и неизвестные заранее значения вероятностей поощрения и наказания. Как же ведут себя люди в этой экспериментальной ситуации? В простейших случаях, когда вероятность щелчка при нажатии одной из кнопок была равна единице, а при нажатии второй имелась ненулевая вероятность штрафа, люди быстро постигали ситуацию и нажимали лишь ту кнопку, которая гарантировала им стопроцентную удачу. Однако в более сложных случаях поведение испытуемых не было столь простым, как можно было бы предполагать. Если стационарная среда задавалась, например, вектором Е == (0,2, 0,8), то, вместо того чтобы после некоторого периода обучения нажимать всегда первую кнопку (здесь вероятность щелчка есть 0,8, так как вероятность штрафа для первой кнопки задана равной 0,2), человек нажимал то одну кнопку, то другую. На рис. 2.5 показан фрагмент действий испытуемого. Верхняя цепь кружочков соответствует нажатию первой кнопки, а нижняя — второй кнопки. Зачерненные кружки соответствуют нажатию, при котором испытуемый услышал щелчок, светлые — исходу испытания со штрафом. Как видно из рисунка, испытуемый правильно считает, что надо нажимать на первую кнопку, но время от времени он пробует нажимать и на вторую. Появление штрафа при этом переходе с кнопки на кнопку (с лепестка на лепесток) приводит к возвращению к первой кнопке. Сравнивая поведение людей с функционированием автоматов с линейной тактикой, авторы эксперимента пришли к выводу, что людей можно уподобить таким автоматам с небольшой глубиной памяти (q = 1, 2, 3). Это приводит к тому, что люди решают задачу альтернативного выбора (особенно при близких значениях вероятностей Pi друг к другу) хуже, чем автоматы с линейной тактикой. И, конечно, хуже остальных рассмотренных нами автоматов. Интересно, что И. Б. Мучник и О. Я. Кобринская показали, что крысы в условиях опыта Торндайка действуют с гораздо большей глубиной памяти и превосходят в этом отношении человека. Но в средах с близкими значениями вероятности штрафов за действия пальма первенства остается не за биологическими организмами, а за не знающими эмоций простейшими автоматными устройствами. § 2.5. Как жить в динамическом мире?До сих пор мы рассматривали стационарную среду. Этакий застывший и неизменный мир. Такой мир возможен только в эксперименте. А в жизни любое животное живет в постоянно меняющейся среде. И задача выживания в динамическом мире куда слож-нее, чем адаптация к застывшему навеки стационарному миру. Законы изменения параметров внешней среды могут быть самыми различными. Трудно даже перечислить их виды. Поэтому при описании динамической среды мы поступим следующим образом. Рассмотрим k различных стационарных сред E1, E2, ..., Ek. И будем считать, что каждая такая среда представляет собой как бы мгновенную фотографию состояния динамической среды. Эти фотографии, меняясь, как кадры кинофильма, воссоздадут нам динамическую среду. На рис. 2.6 показано взаимодействие автомата с таким миром. Коммутатор как бы подключает зверушку к той или иной стационарной среде. Как характеристики этих сред, так и законы работы коммутатора автомату заранее неизвестны. Адаптация состоит теперь не только в оценке значений Рi в степени m, где верхний индекс характеризует среду Ет, а и в определении закономерности смены сред коммутатором. В' дальнейшем мы рассмотрим лишь один частный случай работы коммутатора. Связано это с тем, что в теории коллективного поведения именно он оказался изученным наиболее глубоко. Остальные более сложные случаи еще ждут своего анализа. Предположим, что коммутатор производит подключение стационарных сред на основании некоторой таблицы (матрицы), имеющей k строк и k столбцов. Элемент Pij, стоящий на пересечении i-й. строки этой таблицы и ее j-го столбца, есть вероятность того, что после среды Ei, воздействовавшей на вход автомата, к нему будет подключена среда Ej. Элементы вида Рii характеризуют вероятность того, что на следующем шаге автомат будет взаимодействовать с той же средой ei, что и на предшествующем шаге. Подобную динамическую среду можно назвать переключающейся. Если подбирать значения Рij надлежащим образом, то переключающаяся среда может достаточно хорошо описывать многие динамические среды. Что же изменяется при переходе зверушки в переменчивый мир переключающейся среды? Остаются ли верными те основные положения, которые мы смогли постулировать при описании поведения в застывших стационарных мирах? Рассмотрим сначала ситуацию, часто встречающуюся в русских народных сказках. Иванушка-дурачок встречает свадьбу. И он начинает громко причитать и плакать. Такое неадекватное поведение вызывает мгновенную реакцию. Жестоко битый Иванушка через некоторое время встречает похоронную процессию. Помня о своей неудаче, он начинает весело смеяться и плясать. И снова жестокая кара постигает простодушного героя. Он снова бит. Если свадьбы и похороны чередуются в строгом порядке, а Иванушка-дурачок имеет единичную глубину памяти, то, как показывает схема на рис, 2.7, быть ему всегда битому. Ибо действует он в противофазе с работой коммутатора, переключающего среду Ei = (l, 0) на среду Е2 = (0, 1) так, что каждый раз действие Иванушки вызывает сигнал наказания С вероятностью, равной единице. Если бы коммутатор переключал среды не жестко детерминированно, а с некоторыми вероятностями, то на долю Иванушки выпадали бы и счастливые минуты. Он причитал и плакал бы на похоронах, а смеялся и плясал на свадьбах, хотя и в этих условиях ему приходилось бы попадать в глупое положение и быть битому. Первое, что приходит в голову при анализе тяжелой судьбы Иванушки, это то, что он действует, как автомат с малой глубиной памяти. Он не обладает инерционностью, которая была благом для автоматов, действующих в случайных средах. Но правы ли мы были, если бы поторопились с таким заключением? Ведь если в динамическом мире смена ситуаций происходит с большой частотой, то инерционность вряд ли может служить хорошим средством для существования в этом мире. Ведь в динамическом мире надо быстро, оперативно следить за возникающими изменениями среды. И для каждого динамического мира нужна своя наилучшая глубина памяти, выбранная в зависимости от скорости изменения обстановки, а вовсе не по принципу «чем больше, тем лучше». Это означает, что не приходится и мечтать о том, что рассмотренные нами конструкции зверушек будут вести себя целесообразно во всех динамических средах. И эксперименты неумолимо свидетельствуют об этом. На рис. 2.8 можно увидеть результаты одного такого эксперимента. Он проводился с помощью ЭВМ. Испытывались автоматы с линейной тактикой, имеющие различное число состояний в лепестках. Для простоты считалось, что автоматы могут выбирать одно из двух действий. Переключающаяся среда была устроена тоже достаточно просто. Она состояла из двух стационарных сред, отличающихся друг от друга перестановкой вероятностей штрафов за действия (и этим она была похожа на пару сред в сказке об Иванушке-дурачке). В первой среде за первое действие вероятность штрафа была весьма велика, а за второе действие мала. В другой среде эти вероятности относились уже ко второму и первому действиям, т. е. ситуация была обратной. Обозначим через б вероятность смены сред (значения этого параметра надписаны над кривыми, показанными на рис. 2.8). По оси абсцисс отложена глубина памяти автомата, а по оси ординат — математическое ожидание накапливаемого штрафа. Результаты эксперимента ясно показывают, что для каждого значения б существует своя оптимальная глубина памяти автомата с линейной тактикой, при которой накапливаемый штраф минимизируется. Аналогичную картину можно наблюдать и при использовании в переключающейся среде автоматов других конструкций, целесообразно ведущих себя в стационарных случайных средах. Итак, в динамических средах найденные нами конструкции автоматов оказываются не самыми лучшими. И единственный выход из этого положения — использовать какую-нибудь гибкую конструкцию, которая изменяется вместе с тем миром, где она функционирует. Ученики и продолжатели дела М. Л. Цетлина предложили несколько конструкций зверушек, способных целесообразно функционировать в динамических средах. Самой известной из них является предложенная одним из авторов этой книги модель автомата с переменной структурой. Предположим, что вы на своей автомашине ежедневно добираетесь из дома на работу. В вашем распоряжении есть два возможных маршрута, и вы вольны выбирать любой из них. Так как вы всегда выезжаете в одно и тоже время, то обстановка на каждом из маршрутов как бы стационарна. И, анализируя эту обстановку, вы убедились, что один из маршрутов лучше другого: времени тратится меньше — движение здесь менее интенсивное, чем по другому маршруту, да и светофоров не так много. Но вот беда. Время от времени из-за каких-то строительных работ движение здесь резко снижается, образуются пробки, и можно потерять много времени, пока они ликвидируются. В этих условиях данный маршрут становится намного хуже другого. Вы бы потеряли куда меньше времени и не опоздали бы на работу, выбрав в эти неудачные дни другой маршрут. Если нет никакой информации о частоте строительных работ на трассе первого маршрута, то при выезде из дома нет никаких шансов угадать, по какому маршруту лучше сегодня ехать. Однако день за днем вы накапливаете некоторую информацию. Учитесь на своем горьком опыте. Выясняется, что чаще всего пробки образуются в среду и пятницу и вероятность этих пробок достаточно велика. Тогда, выбирая в остальные дни недели первый маршрут, вы в среду и пятницу без колебаний выбираете менее хороший маршрут поездки. Этот пример мы привели для того, чтобы у читателя возникли необходимые ассоциации с поведением автомата с переменной структурой в переключающейся среде. Опишем теперь его структуру и функционирование на более строгом уровне. Вернемся снова к автомату с линейной тактикой показанному на рис. 2.3. Его структура может был задана в виде двух матриц, определяющих смену состояний при получении сигнала нештраф и при получении сигнала штраф. Каждая такая матрица содержит 12 строк и 12 столбцов по числу различных состояний автомата. И в каждой строке этих матриц имеется одна единица, показывающая, как осуществляется переход. Выписывание этих матриц слишком громоздко. Поэтому вместо автомата с четырьмя состояниями в каждом лепестке и тремя действиями рассмотрим автомат с линейной тактикой с двумя состояниями в лепестке и двумя действиями (рис. 2.9) Для такого автомата матрицы имеют видЭти матрицы определяют детерминированную структуру нашего автомата. Если автомат вероятностный (как, например, упоминавшийся нами автомат В. И. Крылова), то вместо единиц и нулей в матрицах П+ и П- будут стоять значения вероятностей смены состояний. Если, например, автомат с линейной тактикой, показанный на рис. 2.9, заменить автоматом В. И. Крылова, то соответствующие матрицы примут вид
В отличие от детерминированного и вероятностного автоматов, у которых матрицы П+ и П- в процессе их функционирования остаются неизменными, для автомата с переменной структурой П+ и П- не постоянны. В зависимости от результатов функционирования (наказаний или поощрений, получаемых от среды) автомат меняет свою структуру. В начальном периоде своей работы такой автомат находится в «безразличном» состоянии, когда вероятности всех переходов между состояниями для него абсолютно одинаковы. Для условий, показанных на рис. 2.9, это соответствует тому, что начальный вид матриц смены состояний для автомата с переменной структурой задается следующим образом:Пусть для определенности начальным состоянием автомата было состояние с номером 1 и автомат, выполнив действие d1, соответствующее этому состоянию (см. рис. 2.9), с помощью равновероятного выбора по матрице П+ перешел в состояние 4. И пусть после этого он получил сигнал штраф. Получение подобного сигнала заставляет автомат считать свой переход 1-->4 при нештрафе за действие d1 ошибкой. Эта информация фиксируется следующим образом. Вероятность П14+ уменьшается на некоторую величину А. Но сумма вероятностей в любой строке матрицы должна быть равна 1, и поэтому уменьшение П14+ на Дельту должно привести к увеличению всех остальных вероятностей в этой строке, например, на величину Дельта/3, что позволит сохранить нормировку строк. Если взять Дельта== 0,03, то после этого шага матрица П- останется прежней, а матрица П+ примет вид На очередном шаге автомат делает действие d2, соответствующее состоянию 4, и выбирает очередное состояние на основании матрицы П- (так как в текущем акте общения со средой он находится в условиях последнего сигнала от среды—штрафа). Пусть он выбрал переход 4—>4 и вновь получил штраф. Теперь уже меняется матрица П-, а матрица П+ остается неизменной. В матрице же П- четвертая строка приобретает вид (0,26 0,26 0,26 0,22). На очередном шаге взаимодействия автомат опять использует вероятностный переход по матрице П-, и в зависимости от оценочного сигнала меняются значения вероятностей в четвертой строке матрицы и совершается очередной выбор либо по матрице П- (если последний пришедший оценочный сигнал был наказанием), либо по матрице П+. Так постепенно происходит перестройка матриц П+ и П- в зависимости от сигналов, формируемых средой. Возникает вопрос: будут ли эти матрицы стремиться к какому-нибудь устойчивому значению, например к матрицам из нулей и единиц, соответствующих автомату с линейной тактикой, или какому-либо другому автомату, целесообразно ведущему себя в стационарных случайных средах? Если бы ответ был положительным, то это означало бы, что из механизма случайного выбора мы могли бы. формировать структуру зверушки, целесообразно функционирующей в статических случайных средах. Конечно, тот или иной ответ на поставленный нами вопрос зависит от тех законов изменения элементов в П+ и П-, которые мы будем использовать. Что же показали проведенные исследования? Оказалось, что линейные законы изменения переходных вероятностей Пij в матрицах П+ и П-, описанных выше, не всегда приводят к оптимальным конструкциям, подобным автоматам В. И. Кринского или Г. Роббинса. Но если ввести нелинейное изменение элементов указанных матриц, то исходные «размазанные» матрицы с одинаковыми значениями Пij сходятся к матрицам из нулей и единиц, соответствующих автоматам, наилучшим образом ведущих себя в стационарных случайных средах. Но не это главное. В стационарных случайных средах нет нужды тратить время на обучение автомата с переменной структурой, ибо заранее известны конструкции, успешно решающие в этих средах поведенческие задачи. Главное — поведение в динамических и, в частности, в переключающихся средах. Что дает использование автоматов с переменной структурой здесь? Вернемся к рис. 2.8. Как мы уже знаем, для авто--матов с линейной тактикой существует оптимальное значение глубины памяти, зависящее от скорости переключения стационарных сред, при котором суммарный штраф, накапливаемый автоматом, становится минимальным. Но глубина памяти тесно связана с вероятностью пребывания автомата на том или ином лепестке и, следовательно, с вероятностью выполнения того или иного действия. Для автоматов с переменной структурой экспериментально (путем моделирования перестройки их структуры на ЭВМ) получен следующий фундаментальный результат: с течением времени функционирование автомата с переменной структурой в переключающихся средах, в которых автомат с линейной тактикой действует целесообразно, неограниченно приближается к функционированию автомата с линейной тактикой, обладающему оптимальной глубиной памяти. Другими словами, автомат с переменной структурой сам находит эту оптимальную глубину памяти. Это весьма важно, так как значение qопт, показанное на рис. 2.8, нельзя априорно определять аналитическим путем, а оно должно подбираться в процессе функционирования в среде, на что автомат с линейной тактикой просто неспособен. И еще одно. Вспомним наш пример с Иванушкой-дурачком. Нетрудно подобрать многочисленные примеры переключающихся сред, в которых эффект непрерывного битья все время будет преследовать автомат с линейной тактикой. Только он подстроится под определенную среду, как среда уже изменилась, и битье продолжается. Для этого достаточно условия, что среда переключается быстрее, чем автомат покидает свой лепесток и переходит на другой. Если бы заяц менял окраску шкурки в противофазе со сменой зимы и лета, затрачивая на это время, соизмеримое с полугодом, то он давно бы исчез с лица земли. Для автомата с переменной структурой подобного положения не существует. Как было сказано в одной из первых работ по таким автоматам, «миниальный штраф выплачивается в том случае, когда за вчерашние грехи сегодня награждают и в том случае, когда грехи остаются грехами». В заключение этого параграфа приведем результат одного эксперимента с автоматом с переменной структурой, имеющим восемь состояний и моделирующим поведение в среде, в которой автомат с линейной тактикой имел бы оптимальную глубину памяти, равную двум. Этот результат приведен на рис. 2.10. По оси абсцисс на этом рисунке отложено число тактов взаимодействия автомата со средой, а по оси ординат — средняя величина штрафа в расчете на одно взаимодействие. Горизонтальная пунктирная прямая соответствует значению математического ожидания штрафа для автомата с линейной тактикой с глубиной памяти, равной двум. Как мы видим, автоматы с переменной структурой на начальном этапе весьма быстро приближаются к наилучшему режиму работы автомата с линейной тактикой, а потом неуклонно асимптотически стремятся к этому оптимуму. Такая явная связь между автоматами с линейной тактикой и с переменной структурой наводит на мысль о естественности этих конструкций, об их «эволюционной» связи. И еще одно интересное наблюдение. Автомат с переменной структурой все время стремится уйти от штрафа, уйти в область благоприятных для себя действий. Это значит, что он чаще получает поощрения, а не наказания (если только среда не устроена так, что наказания в ней имеют значительно большую вероятность, чем поощрения). А это в свою очередь означает, что матрица П+ изменяется сильнее, чем П-. Автомат как бы настраивается на хорошее функционирование в благоприятных мирах. К функционированию в таких условиях он лучше адаптирован. Поведение автоматов в стационарных средах мы сравнивали с результатами экспериментов по альтернативному выбору решений людьми. Аналогичные эксперименты были проведены теми же авторами (М. А. Алексеев, М. С. Залкинд, В. М. Кушнарев) и в случае переключающихся сред. В процессе эксперимента по нажатию кнопок без ведома испытуемого происходило переключение среды. Если в предшествующий период (75—100 нажатий кнопок) имела место среда с E1==(0,8, 0,2), то на следующий период нажатий она сменялась на среду с Е2==(0,2, 0,8). Каков же результат этого эксперимента? Вывод, к которому пришли экспериментаторы, оказался парадоксальным. Человек в среднем лучше решает задачу адаптации к переключающейся среде, чем задачу для стационарной среды. Вернемся снова к рис. 2.5. При решении задачи в случае стационарной среды человек время от времени отказывается от хорошего выбора и как бы пробует, что получится, если сменить стратегию. И это характерно для любого испытуемого. Что кроется за этим феноменом? Наиболее ярко он проявляется, когда предпочтительность того или иного выбора близка к предельной. При близких вероятностях штрафа за выбор кнопки уходы с предпочтительной стратегии более редки. А чем яснее и проще решение, тем менее устойчиво поступает человек. Какая особенность его психики скрывается за этим? Почему в стационарной среде с Е = (0,8, 0,2) процент поощрений равен 62%, а в переключающейся среде, где E2 =(0,2, 0,8), он равен 72%? И это только на 1% ниже того, что достигает в данной динамической среде автомат с линейной тактикой с оптимальной глубиной памяти. Ответов на поставленные вопросы пока нет. Это еще один аргумент в пользу того, что поведение человека зачастую не только не оптимально, но и нецелесообразно. В сложном мире от зверушки до человека огромная качественная дистанция. § 2.6. «Доживем до понедельника»Так назывался известный фильм из школьной жизни. Но то, о чем мы хотим поговорить здесь, ничем кроме названия не ассоциируется с этим давним фильмом. У нас речь пойдет о возможности организации зверушкой такого управления внешней средой или приспособления к ней, которое обеспечивает ей максимальный срок «жизни». Однако прежде нам нужно дать содержательную постановку задачи, а уже затем ее формальное описание. Биологами хорошо исследована модель охоты летучих мышей, в частности, охота на ночных бабочек, способных воспринимать локационный ультразвуковой сигнал летучих мышей. Экспериментальный материал, относящийся к этой ситуации, можно суммировать следующим образом. Летучая мышь испускает с помощью своего голосового аппарата направленный ультразвуковой сигнал. Встретив препятствие, сигнал отражается от него. Летучая мышь способна улавливать отраженный сигнал и с большой скоростью и точностью различать и идентифицировать его, что позволяет отличать неподвижные цели от подвижных, отражения от поверхности земли от отражений от воздушных целей, большие размеры от малых (например, отраженные сигналы от летящих птиц и комаров). Кроме того, отраженный сигнал позволяет летучей мыши с весьма большой точностью определять направления и расстояния до потенциальных целей. Ночные бабочки в свою очередь способны принять локационный сигнал летучей мыши, определить местоположение источника, из которого был послан сигнал, а также определить интенсивность последнего. Поведение ночной бабочки различно в зависимости от того, как далеко от нее находится летучая мышь и сколь интенсивен сигнал. Если расстояние достаточно велико или интенсивность мала, то ночная бабочка производит маневр, направленный на уход от летучей мыши. В экспериментальных ситуациях наблюдалось три способа выполнения такого маневра. Либо бабочка разворачивалась и двигалась в сторону, противоположную своему предшествующему движению, либо она использовала маневр в вертикальной плоскости, уходя со своего прежнего курса вверх или вниз. Если же расстояние до летучей мыши было мало или интенсивность локационного сигнала была очень велика, то ночная бабочка переходила на хаотический полет. Это происходит потому, что органы слуха бабочки в таких условиях начинают работать в режиме насыщения, и бабочка уже не может определить положение летучей мыши и направление ее движения. Хаотический полет состоит из чередования пассивного падения со сложенными крыльями, крутых поворотов, петель, пикирования. Другими словами, бабочки переходили на такую траекторию полета, которая максимально затрудняла для нападающего предсказание последующей точки на этой траектории. Интересно, что, как показывают эксперименты, более чем в 70% случаев хаотическое движение оказывалось для ночных бабочек спасительным. Попробуем формализовать описанную ситуацию, несколько упростив ее. Это упрощение не является принципиальным. На основе той упрощенной модели, которую мы опишем, ряд исследователей построил совсем не игрушечные модели «преследуемый — преследователь», в том числе и для моделирования поведения ночной бабочки, спасающейся от летучей мыши. Посмотрим на рис. 2.11. На нем изображен граф смены состояний некоторого вероятностного автомата. Его особенность состоит в том, что для каждой группы состояний (на рисунке группы состояний оконтурены пунктирными линиями) имеется ненулевая вероятность перейти в особое состояние, в котором автомат погибает (на рисунке оно заштриховано). Состояния можно интерпретировать, например, следующим образом: 1 — летучая мышь производит поиск и с вероятностью 0,3 обнаруживает бабочку, а с вероятностью 0,7 пропускает ее (для первой группы состояний); 2—летучая мышь определяет направление своего движения и расстояние до жертвы, причем с вероятностью 0,8 цель при этом не теряется; 3 — летучая мышь настигает бабочку и уничтожает ее с вероятностью 0,95. Что же может противопоставить преследователю бабочка? В чем заключаются ее действия? Будем рассматривать каждую группу состояний автомата как определенную среду, задаваемую той стратегией бабочки, которой она придерживается. Трем группам состояний, показанных на рис. 2.11, можно, например, соотнести следующие стратегии: прямой полет (E1), пикирование или кабрирование (E2) и хаотическое движение (Ез). Действия бабочки сводятся к смене сред, переключению их. При этом бабочка может реализовать действие лишь в состояниях 2 и 3. На рис. 2.11 эти действия показаны двойными стрелками переходов. В остальных состояниях бабочка выдает в среду нейтральный сигнал (другими словами, не меняет своих действий). После ухода от летучей мыши бабочка опять возвращается к движению по горизонтальной траектории, обеспечивающей ей возможность выполнения ее жизненного назначения — продолжения потомства. Эти переходы — действия на рисунке не показаны, чтобы не загромождать картину погони, которую мы анализируем. В примере с ночной бабочкой и летучей мышью картина весьма прозрачна. Действия по переключению сред, показанные на рис. 2.11, позволяют бабочке максимально увеличить вероятность своего спасения. Однако в общем случае выбор оптимальной последовательности переключении, максимизирующей время жизни автомата, далеко не тривиален. Пусть, например, как и в нашем примере, имеется три случайных среды, которые автомат может переключать своими действиями. И пусть имеется три обычных состояния и три поглощающих (летальных), в которых автомат погибает. Первые три мы, как и ранее, будем обозначать цифрами 1, 2, 3, а поглощающие состояния — цифрами 4, 5, 6. Вместо рисунка, подобного рис. 2.11, зададим три матрицы переходов автомата в трех возможных средах (табл 2.1)
Таблица 2.1
Здесь М* — время жизни автомата с начальным состоянием j при оптимальном переключении им сред, d(i) — значение функции выхода автомата для состояния с номером i, т. е. номер той среды, на которую автомат переключает в этом состоянии текущую среду, Пиij(d(i)) — переходные вероятности смены состояний в среде с номером d(i). Очевидно, что оптимальное переключение d*(i) будет достигнуто тогда, когда будет получен maxМj для всех j (или max min Mj). Мы не рассчитываем на то, что читатель будет в состоянии выдержать аналитические выкладки, лежащие в основе процедуры построения оптимального переключения. Отметим только, что такая процедура существует. И строго показано, что она позволяет автомату вероятностного типа осуществлять поиск оптимального способа переключения сред. Для подготовленного читателя укажем лишь на то, что, по сути своей, эта процедура есть модификация схемы динамического программирования Беллмана. Для нашего примера оптимальное переключение задается следующей функцией выхода: d{1)=3, d(2)==3, d(3)=2. При этом M3*= 15,47; М2*=15,23; M1*=13,92. Общее время жизни автомата, выполняющего переключение сред, в полтора раза больше времени его жизни в пассивном режиме. А, значит, ночная бабочка совсем не зря тратит усилия на смену стратегии своего полета. § 2.7. От индивида к коллективуИтак, мы познакомились с конструкциями зверушек, способных взаимодействовать с довольно сложно организованными средами. Правда, модели, которые мы обсудили, чрезвычайно упрощенно описывали это взаимодействие. Весьма бедным был ассортимент оценочных сигналов за действия, скудна информация, используемая для адаптации, примитивны средства организации взаимодействия со средой. Но к такому обеднению мы прибегли сознательно. Ибо нашей целью было показать, что, даже в условиях почти полного отсутствия информации о структуре поведения и о структуре среды, автономные подсистемы могут достигать поставленных перед ними целей. В последующих разделах книги мы время от времени будем «обогащать» зверушек, наделяя их более широкими возможностями, чем в данной главе. Однако основная Ваша цель—не исследование способностей подобных устройств и эволюции их развития, а изучение поведения коллектива из таких устройств. Нас будут интересовать проблемы взаимодействия зверушек между собой, организация их в сообщество, способное достигать общих целей, согласование личных целей участника сообщества с целью всего коллектива, распределение функций и ресурсов между совместно функционирующими участниками общего дела. Прежде чем перейти к решению этих проблем, остановимся на той концептуальной схеме, которая будет лежать в основе всех наших дальнейших рассуждений. Читатель легко соотнесет ее с моделями, которые обсуждались нами в гл. 1 нашей книги. Эта модель изображена на рис. 2.12. Коллектив из k автоматов взаимодействует со средой. Каждый из них делает это самостоятельно, не зная не только о действиях других членов коллектива, но и об их существовании. Для каждого автомата остальные участники коллектива как бы растворяются в среде, выступают по отношению к данному автомату как часть среды. Если в некотором такте взаимодействия автоматы зафиксировали свои действия, то среда воспринимает их как комбинированное воздействие, описываемое набором (di11, di22, ..., dikk), где верхний индекс указывает номер автомата в коллективе, а нижний — выбранное им действие. Среда может формировать оценочные сигналы на автомат либо на основании действий некоторой части или всех автоматов, либо на основании действий только данного автомата. Во втором случае коллектив разваливается и вся задача коллективного поведения сводится к рассмотрению k независимых друг от друга задач индивидуального поведения. Этот крайний случай не представляет интереса, и в дальнейшем мы его исследовать не будем. В первом же случае среда может как-то регулировать совместное воздействие автоматов и он представляет для нас принципиальный интерес. Иногда мы будем рассматривать модели коллективного поведения, в которых, помимо среды, автоматы непосредственно общаются между собой. На рис. 2.12 эта возможность отражена в наличии некоторых специальных механизмов непосредственного обмена между автоматами, образующими коллектив. И, наконец, вполне правомерно рассматривать все k автоматов и механизм непосредственного обмена (если он существует) как подсистемы некоторого организма, взаимодействующего со средой. Такая трактовка в ряде конкретных моделей будет нами использована в последующих главах книги. Авторы чувствуют, что у читателя готовы сорваться с языка веские возражения против предлагаемой концептуальной модели взаимодействия в коллективе. Ограничение на общение между участниками коллектива кажется весьма надуманным и резко снижающим эффективность функционирования всей системы. Но мы еще раз подчеркиваем принципиальность этой схемы в рамках тех моделей, которым посвящена данная книга. В условиях невозможности полного обмена информацией о действиях, отсутствия центрального управляющего органа и резкого ограничения на время принятия решений по выбору действий предлагаемая модель все-таки оказывается, как будет видно из дальнейшего, вполне работоспособной. Глава 3 СОГЛАСОВАННОСТЬ БЕЗ ДОГОВОРЕННОСТИ"В действительности все выглядит иначе, чем на самом деле". Станислав Ежи. Лец
§ 3.1. История начиналась в Арбатове«И вот, наконец, ранней весной 1928 года почти все известные дети лейтенанта Шмидта собрались в московском трактире, у Сухаревой башни. Кворум был велик — у лейтенанта Шмидта оказалось тридцать сыновей в возрасте от восемнадцати до пятидесяти двух лет и четыре дочки, глупые, немолодые и некрасивые. В краткой вступительной речи Балаганов выразил надежду, что братья найдут общий язык и выработают, наконец, конвенцию, необходимость которой диктует сама жизнь. По проекту Балаганова весь Союз Республик следовало разбить на тридцать четыре эксплуатационных участка, по числу собравшихся. Каждый участок передается в долгосрочное пользование одного дитяти. Никто из членов корпорации не имеет права переходить границы и вторгаться на чужую Территорию с целью заработка. Против новых принципов работы никто не возражал, если не считать Паниковского, который уже тогда заявил, что проживет и без конвенции. Зато при разделе страны разыгрались безобразные сцены. Высокие договаривающиеся стороны переругались в первую же минуту и уже не обращались друг к другу иначе как с добавлением бранных эпитетов. Весь спор произошел из-за дележа участков. Никто не хотел брать университетских центров. Никому не нужны были видавшие виды Москва, Ленинград и Харьков. Очень плохой репутацией пользовались также далекие, погруженные в пески восточные области. Их обвиняли в невежестве и незнакомстве с личностью лейтенанта Шмидта. — Нашли дураков!— визгливо кричал Паниковский.— Вы мне дайте Среднерусскую возвышенность, тогда я подпишу конвенцию. — Как? Всю возвышенность? — заявил Балаганов.— А не дать ли тебе еще Мелитополь впридачу? Или Бобруйск? При слове «Бобруйск» собрание болезненно застонало. Все соглашались ехать в Бобруйск хоть сейчас. Бобруйск считался прекрасным высококультурным местом. — Ну, не всю возвышенность,— настаивал жадный Паниковский,—хотя бы половину. Я, наконец, семейный человек, у меня две семьи. Но ему не дали и половины. После долгих криков было решено делить участки по жребию. Были нарезаны тридцать четыре бумажки, и на каждую из них нанесено географическое название. Плодородный Курск и сомнительный Херсон, мало разработанный Минусинск и почти безнадежный Ашхабад, Киев, Петрозаводск и Чита — все республики, все области лежали в чьей-то заячьей шапке с наушниками и ждали хозяев. Веселые возгласы, глухие стоны и ругательства сопровождали жеребьевку. Злая звезда Паниковского оказала свое влияние на исход дела. Ему досталось Поволжье. Он присоединился к конвенции вне себя от злости. —Я поеду,—кричал он,—но предупреждаю: если плохо ко мне отнесутся, я конвенцию нарушу, я перейду границу! Балаганов, которому достался золотой арбатовский участок, встревожился и тогда же заявил, что нарушения эксплуатационных норм не потерпит. Так или иначе, дело было упорядочено, после чего тридцать сыновей и четыре дочери лейтенанта Шмидта выехали в свои районы на работу». Каждый, читавший книгу «Золотой теленок» Ильфа и Петрова, помнит, что Паниковский все-таки нарушил конвенцию. Почему это произошло? И могло ли быть иначе? Может быть, Шура Балаганов напрасно работал всю зиму над созывом конференции, напрасно переписывался со знакомыми конкурентами и передавал незнакомым приглашения через внуков Маркса, может быть беда детей лейтенанта Шмидта заключалась в том, что Шура Балаганов не был знаком с теорией коллективного поведения? Попытаемся формализовать ситуацию, которую мы будем интерпретировать, как игру К лиц. Участники игры алчны и эгоистичны — их поведение определяется только стремлением к личной наживе. Каждый участник в своем поведении обладает набором альтернатив, которые мы будем называть стратегиями — он может произвольно выбрать себе участок, на котором будет промышлять в качестве сына лейтенанта Шмидта. Число альтернатив (стратегий, участков) может быть больше числа участников игры (детей лейтенанта Шмидта). Как мы уже видели, в приведенном отрывке из «Золотого теленка» участки неравноценны. Каждый участок характеризуется некоторым числом, которое мы будем называть мощностью этой стратегии. В первой, простейшей модели мы будем предполагать, что мощность стратегии, т. е. доход, который может быть извлечем из участка в течение некоторого, заранее фиксированного времени, не зависит от числа промышляющих на нем детей лейтенанта Шмидта и делится между ними поровну. Что означает указанное предположение? Оно означает, что если, например, один сын лейтенанта Шмидта за месяц может извлечь из участка 100 рублей, то двое детей извлекут из этого участка по 50 рублей каждый. Вообще говоря, такое предположение не всегда оправдано — более естественно предположение о том, что общий доход с эксплуатируемого участка возрастает с ростом числа участников эксплуатации, однако, доля, приходящаяся на каждого, уменьшается с ростом числа участников. Например, когда вы собираете в лесу грибы, то для вас очевидно, что чем больше пароду будет в облюбованном вами месте, тем меньше грибов вы принесете домой. С другой стороны, общее число грибов, которое будет собрано, безусловно превысит то количество, которое вы могли бы собрать в одиночку. В некоторых случаях достигаемый эффект зависит от числа участников более сложным образом. На-пример, при охоте на лося или кабана размер охотничьего трофея, приходящийся на одного охотника, с ростом числа людей участвующих в охоте, сначала растет — очень велика вероятность того, что в одиночку вы вообще ничего не добудете,— и лишь затем начинает резко падать. Начнем, однако, для простоты с первого предположения. Рассмотрим пример. Пусть имеется 10 игроков и число стратегий (участков) достаточно велико, т. е. превышает число игроков. Пусть мощность первого участка 100 руб. в месяц, а всех остальных участков—по 40 руб. в месяц. Допустим, что двое самых проворных игроков захватят первый участок и будут получать по 50 руб. в месяц, тогда как остальные восемь, распределившись по одному на остальных участках, будут получать по 40 руб. в месяц. В этой ситуации никому невыгодно менять свой участок. Действительно. Мы отбрасываем, как совершенно неразумное, желание прийти вторым на участок с доходом в 40 руб., так как имеется достаточно свободных участков такой мощности. Перейти с участка с доходом в 40 руб. на участок с доходом в 100 руб. также невыгодно, так как там уже есть два человека и, совершив такой переход, игрок снижает свой доход с 40 руб. до 33'/з рубля. Переход с участка с доходом в 100 руб., где участник получает 50 руб., на участок с доходом в 40 руб., также невыгоден. Таким образом, в нашем примере, когда на «богатом» участке функционируют два человека, а остальные участники игры расположены по одному на более «бедных» участках, возникает устойчивая ситуация — никому из участников игры невыгодно в одиночку изменять участок. Такая ситуация, в которой ни одному из участников игры невыгодно одному изменять свою стратегию, в теории игр называется ситуацией равновесия по Нэшу. Для обозначения ситуации равновесия по Нэшу мы будем использовать термин — точка Нэша. Здесь уместно заметить, что с точки зрения внешнего наблюдателя абсолютно безразлично, какие два игрока захватят богатый участок (хотя, как нетрудно понять, это совсем не безразлично для самих участников). Все ситуации, в которых два человека разрабатывают богатый участок, а остальные по одному распределились на более бедных, являются точками Нэша. Точек Наша в игре может быть мно-го. Действительно, пусть в нашем примере имеются один богатый и двенадцать бедных участков. Тогда существует 45 различных пар участников, которые могут захватить богатый участок, 495 различных способов выбора восьми бедных участков и 40320 способов, которыми восемь участников могут распределиться по этим участкам. Если все эти числа перемножить, то получится число эквивалентных точек Нэша в данной игре, равное 898 128 000. Все они характеризуются одним и тем же суммарным доходом и одним и тем же средним доходом, приходящимся на одного участника. Последнее число будем называть ценой точки (или партии) Нэша. Обратим внимание на следующее обстоятельство: хотя никому из участников невыгодно в одиночку изменять свою стратегию, доход, получаемый всеми участниками, и цена партии не являются максимально возможными в этой игре, т. е. их можно увеличить. В точке Нэша. суммарный доход равен 100 руб. + 8*40 руб.= 420 руб. и цена партии Нэша равна 42 руб. Если же на самом богатом участке разрешить находиться только одному участнику, то доход всех участников возрастет на 40 руб. и средний доход каждого участника возрастет до 46 руб. в месяц. Теперь обратим внимание на возникающие здесь возможности. В точке Нэша двое участников получают по 50 руб., а остальные по 40 руб. Однако если бы игроки могли договориться, то у двоих доход уменьшился бы на 4 руб. в месяц, зато у восьмерых он возрос бы на 6 руб. в месяц у каждого. Именно в этом месте необходима конвенция. Но мы уже видели, что способ, предложенный Балагановым — случайным образом распределить детей лейтенанта Шмидта по участкам, не гарантирует устойчивости, а устойчивое распределение приводит к потерям. Какие же существуют возможности договориться? Ограничимся вначале двумя участниками — Балагановым и Паниковским. Балаганову достался участок с доходом 100 руб. в месяц, а Паниковскому — с доходом 40 руб. в месяц. В случае нарушения Паниковским конвенции и его появления в Арбатове доход Балаганова уменьшается до 50 руб. и до той же суммы возрастает доход Паниковского, и нет такой силы, которая могла бы удержать Паниковского в Поволжье. Ситуация, в которой и Паниковский и Балаганов занимаются попрошайничеством и вымогательством в Арбатове, устойчива — ни одному из них невыгодно перебраться в Поволжье. А между тем, договорившись, они могут существенно повысить свой доход, а путей договориться по меньшей мере три. Во-первых, Балаганов может платить Паниковскому 10 руб. отступного (получая тогда 90 руб), чтобы Паниковский продолжал грабить доверчивых администраторов и общественников Поволжья. Однако наглый и вздорный Паниковский вряд ли, даже зная, что без договоренности ему больше не получить, ограничится такой суммой. Во-вторых, Балаганов и Паниковский могут договориться и периодически меняться участками, что принесет им в среднем по 70 руб. в месяц. Однако естественное недоверие Балаганова к Паниковскому делают мало пригодным и этот способ. В-третьих, Паниковский и Балаганов могли бы просто делить все получаемые деньги поровну — такой способ мы будем называть общей кассой. Общая касса, равно как и предыдущий способ, требует определенного уровня доверия участников друг к другу. Кроме того, организация общей кассы может сама по себе потребовать дополнительных расходов; однако, как бы обременительны они не были, нетрудно видеть, что в случае игры с общей кассой ситуация с максимальным суммарным выигрышем устойчива по Нэшу. Все сказанное, естественно, распространяется и на случай с любым числом участников. Таким образом, мы рассмотрели условия некой игры, которую далее будем называть игрой в размещения, и на примере рассмотрели возникающие в ней устойчивые ситуации. Обстоятельства, моделируемые этой игрой, могут быть весьма разнообразными. Нас же в этой задаче будет интересовать зависимость дохода участников игры от их поведения, т. е. от смены стратегии в зависимости от величины текущего дохода. Для изучения зависимости доходов участников игры от их поведения необходимо формализовать это поведение, т. е. построить модель игрока. Что мы будем понимать под моделью? Понятие модели достаточно широко и неопределенно. Моделью Паниковского, выбрасываемого из кабинета арбатовского предисполкома, может служить мешок с опилками, модель же Паниковского, принимающего решение нарушить конвенцию, требует более развитых изобразительных средств. Как мы уже говорили выше, наши игроки стремятся лишь к личному обогащению. Единственным критерием, определяющим для них предпочтительность той или иной стратегии, является доход, и, следовательно, модель такого игрока должна быть моделью устройства, оптимизирующего свой выигрыш на дискретном множестве действий. Здесь уместно вспомнить об автоматах, обладающих целесообразным поведением в случайных средах. Подобные автоматы как раз и являются устройствами, выбирающими свои действия так, чтобы увеличивать свой выигрыш. Но для того чтобы ввести в нашу игру такие автоматы, мы должны несколько изменить условия самой игры. Действительно, наши игроки получают в зависимости от выбранной стратегии тот или иной доход (или убыток), а автоматы получают на выбранной стратегии всегда одинаковый выигрыш или проигрыш, но с различными вероятностями. Подобное изменение правил игры не связано с принципиальными затруднениями, а в случае с детьми лейтенанта Шмидта быть может даже более желательно — нахальные отпрыски легендарного героя просят всегда по максимуму, но в зависимости от эксплуатируемого участка их просьбы удовлетворяются с различной вероятностью. Бывают случаи, когда результатом являются потери, причем не только моральные, но и материальные. Мощность стратегии будет характеризовать средний выигрыш на этой стратегии при фиксированном значении единичной платы (выигрыша или проигрыша). Так, например, если в 75 % случаев на данной стратегии игрок получает 200 руб., а в 25 % случаев он выплачивает ту же сумму, то его средний выигрыш на этой стратегии равен 100 руб. Средний выигрыш, равный 40 руб., обеспечивается 60 % выигрыша и 40 % проигрыша тех же 200 руб. Нетрудно понять, что для каждой игры, заданной мощностями стратегий в абсолютных выигрышах и проигрышах, можно построить эквивалентную игру, где выигрыши и проигрыши имеют фиксированное значение, но каждый раз определяются с вероятностью, зависящей от выбранной стратегии. Таким образом, мы далее будем рассматривать игры со случайными единичными выигрышами и проигрышами, в которых в качестве игроков выступают автоматы, обладающие целесообразным поведением в случайных средах. Тем самым, вместо исходной ситуации мы имеем ее формальную модель, в которой можно изменять параметры: характеристики стратегий и характеристики игроков, и в зависимости от значений указанных параметров изучать протекание игры. Игра состоит в последовательном разыгрывании партий. При описании автоматов, обладающих целесообразным поведением в случайных средах, мы ввели их характеристику—глубину памяти. Глубина памяти автомата характеризует, с одной стороны, его конструктивную сложность, а с другой, его способность к усреднению. Она проявляется в длительности времени, за которое автомат способен учитывать свои выигрыши и проигрыши. Мы можем считать, что в нашей модели глубина памяти автоматов есть некоторая характеристика способностей игроков к оценке текущей обстановки, так сказать, их интеллектуального уровня. Как же зависят результаты игры от интеллектуальных возможностей участвующих в ней игроков? Здесь уместно еще раз заметить, что понятие интеллектуального уровня весьма условно и относится только к способности усреднять свои выигрыши и проигрыши. Игроки располагают примитивной информацией об игре. Они не знают ни числа остальных участников игры, ни сложившейся в игре ситуации, ни даже того, в какую игру они играют. Ничего, кроме собственных выигрышей и проигрышей, на основании которых игроки (автоматы) выбирают свои стратегии. Но именно этот примитивизм позволяет изучать возникающие в игре эффекты в чистом виде. Поскольку для внешнего наблюдателя все игроки одинаковы, а при случайных выигрышах и проигрышах автоматы, вообще говоря будут некоторым случайным образом блуждать по стратегиям, то мы будем характеризовать результаты игры математическим ожиданием среднего выигрыша автомата в игре, что эквивалентно математическому ожиданию суммарного выигрыша всех автоматов в игре. Анализ поведения целесообразных автоматов в этой игре показывает, что с ростом глубины памяти, т. е. с ростом целесообразности поведения такого автомата в стационарной случайной среде, растет целесообразность его поведения в игре. Последнее означает, что с ростом глубины памяти растет и средний выигрыш автоматов в игре, стремясь к цене партии Нэша так, как показано на рис. 3.1. Как мы уже говорили, средний выигрыш в партии Нэша отличен от максимально возможного в игре. Мы также видели, что введение процедуры общей кассы делает партию максимальной цены устойчивой по Нэшу. Устойчивая по Нэшу партия максимальной цены называется точкой Мора или партией Мора. На рис. 3.2 приведена зависимость среднего выигрыша автоматов от глубины их памяти в игре с общей кассой. Внешне эта зависимость мало чем отличается от зависимости в игре без общей кассы. Действительно, и в том, и в другом случаях с ростом глубины памяти средний выигрыш возрастает и стремится к цене партии Нэша. Разница заключается в том, что во втором случае цена партии Нэша выше и называется ценой партии Мора. Какой же полезный вывод можно сделать из приведенных рисунков? Какую интересную и полезную информацию можно извлечь из модели? На первый взгляд, очень небольшую. Мы увидели, что для достижения точки Нэша необходимо обладать достаточно большой глубиной памяти. В противном случае игроки будут мешать друг другу, снижая тем самым средний выигрыш. Но даже при достаточной глубине памяти для достижения максимального выигрыша необходимо прибегнуть к процедуре общей кассы, т. е. достичь соглашения. Постараемся, однако, более внимательно изучить результаты моделирования и совместим рис. 3.1 и рис. 3.2. При этом (рис. 3.3), сразу же обращает на себя внимание следующий факт: процедура общей кассы становится выгодной, лишь начиная с некоторого уровня сложности (!). Выигрыш автоматов в игре с общей кассой при глубине памяти ниже критической меньше, чем в игре без общей кассы. М. Л. Цетлин называл этот эффект «вредом уравниловки при низкой сознательности». Вред, однако, зависит не столько от сознательности, сколько от способностей. Действительно, в игре с общей кассой от игрока требуется более тонкая оценка результатов своего поведения, чем в игре без общей кассы, где выигрыши и проигрыши более явно зависят от собственного поведения. Процедура общем кассы маскирует зависимость результата от индивидуального поведения. Для пояснения сказанного на несколько минут отвлечемся от нашего изложения. Представьте себе молодую девушку, поступившую на химический завод. В ее обязанности входит наблюдение за показаниями приборов. Девушка, как, впрочем, и все остальные работники цеха, получают премию, если качество продукции, выпускаемой цехом, находится в пределах допустимых норм. В течение первых двух месяцев работы девушка читала интересную книгу, от которой она не могла оторваться даже в рабочее время, и очень редко поглядывала на приборы. На ее счастье в это время не происходило никаких неприятных отклонений процесса от нормы, и оба месяца она благополучно получала премию. К началу третьего месяца книга кончилась, новой интересной книги не было и девушке не оставалось ничего иного, как смотреть на приборы. Однако именно в этом месяце по причинам, никак не связанным с параметрами процесса, за которыми следила наша героиня, цех дал большое количество брака и премии не было. Трудно предположить, что девушка не сделает вывода о независимости премии от ее поведения. Если бы, с другой стороны, премия с оператора снималась только за незамеченные отклонения процесса от нормы, то для правильного выбора линии поведения потребовалось бы гораздо меньше сообразительности. Вернемся, однако, к нашей модели. Уже такая простая модель позволяет сделать весьма важный вывод—работа по общему критерию становится выгодной только при достаточно развитых локальных средствах принятия решений. Если эти средства не обладают достаточной сложностью, то, исходя из общего суммарного эффекта, выгоднее, когда каждый участник ориентируется на свой локальный критерий и стремится увеличить свой собственный доход. На одной из международных конференций нам был задан вопрос: «Не означает ли приведенный вами результат, что при простых средствах управления выгоднее капитализм, а после достаточного развития средств управления становится выгоднее социализм?» При всей примитивности постановки вопроса, здесь содержится зерно истины. Для полного использования всех преимуществ социалистического строя необходимы высокоэффективные средства управления. Недаром Владимир Ильич Ленин говорил: «Социализм — это прежде всего учет». Именно поэтому партия и правительство придают такое большое значение совершенствованию управления. В заключение разговора о модели «игры в размещения» заметим, что система обладает определенного рода надежностью—при выходе из игры одного из участников остальные перераспределяются так. чтобы освободилась стратегия с наименьшей мощностью. Именно про такую ситуацию говорят: «Когда в учреждении снимают директора, освобождается вакансия уборщицы». § 3.2. Когда все одинаковыеДавайте теперь несколько усложним нашу модель. Чем вызвана необходимость ее изменения? Во-первых, предположение о независимости дохода на данной стратегии от числа выбравших эту стратегию игроков, как мы уже отмечали в предыдущем параграфе, не всегда соответствует действительности. Во-вторых, рассмотренная нами модель имеет содержательный смысл только тогда, когда число игроков меньше числа стратегий. В самом деле, мы оценивали результаты поведения игроков в игре по величине среднего выигрыша, приходящегося на одного игрока, или, что эквивалентно, по величине суммарного дохода, получаемого всеми игроками. Нетрудно видеть, что если выигрыш на стратегии не зависит от числа выбравших ее игроков, то любое распределение игроков по стратегиям, при котором на каждой из них имеется по крайней мере по одному игроку, обеспечивает максимальный суммарный доход. Более того, с ростом числа игроков будет расти вероятность того, что случайное распределение игроков по стратегиям будет обеспечивать максимальный суммарный доход. Содержательный смысл модели для большого числа участников восстанавливается, как только мы введем зависимость мощности стратегии от числа выбравших ее игроков. Рассмотрим, какими могут быть эти зависимости. Прежде всего можно считать, что суммарный доход на любой стратегии ограничен некоторой величиной. Это означает, что каким бы не было ограничение, начиная с некоторого числа игроков, выбравших данную стратегию, доля, приходящаяся на одного игрока, с ростом их числа должна стремиться к нулю, т. е. монотонно убывать. Типичные зависимости такого рода приведены на рис. 3.4 и рис. 3.5. Следует заметить, что модель тем привлекательнее, чем меньшее число параметров ее задает. Поэтому постараемся обеспечить в модели возможность исключения такого параметра, как число игроков. Для этого введем зависимость общего дохода на стратегии не от числа участников, выбравших данную стратегию, а от их доли от общего числа игроков. Тогда одни и те же функции выигрыша будут определять игру для любого числа участников. Для простоты дальнейшего изложения остановимся на случае двух стратегий. Теперь игра задается двумя функциями — зависимостью дохода игроков, выбравших первую стратегию, от их доли от общего числа игроков и зависимостью дохода игроков, выбравших вторую стратегию, от их доли от общего числа игроков. Нетрудно понять, что обе функции можно представить в виде зависимости от одной переменной — доли игроков, выбравших первую стратегию, так как, задав эту долю, мы автоматически определяем долю игроков, выбравших вторую стратегию,— это все остальные игроки. Пример таких функций приведен на рис. 3.6. Как мы уже отметили, выигрыш каждого игрока уменьшается с ростом числа игроков, выбравших одинаковую с ним стратегию. С другой стороны, переход игрока, например, со второй стратегии на первую увеличивает выигрыш игроков, оставшихся на второй стратегии. Какова же ситуация равновесия в такой игре, если игроки интересуются только своими индивидуальными выигрышами? Из рис. 3.6 видно, что правее точки а0 выигрыш каждого участника на второй стратегии выше, чем на первой, к смена первой стратегии на вторую выгодна для игрока. Однако переход игрока с первой стратегии на вторую уменьшает долю игроков, выбравших первую стратегию, смещая ее к точке а0. Левее точки а0 выгоднее оказывается первая стратегия, и переход игроков со второй стратегии на первую увеличивает долю игроков на первой стратегии, смещая ее к точке а0. В точке же а0 выигрыши на обеих стратегиях одинаковы. Если в точке а0 игрок перейдет с первой стратегии на вторую, то доля игроков, выбравших первую стратегию, уменьшится и соответственно уменьшится выигрыш на второй стратегии, что делает такой переход невыгодным для игрока, осуществляющего этот переход. Аналогично в точке а0 оказывается невыгодным для игрока переходить со второй стратегии на первую. Таким образом, распределение игроков по стратегиям, соответствующее точке а0, устойчиво, никому из игроков невыгодно изменять свою стратегию, т. е. точка а0 является в этой игре точкой Нэша. Рассмотрим численный пример. Пусть имеются два лесозаготовительных участка и 100 рабочих, которые могут свободно выбирать себе место работы. На каждом участке количество заготавливаемого леса растет с ростом числа работающих на участке, но производительность труда каждого рабочего, а следовательно, и его зарплата, уменьшаются с увеличением этого числа. Подобный эффект может определяться различными причинами, такими, как особенности организации труда, наличием техники, зависимостью размера премиального фонда от расходования фонда зарплаты и т. п. Обозначим через Х число рабочих на первом участке, а через Y число рабочих на втором участке, и пусть количество леса, заготавливаемое на участках и измеренное в зарплате, выплачиваемой при этом рабочим, определяется функциями для первого участка 400*Х—0,02*Х3, для второго участка 280*Y— 0,4*Y2. Тогда, если 80 рабочих будут работать на первом участке, то общая выработка на этом участке будет равна 21 760 руб., т. е. по 272 руб. на человека. На втором участке при этом будут работать 20 человек, которые обеспечат выработку 5440 руб., т. е. те же, что и на первом участке 272 руб. на одного рабочего. Суммарная выработка на обоих участках равна 27 200 руб., и ни одному из рабочих не выгодно изменять место своей работы. Действительно, например, переход рабочего со второго участка на первый уменьшает его заработок на 3 руб. Однако обратим внимание и на другой процесс. Если рабочий перейдет с первого участка на второй, то его зарплата, равно как и зарплата двадцати работающих на этом участке рабочих, уменьшится на 40 коп. у каждого. При этом на первом участке у 79 оставшихся там рабочих зарплата возрастет на 3 руб. у каждого. Таким образом, общая выработка на двух участках возрастает за счет рабочих, работающих на первом участке, на 237 руб. и уменьшится на 8 руб. 40 коп. за счет работающих на втором участке. Из сказанного видно, что, с одной стороны, распределение рабочих по участкам, при котором 80 человек работают на первом участке, а 20 на втором устойчиво по Нэшу, но, с другой стороны, переход рабочих с первого участка па второй приводит к увеличению общей производительности. Общая выработка достигает максимума, когда на первом участке остается 51 человек, а остальные 49 работают на втором участке. При этом общая выработка на первом участке становится равной 17748 руб., при заработке каждого рабочего, равном 348 руб., а на втором участке выработка достигает 12740 руб., при заработке каждого рабочего в 260 руб. Выработка на обоих участках при этом возрастает по сравнению с точкой Нэша на 12 % и достигает 30488 руб. Для большей наглядности все данные сведены в табл. 3.1. Таблица 3.1
Естественно, что при свободном выборе места работы последнее распределение неустойчиво. Увеличение заработка па 88 руб. в месяц оправдывает стремление рабочих к переходу со второго участка на первый. Как мы уже отмечали в предыдущем параграфе, устойчивость по Нэшу партии максимальной цены можно обеспечить введением процедуры общей кассы. В нашем примере это означает, что зарплата рабочих не зависит от того, на каком участке они работают, и определяется суммарной выработкой на обоих участках. В этом случае в партии Мора, т. е. партии максимальной цены, устойчивый по Нэшу заработок каждого рабочего будет равен 304 руб. 88 коп., что превышает заработок в точке Наша. Но для обеспечения устойчивости такого распределения мы должны за разные результаты труда на втором участке платить существенно больше, чем на первом. Как это ни парадоксально, но такое неравенство оплаты за равные результаты труда оказывается выгодным с учетом общих интересов. Так же выгодной с учетом общих интересов оказывается работа части рабочих с заниженной производительностью труда. Здесь следует заметить, что, конечно, задача об оптимальном распределении рабочих по участкам может быть решена централизованно. Для этого достаточно установить на обоих участках оптимальную штатную численность. Однако такое решение проблемы, во-первых, будет приводить к явному неудовольствию рабочих по поводу поддержания оптимального соотношения численностей на участках, не говоря уже о социальных проблемах, связанных с явным неравенством в оплате, и, во-вторых, потребует централизованного решения задачи об оптимальном распределении трудовых ресурсов. С другой стороны, управление способом оплаты обеспечивает децентрализованное решение проблемы распределения, порождаемое совместным (коллективным) поведением самого трудового ресурса. Заметим также, что приведенная нами содержательная интерпретация задачи не исчерпывает все моделируемые такой игрой ситуации. Ряд содержательных примеров легко продолжить как в социальных и производственных, так и в технических системах. Теперь вернемся к изучению поведения участников рассмотренной игры, которую будем называть «игрой в распределения». Во-первых, нам надо перейти от функций, определяющих величины выигрыша, к функциям, определяющим вероятности единичных выигрышей и проигрышей, и, как мы уже говорили, сделать эти функции зависящими не от абсолютного числа игроков, выбравших ту или иную стратегию, а от их доли, С методикой первого перехода мы уже познакомились в предыдущем параграфе. Второй переход также не связан с какими-либо трудностями. Рассмотрим числовые данные предыдущего примера. Пусть а1 и а2 (а2=1—а1) — доли автоматов, выбравших в некоторой партии игры первую и вторую стратегии соответственно. Пусть P1 и P2 —вероятности единичного выигрыша, равного для нашего примера 400 руб., и, значит, (1—p1) и (1—p2) — вероятности единичного проигрыша той же суммы. Тогда функции, задающие игру, определяют математическое ожидание единичного выигрыша при p1==1—0,25а12 и p2==0,85—0,05а2. При а1==0,8 и а2==0,2 автоматы, выбравшие первую стратегию, будут выигрывать с вероятностью 0,84 и проигрывать с вероятностью 0,16. Если, как мы предположили, единичные выигрыши и проигрыши равны :±400 руб., то математическое ожидание выигрыша на первой стратегии будет равно (0,84—0,16)*400=272 руб., что совпадает с выигрышем в точке Нэша. Рассмотрим зависимость выигрыша автоматов, моделирующих игроков, от глубины их памяти. Пусть в игре участвуют простейшие автоматы, т. е. автоматы, которые при выигрыше сохраняют свое действие, а при проигрыше немедленно его изменяют. Легко понять, что вероятность смены действия для такого автомата равна вероятности проигрыша при этом действии. Следовательно, при достаточно большом числе автоматов и при постоянной вероятности проигрыша, в силу закона больших чисел, в каждый момент времени постоянное число автоматов будет покидать данную стратегию. Но сказанное справедливо для всех стратегий, и, следовательно, некоторое постоянное число автоматов будет в каждый момент приходить на данную стратегию. При этом возможна ситуация динамического равновесия, т. е. ситуация, в которой число покидающих стратегию автоматов равно числу выбирающих ее. Для нашего примера такая ситуация определяется уравнением баланса (1 —p1)a1 = (1 —p2)a2 или 0,25а13 =(0,15+0,05а2)а2. Решением этого уравнения служит а1=0,63 и а2==0,37. При этом в каждый момент времени 0,63 всех автоматов будет изменять свою стратегию с первой па вторую и столько же автоматов будет перехо-дить со второй стратегии на первую. Ситуацию динамического равновесия, порождаемую поведением в игре простейших автоматов, т. е. таких автоматов, у которых вероятность смены действия равна вероятности штрафа, будем называть точкой Антоса. Увеличение глубины памяти автоматов уменьшает вероятность смены действия. Однако для каждой вероятности смены действия существует ситуация динамического равновесия, которая, как мы уже говорили выше, с ростом глубины памяти стремится к точке Нэша. Теперь средний выигрыш в игре зависит от взаимного расположения точек, соответствующих партиям игры. Обозначим через аA долю автоматов, выбравших первую стратегию в партии Антоса, через aн — долю автоматов, выбравших первую стратегию в партии Нэша, и через ам—долю автоматов, выбравших первую стратегию в партии максимальной цены. Пусть ан> >аА>ам, что, кстати, имеет место в нашем примере, где ан= =0,8, аА==0,63, ам= =0,51. Тогда с ростом глубины памяти распределение автоматов по стратегиям будет удаляться от партии максимальной цены к партии Нэша и средний выигрыш автоматов будет падать. Действительно, в нашем примере средний выигрыш автоматов в партии Антоса равен 299,28 руб., а в партии Нэша — 272 руб. На рис. 3.7, 3.8, 3,9 приведены типы зависимости среднего выигрыша от глубины памяти автоматов при различных типах взаимного расположения точек, соответствующих партиям игры. Рис. 3.7. демонстрирует нам класс игр, в которых наибольшего эффекта добиваются самые примитивные автоматы. Наиболее интересен класс игр, приведенный на рис. 3.9. В этих играх точка максимальной цены находится между точкой Антоса и точкой Нэша. При этом существует промежуточная и, что наиболее важно, конечная глубина памяти, при которой без процедуры общей кассы достигается партия максимальной цены. Последний факт наводит на размышления о возможности организации внешнего оптимизирующего управления, проявляющегося на фоне децентрализованного поведения участников игры. Это управление может быть организовано путем такого искажения функций, определяющих выигрыш на стратегиях, чтобы партия максимальной цены переместилась в интервал между точкой Антоса и точкой Нэша. Подобную деформацию платежных функций можно организовать, например, путем введения некоторого налога. Содержательный смысл его введения заключается в том, что прибавление и вычитание констант не изменяет положения партии максимальной цены, смещая вместе с тем положение точек Антоса и Нэша. Более того, константу можно выбрать так, что точка Антоса совпадет с точкой, соответствующей партии максимальной цены, а это означает, что максимального выигрыша в такой игре будут добиваться простейшие автоматы. Возвратимся к нашему численному примеру. Если из суммарного заработка на первом участке изъять 2250 руб. и передать их на второй участок, то точка Антоса совпадет с точкой, отвечающей партии максимальной цены, и вероятности выигрыша будут равны
Для тех, кто знаком с теорией игр, должно быть ясно, что указанная процедура эквивалентна реализации оптимальных смешанных стратегий. Заметим также, что для осуществления указанного механизма управления необходимо централизованное определение величины постоянного налога. Если в игру вводится процедура общей кассы, то выигрыш каждого игрока перестает зависеть от того, какую конкретно стратегию выбрал персонально данный игрок—когда все заработки складываются в общий котел, то все получают одинаково. При этом, однако, величина заработка зависит от того, как игроки распределены по стратегиям. Игра, в которой выигрыш игрока не зависит от того, какую стратегию он выбрал, а зависит лишь от распределения игроков по стратегиям и одинаков для всех участников игры, называется игрой Гура. Поскольку в игре Гура выигрыши всех автоматов одинаковы, то одинаковы для всех автоматов и вероятности сменить действие и, следовательно, точка Антоса для такой игры независимо от вида платежных функций есть партия, в которой автоматы распределены по стратегиям поровну. Казалось бы, что ситуация в игре Гура не должна изменяться и с ростом глубины памяти участвующих в игре автоматов — если глубина памяти у всех автоматов одинакова, то одинаковы и вероятности смены действия, Здесь, однако, срабатывает другой механизм. С ростом глубины памяти экспоненциально уменьшается вероятность смены действия. Время пребывания автомата на стратегии обратно пропорционально вероятности смены действия. Чем меньше вероятность проигрыша в некоторой партии игры, тем дольше автоматы пребывают в этой партии. Когда глубина памяти автоматов становится достаточно большой, то даже небольшая разница в вероятностях проигрыша приводит к весьма существенной разнице в вероятностях смены действия и, следовательно, в средних временах сохранения неизменности партии. Математический анализ поведения автоматов в игре Гура показывает, что с ростом глубины памяти автоматы начинают преимущественно выбирать стратегии с максимальным временем сохранения неизменности партии, т. е. с максимальным выигрышем. Заметим, однако, что хотя автоматы с достаточно большой глубиной памяти достигают выигрыша, достаточно близкого к оптимальному, так как резко увеличиваются времена сохранения неизменности партий, выход на партию максимальной цены с ростом глубины памяти требует экспоненциально растущего времени. Последнее соображение полезно по двум причинам. Во-первых, оно показывает, что выводы, которые делаются на основании рассмотрения средних величин, не всегда справедливы — при таком анализе средних величин в игре Гура автоматы всегда должны разыгрывать партию Антоса. Во-вторых, игра Гура достаточно хорошо демонстрирует одну из основных трудностей оптимизации — за достижение оптимума подчас приходится платить так дорого, что оно становится бессмысленным. Типичным примером являются, например, некоторые блоки оптимизации в операционных системах вычислительных машин. Если такой блок за 2 ч работы на 5 % увеличивает пропускную способность вычислительной машины, то даже при ее круглосуточной работе действительная производительность машины не возрастает, а падает на 3 %. Особенно важно помнить об этом, имея дело с задачами оперативного управления — время выхода на оптимальный режим может оказаться таким большим, что к моменту окончания переходного процесса мы окажемся в совершенно новой ситуации, где все надо начинать сначала. С подобной ситуацией мы уже сталкивались, когда говорили о переключаемых случайных средах. Для задачи оперативного управления особенно важны механизмы, которые обеспечивают выход на оптимальные режимы при высоко лабильных участках, т. е. на нашем модельном уровне, при автоматах с небольшой глубиной памяти. В заключение данного параграфа заметим, что если в игре Гура средний выигрыш возрастает с ростом глубины памяти, то он уменьшается с ростом числа участников игры. Это и понятно — чем большее число игроков участвуют в игре, тем труднее при процедуре общей кассы понять характер зависимости индивидуального выигрыша от индивидуального поведения. С этой точки зрения, если метод бригадной оплаты, т. е. общая касса для малой группы, имеет смысл, то реализация того же принципа для большого коллектива, например для цеха, выше человеческих возможностей. § 3.3. Распределение ограниченного ресурсаКаждый раз, говоря о коллективном поведении, мы имеем ввиду коллективное поведение объектов в некой системе. При организации такого поведения нас интересует, безусловно, достижение определенных системных целей, удовлетворение общесистемных критериев качества функционирования. При этом (и здесь основной смысл организации децентрализованного управления) отдельный объект не имеет информации об общих целях системы. Объект знает только свои локальные цели, локальные критерии, локальные функции предпочтения. Управление системой организуется путем формирования таких локальных условий и, быть может, таких правил локального взаимодействия, при которых удовлетворение локальных интересов отдельных объектов, составляющих систему, приводило бы к удовлетворению общесистемных целей. И здесь возникает естественный вопрос о том, что же является тем объектом в системе, локальное поведение которого мы организуем. В предыдущих параграфах данной главы мы рассмотрели две игры — игру в размещения и игру в распределения (игру Гура). В обеих играх эффективность функционирования системы зависела от распределения ограниченного числа участников игры по стратегиям. В качестве примера мы говорили о распределении трудового ресурса по местам работы. Ресурсом в этих задачах могли служить объекты самой различной природы, например, задания, выполняемые в многопроцессорной вычислительной система. Существенным здесь было то, что мы «персонифицировали» типы ресурса- и занимались организацией их коллективного поведения. Вместе с тем, в качестве объектов, составляющих систему, можно рассматривать и потребителей ресурса. Тогда нас будет интересовать проблема организации их совместного поведения, обеспечивающего оптимизацию общесистемного эффекта использования ресурса. Задача об оптимальном распределении ресурса между потребителями имеет смысл только тогда, когда этот ресурс ограничен. В качестве ресурса могут выступать самые различные объекты: деньги, энергия, сырье, машины ч т. п. Существенно здесь то обстоятельство, что каждый потребитель, используя некоторое количество ресурса, добивается определенного эффекта. Для того чтобы задача о распределении ресурса имела смысл, необходимо также, чтобы в пределах всей системы эти эффекты были соизмеримы. Поиск такой общей меры является самостоятельной задачей и в ряде случаев (если не в большинстве), не привносится в систему «сверху», а также порождается совместным функционированием подсистем. Здесь, однако, мы будем предполагать, что такая мера существует. Рассмотрим несколько примеров. Пусть у нас имеется система, состоящая из k объектов и одного обслуживающего устройства (рис. 3.10). Обслуживающее устройство периодически с периодом длительности Т через коммутатор подключается к каждому обслуживаемому объекту и работает с ним в течение времени tk. При этом очевидно, что Сумма( tk )=Т. Длительность периода Т выступает здесь в качестве ограниченного ресурса, распределяемого между объектами обслуживания. На каждом объекте в результате обслуживания его в течение времени tk достигается эффект, равный Фиk(tk). Заметим опять, что все эффекты соизмеримы, т. е. измерены в одних и тех же единицах. При этом могут существовать различные системные критерии качества функционирования. Предположим, что в качестве объектов выступают следящие устройства с импульсным регулированием через один и тот же регулятор (обслуживающее устройство). Качество функционирования каждого следящего устройства, зависящее при заданном периоде от скважности сигналов регулятора, определяется, например, среднеквадратичным отклонением от отслеживаемой величины. Поведение системы определяется среднеквадратичным отклонением наихудшего устройства. В этом случае наилучшее поведение системы получается при достижении min max Фиk(tk). Нетрудно понять, что этот критерий удовлетворяется в том случае, когда среднеквадратичные ошибки во всех устройствах одинаковы. Действительно, если при определенном распределении времен обслуживания в течение периода в одном из каналов слежения ошибка больше, чем в других, то имеет смысл увеличить время обслуживания этого следящего устройства путем некоторого увеличения ошибки в других каналах. Здесь мы исключаем из рассмотрения такие экзотические случаи, когда распределение времен обслуживания, обеспечивающее равные ошибки во всех следящих устройствах, вообще недостижимо. Для этого. достаточно предположить, что ошибки в этих устройствах монотонно уменьшаются при уменьшении скважности регулирования. Оптимальное распределение ресурса в таком случае определяется решением системы уравнений Фиk(tk) - Лямбда = 0, (k=1, k); Сумма (tk) = T. В качестве общесистемного критерия может выступать и просто арифметическая сумма эффектов, которые возникают у потребителей ресурса, как, например, было с лесозаготовительными участками в приведенном выше примере (см. § 3.2). В системе, структура которой изображена на рис. 3.10, такой эффект функционирования системы может определяться суммарным достигаемым эффектом и поведением системы, обеспечивающем приближение к Сумма[Фиk(tk)]. В этом случае, как следует из теории нелинейного программирования, оптимальное распределение достигается в ситуации,. определяемой решением системы уравнений , где К имеет смысл цены на единицу используемого ресурса. В дальнейшем мы ограничимся указанными двумя типами задачи о распределении ресурса, хотя могут рассматриваться весьма разнообразные ее постановки. Например, имеет самостоятельный интерес задача о минимизации общего количества используемого ресурса при фиксированной сумме эффектов, достигаемых потребителями ресурса. Как мы уже говорили, нас в задаче о распределении ресурса интересует организация коллективного поведения в условиях децентрализации, обеспечивающая решение, состоящее в удовлетворении общесистемного критерия функционирования. В этом параграфе мы займемся рассмотрением организации коллективного поведения потребителей ресурса. При такой организации поведения мы, однако, не можем исключить из рассмотрения еще одного участника — владельца ресурса. О какой же децентрализации может идти речь при наличии центрального объекта, который располагает ресурсом и раздает его потребителям? Заметим, что мы рассматриваем децентрализацию. поведения при оптимизации и, следовательно, ресур-содержатель не должен решать никаких оптимизационных задач. Более того, мы будем стремиться к тому, чтобы обмен информацией в системе был достаточно простым, например, сводился бы к тому, чтобы потребители ресурса посылали в центр заявку на желательное количество ресурса, а центр достаточно простым способом на основании полученных заявок делил бы его между потребителями. Наиболее простой способ такого распределения—распределение всего ресурса пропорционально поступившим заявкам. Тогда, если хk — количество указанного в заявке k-го потребителя ресурса, то количество выделяемого ему ресурса равно Теперь возникает естественный вопрос — существуют ли локальные правила формирования заявок на ресурс при описанном способе его распределения, обеспечивающие оптимизацию поведения системы по общесистемному критерию? Рассмотрим задачу с минимаксным критерием. Допустим вначале, что центральное устройство назначает величину л и сообщает ее всем потребителям ресурса, а потребители ресурса указывают свои заявки на ресурс так, чтобы сделать получаемый локальный эффект равным Лямбда. Тогда, если у потребителя эффект меньше Лямбда, он увеличивает заявку, а если больше — уменьшает ее. Если все потребители уменьшают свои заявки, то это означает, что Лямбда меньше, чем необходимо, а если увеличивают, то Лямбда больше, чем необходимо. В связи с этим центр ведет себя следующим образом: уменьшает Лямбда, если сумма заявок меньше наличного количества ресурса, и увеличивает Лямюда, если наличное количество ресурса меньше суммы заявок на него. В ситуации, когда все эффекты равны Лямбда и сумма запрошенного ресурса равна наличному его количеству, система находится в устойчивом равновесии. Заметим, однако, что мы нарушили анонсированный выше принцип — центральное устройство занимается регулированием значения Лямбда. Кроме того, центральное устройство должно сообщать потребителям текущее значение Лямбда. С другой стороны, если весь ресурс распределяется пропорционально поданным заявкам, то количество выделяемого потребителю ресурса несет информацию о соотношении суммы запросов и наличного запаса ресурса. Этой информацией можно воспользоваться и находить свои запросы на шаге (Тау + 1) следующим образом: При этом ситуацией равновесия будет ситуация, в которой весь ресурс распределяется между потребителями и достигаемые эффекты у всех потребителей одинаковы и равны Коэффициент Альфа определяет «чувствительность» потребителя, т. е. степень его инерционности. В этом смысле он некоторым образом аналогичен глубине Памяти автоматов в рассмотренных выше моделях поведения. Точность достижения оптимума растет с уменьшением Альфа, но при этом падает способность оперативно реагировать на изменение условий функционирования. Мы уже отмечали выше, что в случае максимизации суммарного эффекта от распределения ресурса, Лямбда имеет содержательный смысл цены единицы ресурса и условие системного максимума выполняется тогда, когда достигают максимума локальные функции пользы, представляющие собой разность между эффектом от использования ресурса и стоимостью последнего. При этом количество запрашиваемого ресурса мы можем интерпретировать, как некую сумму денег, направляемую в центр для его приобретения. Осуществив распределение ресурса между потребителями пропорционально присланным деньгам, центр тем самым устанавливает и цену единицы ресурса, равную отношению общей суммы присланных денег к числу распределенных единиц ресурса. Таким образом, количество запрашиваемого ресурса выражается в стоимости полученного ресурса. Тогда общесистемный критерий удовлетворяется, если каждый потребитель формирует свой запрос так, чтобы максимизировать разность между достигнутым от использования ресурса эффектом и посылаемой заявкой на ресурс. При этом в принципе безразлично, какие алгоритмы и какие вычислительные средства применяет потребитель для поиска своего локального экстремума. Важно, что мы сформулировали простые и однозначные правила поведения центра и локальные критерии, следование которым обеспечивает децентрализованный поиск общесистемного экстремума. Демонстрация таких возможностей и была целью настоящего параграфа. § 3.4. Что дает случайное взаимодействие Во всех рассмотренных в данной главе моделях участник игры воспринимал результат поведения остальных участников только как реакцию на его поведение некоторой более или менее сложно организованной внешней среды. Никакой информацией не только о поведении, но даже о наличии других участников автомат (или игрок) не располагал. Как было показано выше, в ряде ситуаций в дополнительной информации не было никакой необходимости, так как и без нее автоматы добивались целесообразного и даже оптимального поведения. Вместе с тем мы сталкивались и с рядом не очень приятных характеристик поведения — требования роста сложности процедуры принятия решений (глубины памяти автоматов), весьма быстрого роста времени достижения оптимального поведения и т. п. И вообще термин «коллективное поведение» мало подходил к описываемым ситуациям — речь скорее всего шла о моделях совокупного поведения, о поведении некоторого «автоматного газа». Когда мы произносим слово «коллектив», мы обычно подразумеваем некоторую структуру отношений, наличие обмена информацией, организацию взаимодействия между членами коллектива. Можно надеяться, что учет указанных свойств в рассматриваемых нами совокупностях автоматов может, с одной стороны, улучшить характеристики поведения и, с другой, оценить возможности и эффективность различных типов организации взаимодействия. При попытках построить модели поведения со взаимодействием следует постоянно помнить, что только достаточно простые модели, зависящие от небольшого числа параметров, позволяет разобраться в эффектах, возникающих в этих моделях и моделируемых ими ситуациях. Какие же типы взаимодействия мы можем отнести к простейшим? К таким типам с нашей точки зрения следует отнести случайное парное взаимодействие и однородное взаимодействие с ограниченным числом соседей. Случайное парное взаимодействие состоит в том, что в каждый момент времени (в каждой партии игры) весь коллектив, вся совокупность автоматов случайным образом разбивается на пары. Б каждой паре может быть реализован акт обмена информацией, в результате которого происходит изменение действия или внутреннего состояния автомата. На следующем такте разбиение коллектива на пары происходит заново, также случайным и независимым от предыдущего разбиения способом. При взаимодействии с ограниченным числом соседей для каждого члена коллектива указывается его окрестность — список участников игры, называемых соседями данного автомата по игре, с которыми он может осуществлять взаимодействие. Взаимодействие это может быть односторонним — автомат воспринимает информацию от своих соседей ко игре или его выигрыш зависит от поведения его соседей по игре, но обратное в общем случае может быть неверным. Однородность ограниченного взаимодействия заключается в том, что размеры окрестности для всех автоматов одинаковы. Таким образом, однородное взаимодействие задается однородным ориентированным графом отношений. Начнем изучение возможностей взаимодействия со случайных парных встреч. При рассмотрении игры в размещения мы уже отмечали, что для обеспечения возможности договориться и, тем самым, обеспечить максимально возможный выигрыш можно организовать общую кассу, а можно, распределившись по одному на самых выгодных участках, например циклически меняться местами. Аналогичного эффекта нетрудно добиться, если повторять жеребьевку, например, каждый месяц. Однако трудности организации ежемесячных встреч не привыкших к дисциплине детей лейтенанта Шмидта отчетливо демонстрируют все сложности такого способа централизованного управления. Столь же большие трудности (если не большие) встречаются на пути заочной жеребьевки и организации общей кассы. Однако эффект, эквивалентный эффекту введения общей кассы, мог бы быть достигнут, если бы в конвенцию был включен пункт, обязывающий отпрысков героя при любой случайной встрече обмениваться участками. Если такие парные встречи действительно случайны и равновероятны, то механизм подобного взаимодействия обеспечивает каждому участнику (естественно, при достаточном времени) пребывание в среднем одинаковое время на каждом участке, т. е. выравнивает доходы всех участников игры. Для максимизации выигрыша при этом достаточно обеспечить первоначальное распределение всех игроков по одному на наиболее выгодных стратегиях и реализовать процедуру случайного парного обмена стратегиями. Нетрудно видеть, что и в игре в распределения, если мы зададим некоторое начальное распределение игроков по стратегиям и организуем случайный парный обмен стратегиями (первый тип взаимодействия), то начальное распределение будет поддерживаться сколь угодно долго, так как при парном обмене, порожденным любым механизмом разбиения на пары, число игроков, покидающих стратегию, будет равно числу игроков, выбирающих ее. С другой стороны, если разбиение на нары случайно и равновероятно, то средний выигрыш у игроков выравнивается. Указанные соображения позволяют предположить, что таким образом организованная процедура взаимодействия должна приводить к эффектам, эквивалентным введению общей кассы. Здесь, однако, представляет интерес зависимость поведения автоматов в эквивалентной игре от глубины их памяти. Обратимся снова к игре в распределения. Если автоматы, участвующие в игре, имеют минимальную глубину памяти, то указанное взаимодействие не изменяет их поведения и, следовательно, автоматы разыгрывают партию Антоса. С ростом глубины памяти таких автоматов их поведение стремится к поведению в игре с общей кассой, а разыгрываемая партия — к партии Мора. Наиболее существенный эффект, возникающий здесь, как показывает анализ и моделирование поведения, состоит в том, что при данном типе взаимодействия и при любой глубине памяти средний выигрыш автоматов не меньше, чем максимальный выигрыш для данной глубины памяти в обычной игре и игре с общей кассой. Первый тип взаимодействия, улучшая результаты поведения автоматов в игре и реализуя процедуру общей кассы без специального центрального устройства, собирающего все выигрыши и делящего их поровну между игроками, не улучшает между тем динамики поведения коллектива. Сходимость к точке Мора остается столь же медленной. Мы уже говорили выше, что в игре Гура чрезвычайно медленная сходимость объясняется тем, что при любой глубине памяти точкой динамического равновесия является точка, при которой автоматы равномерно распределены по стратегиям. Более того, в любой другой партии опять-таки при любой глубине памяти математическое ожидание изменения распределения автоматов по стратегиям направлено в сторону точки равномерного распределения. Можно предложить сравнительно простую процедуру случайного парного взаимодействия (взаимодействие второго типа), которая делает все партии игры Гура партиями безразличного равновесия по математическому ожиданию смены распределения автоматов по стратегиям. Тогда опять средний выигрыш будет определяться временами выбора автоматом данной стратегии. Подобное взаимодействие, обеспечивающее описанный выше эффект, состоит в том, что когда автомат должен изменить свое действие в качестве нового выбирается действие, которое осуществляет партнер по паре. Если же в силу логики своей работы, автомат не должен изменять свое действие, то он не обращает никакого внимания на своего партнера по паре. Эффект, достигаемый при этом типе случайного парного взаимодействия, оказывается замечательным. Если участвующие в игре автоматы имеют глубину памяти, равную п, то их средний выигрыш будет равен выигрышу автоматов, имеющих глубину памяти 2n, в игре Гура без случайного парного взаимодействия, а скорость сходимости к стационарному выигрышу будет такой же, как у автоматов с памятью п в обычной игре Гура. Заметим, что два связанных друг с другом автомата, каждый из которых имеет п состояний, образуют систему с n2 состояниями. Учитывая, что такая пара автоматов имеет четыре, а не две комбинации выигрыша и проигрыша, мы можем утверждать, что образование постоянных каолиций из автоматов дает степенное улучшение качества функционирования, тогда как случайное парное взаимодействие обеспечивает экспоненциальное улучшение. Совместное использование обоих типов случайного парного взаимодействия в игре в распределения обеспечивает проявление обоих указанных выше эффектов при достаточно большой глубине памяти. Однако введение второго типа случайного парного взаимодействия изменяет характер поведения в этой игре простейших автоматов. Рассмотрим следующую ситуацию, моделируемую игрой в распределения. Пусть имеется несколько курортов. Привлекательность каждого курорта для отдыхающего там человека зависит от числа людей, выбирающих этот курорт одновременно с ним. Обычно в среднем привлекательность курорта падает по мере роста числа находящихся там курортников. Падение привлекательности курорта приводит к тому, что возрастает вероятность в будущем году поехать в новое место. Каждый из нас знает, как мучительна смена привычного места и сколь случайна процедура выбора нового. Однако, как правило, мы не бросаем монету и не тычем с закрытыми глазами пальцем в карту СССР, а начинаем интересоваться, где отдыхают другие люди. Окончательное решение приходит, когда жена сообщает вам, что Эльвира Евсеевна прекрасно провела лето под Мариуполем. Самое удивительное при этом, что, в общем, с учетом самых различных факторов, удовлетворенность провес денным отпуском в среднем во всех местах одинакова. Это наводит на мысль, что указанная процедура обеспечивает выход на точку Нзша, а способ выбора нового места весьма напоминает последний способ организации случайного парного взаимодействия. Действительно, если читатель согласен не забивать себе голову аналитическими выкладками и готов поверить нам на слово, то оказывается, что в «игре в распределения» случайное парное взаимодействие, состоящее в том, что в случае смены действия в качестве нового действия выбирается действие партнера по паре, обеспечивает выход простейших автоматов на партию Нэша. Этот факт также замечателен, тах как без взаимодействия для обеспечения выхода на точку Нэша необходимы автоматы с бесконечно большой глубиной памяти. Резкое снижение требуемого объема памяти играющих автоматов столь же существенно снижает время, необходимое для выхода на стационарное распределение, и значительно улучшает характеристики поведения в случае изменения внешних условий. На рис. 3.11, 3.12 и 3.13 (на них 1 — случайное парное взаимодействие, 2—общая касса, 3—обычная игра) приведены зависимости среднего выигрыша автоматов от глубины их памяти при комбинированном способе случайного парного взаимодействия для игр, рассмотренных на рис. 3.7, 3.8 и 3.9. В структурированных коллективах, т. е. в коллективах, для которых определена структура взаимодействия, эффективность функционирования каждого участника зависит от того, что он делает сам и что делают его непосредственные соседи по игре. Подобная ситуация возникает, например, тогда, когда члены коллектива располагаются в узлах некоторой сети связи или сети распределения некоторого ресурса, Примерами подобных ситуаций могут служить сети связи или сети вычислительных машин, где мы хотим организовать децентрализованное поведение, оптимизирующее некоторые параметры системы. В качестве таких параметров могут выступать производительность или пропускная способность, реактивность системы или среднее время ожидания, стоимость и т. п. Децентрализованное поведение при решении задач такого рода мы будем рассматривать в следующей главе. Здесь же нас будут интересовать некоторые эффекты, связанные собственно со взаимодействием, порождаемым структурой связей в системе. Введенные выше требования ограниченности взаимодействия и его однородности вызваны следующими причинами: ограниченность связана с тем, что в большинстве реальных технических сетей узлы сети имеют ограниченное число связей друг с другом, а однородность (так же, как и ограниченность) существенно упрощает изучение моделей. В качестве примеров управляющих систем с сетевой структурой могут выступать также системы управления энергетическими или газораспределительными сетями. Мы будем говорить, что на однородном графе задана однородная игра с ограниченным взаимодействием, если задана функция, определяющая доход игрока в зависимости от того, какое действие выбрал он сам и какие действия выбрали его соседи по игре. Естественно, что эта функция может зависеть и от внешних неконтролируемых участниками игры параметров. В силу однородности графа взаимодействия для задания игры достаточно задать всего одну такую функцию. Рассмотрим некоторую условную ситуацию. Пусть у нас имеется водопроводная сеть, состоящая из распределительных станций, соединенных между собой водоводами. Станция регулирует отпуск воды потребителям. Ее доход, с одной стороны, растет с увеличением общего объема отпускаемой потребителям воды, но, с другой стороны, увеличение этого объема может привести к падению давления в магистралях, что вызовет определенные убытки и, следовательно, снижение дохода. При этом указанные зависимости определяются не только поведением самой станции, но и отбором воды из системы, осуществляемым ближайшими соседями станции. Аналогичные отношения возникают и в оросительных системах. Приведенная содержательная интерпретация модели игры с ограниченным взаимодействием весьма и весьма приблизительно описывает реальную ситуацию в подобных системах, но авторы надеются на снисходительность читателя. В принципе функции выигрыша могут учитывать все сложности оценки эффективности функционирования узла. Например, отказ станции включать насосы, обеспечивающий экономию электроэнергии. Существенно здесь лишь то обстоятельство, что доход каждого участника определяется только поведением его самого и его соседей из ближайшей окрестности. В такой игре существуют устойчивые по Нэшу ситуации, когда никому из участников игры невыгодно в одиночку изменять свое поведение. Аналогично рассмотренным выше играм, доход в точке Нэша всей системы может быть весьма далек от возможного максимума. Для достижения партии максимальной цены можно организовать общую кассу, однако нетрудно понять, что в достаточно больших сетях ее введение практически лишает участников оперативной информации о реакции системы на их собственное поведение. Вместе с тем, именно с ростом сети возрастают сложности централизованного управления и увеличивается привлекательность децентрализованных систем. Рассмотрим простенький численный пример. Пусть участники игры имеют по два соседа каждый, т. е. их графом взаимодействия является окружность (рис; 3.14). Выигрыш каждого участника определяется его действием и действиями его правого и левого соседей. Каждый участник может делать одно из двух действий, которые мы обозначим через А и Б. Величины выигрыша автомата в зависимости от действий его правого и левого соседей приведены ниже
Отсюда видно, что среднему игроку выгодно изменять свое действие на другое, если он находится в ситуациях ААА, БАА, АББ и БББ, и невыгодно в остальных ситуациях. Рассмотрим ситуацию ББАА, в которой третьему игроку выгодно изменить свое действие, что приводит нас к конфигурации БББА, в которой становится выгодным изменить свое действие второму игроку. Ситуацией равновесия по Нэшу здесь является партия АБАБАБ ... АБ. Средний выигрыш в партии Нэша для этой игры равен 0. С другой стороны, партия ААББААББ ... ААББ обеспечивает средний выигрыш, равный 6, но, как мы видели, она неустойчива. Обратим внимание на следующий факт: если один из участников игры изменяет свое действие, то это приводит к изменению только его выигрыша и выигрыша его ближайших соседей, но не затрагивает остальных участников игры. Следовательно, если мы организуем общие кассы между соседями по игре, то изменение своего действия, приводящее к уменьшению суммарного выигрыша в своей окрестности, а, значит, и во всем коллективе, становится для участника невыгодным. Тогда и партия максимальной цены становится устойчивой по Нэшу, т. е. становится партией Мора. Проиллюстрируем сказанное на нашем примере. Обратимся к табл. 3.2. В ней в первом столбце приведены фрагменты партии максимальной цены, во втором столбце — выигрыш среднего во фрагменте игрока при наличии локальной общей кассы, в третьем столбце—фрагмент, образующийся при смене действия средним игроком, и, в четвертом — выигрыш среднего во фрагменте игрока при наличии локальной общей кассы в новой ситуации. Таблица 3.2
Из табл. 3.2 видно, что ни одному из участников игры при использовании процедуры локальной общей кассы в партии максимальной цены невыгодно изменять свое действие. Организация локальной общей кассы сводится к равномерному распределению дохода в узле между всеми узлами его окрестности и, с одной стороны, не требует сложных организационных мероприятий, а с другой, в силу небольшого числа соседей слабо маскирует зависимость получаемого дохода от результатов собственной деятельности. Еще раз подчеркнем, что указанный эффект достигается на сети независимо от ее размеров. § 3.5. «Он думает, что я думаю...»У английского поэта Ковентри Патмора есть такие стихи: — Он целовал Вас, кажется? (перевод С. Маршака) Эти стихи демонстрируют широко распространенную человеческую способность к рефлексии — рас-суждениям, при которых рассуждающий ставит себя на место другого человека и проводит рассуждения с его точки зрения. Рефлексивные рассуждения обладают свойством рекурсивности, т. е. как бы вкладываются друг в друга, как матрешки. Например, можно рассуждать о том, как некто рассуждает о вас или моделирует ваши рассуждения о нем. Ковентри Пат-мор в своем стихотворении прекрасно иллюстрирует эту рекурсивность рефлексивных рассуждении. Зачем нам нужны рассуждения подобного типа? Мы их используем тогда, когда делаем выбор, успех и неуспех которого предопределяется не только нашим собственным решением, но и решениями других людей, связанных с нами какими-то связями. Пример подобной ситуации—игра в размещения, в которой выигрыш каждого участника коллектива определяется не только его индивидуальным действием, но и действиями остальных участников коллектива. Поэтому использование в коллективном поведении механизмов, имитирующих рефлексивные рассуждения, может оказаться полезным. В данном параграфе мы постараемся показать это. Введем сначала важное для нас понятие ранга рефлексии. Это понятие мы введем индуктивным путем. Будем говорить, что индивид или автомат имеет нулевой ранг рефлексии, если при выборе своего действия он никак не учитывает наличия других участников коллектива. Выбор при нулевом ранге рефлексии определяется только той информацией, которая поступила на вход принимающего решение от среды. Индивид (или автомат) имеет первый ранг рефлексии, если он считает, что остальные участники коллектива имеют нулевой ранг рефлексии и он сам может выбирать действия за них. Отметим, что наличие первого ранга рефлексии связано с требованием наличия информации по крайней мере о некоторых участниках коллектива и сигналах от среды; поступивших на их вход. Определение последующих рангов рефлексии происходит аналогичным образом. Индивид или автомат имеет k-й ранг рефлексии, если он считает, что все остальные известные ему участники коллектива имеют ранг рефлексии, равный k—1, и он может провести за них соответствующие рассуждения. Такое определение ранга рефлексии связано лишь с мерой информированности системы, делающей выбор, о сигналах, поступивших на входы других систем. У человека же рефлексивные рассуждения в подавляющем большинстве случаев опираются на некоторые знания, хранящиеся в его «модели мира». Это знания о закономерностях поведения в данном обществе, человеческих возможностях в том или ином состоянии, нормах и ограничениях и т. п. Но даже в столь обедненном виде рефлексивные рассуждения оказываются полезными в ряде моделей коллективного поведения. Рассмотрим следующую задачу. В дачном кооперативе пробурена скважина для подачи воды. На каждом участке имеется свой собственный насос, способный подать воду из скважины в кольцевой коллектор, охватывающий все участки (рис. 3.15). Но мощности этих насосов таковы. что создаваемый ими напор в коллекторе позволяет производить поливку трех соседних участков, если включены два насоса. Другими словами, если на участках 2 и 3 насосы включены, то можно полить и посадки на участке 4. Каждый хозяин участка имеет индивидуальную цель — обеспечить свой участок водой. Но имеется еще дачный трест — владелец всех n участков, И у него есть собственная цель — экономия электроэнергии. При обеспечении поливки всех участков для дачного треста невыгодно, чтобы работали все n насосов. Наилучшим для него является случай, когда работает только n/2 насосов (если п—четное), или (n+1)/2 насосов (если п—нечетное). Достаточно, например, включить насосы лишь на участках с четными (пли нечетными) номерами и весь полив будет обеспечен. Конечно, дачный трест мог бы добиться этого какими-либо принудительными мерами, например централизованным управлением насосами из центральной диспетчерской. Но владельцы участков этому противятся, считая, что дачный трест вмешивается в их личные дела. И тогда трест пытается организовать экономию электроэнергии путем денежных штрафов за ненужный расход электроэнергии коллективом владельцев участков. Прежде чем пояснить, как это делается, отметим некоторую искусственность нашей задачи. Ее содержательная интерпретация нужна была нам лишь для того, чтобы вызвать у читателя некоторые образные ассоциации, а не подсовывать ему неизвестно откуда взятую модель, на которой будет показана полезность рефлексивных рассуждении. Перейдем теперь к описанию самой модели. Имеется кольцо, состоящее из п автоматов (будем для определенности считать п четным). Каждый автомат может находиться в двух состояниях — рабочем и выключенном. Эти состояния мы для краткости будем обозначать соответственно 1 и 0. Каждый автомат имеет информацию о своем состоянии и состоянии двух своих соседей. Число действий каждого автомата также равно двум. Эти действия есть просто сообщения о том, в каком состоянии находится в данный момент автомат. На каждом такте функционирования автоматы получают на вход сигналы поощрения и наказания. При поощрении автомат сохраняет свое состояние, при наказании — меняет его. Взаимодействие автомата в кольце со средой (дачным трестом) определяется табл. 3.3. Таблица 3.3
Если автомат при выборе своего очередного состояния будет руководствоваться только этой таблицей, то мы будем считать его обладающим нулевым рангом рефлексии. Если все автоматы кольца имеют нулевой ранг рефлексии, то дачный трест может попасть в ситуацию, когда достижение его цели окажется невозможным. Если, например, в начальный момент все автоматы находятся в рабочем состоянии, то все они, согласно последней строке таблицы, получат сигнал наказания и перейдут в нерабочие состояния. Но в этом состоянии весь коллектив опять получит сигнал наказания, все автоматы перейдут в рабочее состояние, и цикл замкнется. Насосы на участках будут либо все включаться одновременно, либо бездействовать», а цель дачного треста так и не будет достигнута. Введем теперь различные ранги рефлексии. Пусть, например, некоторый автомат имеет первый ранг рефлексии. Тогда он делает свой выбор следующим образом. Он анализирует переход, который должны совершить его соседи (а для этого, он должен иметь информацию о соседях своих соседей), считая, что они обладают нулевым рангом рефлексии, т. е. при своем выборе руководствуются приведенной выше таблицей, а затем совершает переход на основании своего рассуждения. При этом вероятность наказания для него задается уже не средой, а определяется им самим. Другими словами, кроме информации о состояниях, в которых находятся его непосредственные соседи и соседи его соседей, автомат с первым рангом рефлексии должен еще звать правый столбец табл. 3.3, Только при наличии этой дополнительной информации он сможет провести правильное рефлексивное рассуждение. Для иллюстрации его рассмотрим ситуацию, показанную на рис. 3.16. Сначала наш автомат проводит рассуждения за левого соседа. Как следует из таблицы, определяющей функционирование автомата с нулевым рангом рефлексии, левый сосед не может получить сигнал наказания и останется в своем состоянии 0. Правый же сосед с вероятностью 0,5 сменит свое состояние и с такой же вероятностью сохранит его. Что делать нашему автомату в подобной ситуации? Если правый сосед сменит свое состояние, то, сохранив свое состояние, наш автомат окажется в благоприятном положении. Если же этого на произойдет, то вероятность наказания, которая нависнет над ним, будет равна 0,5. Если же наш автомат сменит свое состояние, то либо он получит сигнал наказания с вероятностью 1 (если правый сосед изменит свое состояние), либо с вероятностью 0,5 (если правый сосед сохранит свое состояние). В любом случае автомату с первым рангом рефлексии лучше сохранить свое текущее состояние. Если бы автомат имел второй ранг рефлексии, то, согласно нашему определению, он считал бы своих соседей автоматами с первым рангом рефлексии, а, значит, проводя рассуждения за них, привлекал бы информацию не только о своих соседях и соседях этих соседей, но и о соседях соседей соседей. На рис. 3.17 показано, как расширяется множество автоматов, относительно которых необходимо иметь информацию об их текущих состояниях при росте значения ранга рефлексии. Отметим, что если некоторый автомат имеет определенный ранг рефлексии, то это вовсе не означает, что он правильно предсказывает реакцию анализируемого множества автоматов. Он может и ошибаться. Имея, например, первый ранг рефлексии, автомат предполагает, что его соседи делают свои выборы как автоматы с нулевым рангом рефлексии. Но вполне может оказаться, что его соседи сами являются автоматами с рангом рефлексии выше нулевого. В этом случае прогноз их поведения не будет соответствовать тому, что они на самом деле будут делать. Можно поставить следующий вопрос: существуют ли такие распределения значений рангов рефлексии по коллективу автоматов, которые позволяли бы дачному тресту надеяться, что со временем коллектив придет к благоприятным состояниям (чередованию состояний 1—0—1—0 и т. д.). Моделирование этой задачи на ЭВМ показало, что коллектив выходит на этот глобальный оптимум не всегда, а лишь при определенных распределениях рангов рефлексии. Оптимум по коллективу, например, всегда достигается, когда на кольце чередуются автоматы с нулевым и первым рангами рефлексии. Но он же достигается и не при столь регулярном их чередовании. В конце § 3.4 мы рассмотрели модель, весьма близкую к той, которую мы сейчас проанализировали. В ней ситуацией равновесия оказывалась партия вида 1010 ... 10 (в обозначениях § 3.4 партия АБАБ ... АБ). Это та партия, которая устраивает нас в задаче включения насосов. Но в ранее рассмотренной модели выход игроков в эту точку обеспечивался заданной на стр. 94 системой выигрышей. В нашем же случае такой системы выигрышей нет. И коллектив автоматов не обладает в этой партии точкой равновесия. Ее возникновение порождается неоднородностью в коллективе автоматов, вносимой различными рангами рефлексии. И эта неоднородность позволяет нам решить задачу оптимизации, которую не способен решить однородный коллектив, если не принять каких-либо дополнительных мер. § 3.6. Оптимисты и пессимисты в мире автоматовРассмотрим еще один способ введения неоднородности в коллектив автоматов, решающий некоторую задачу. Как всегда, начнем с некоторой содержательной интерпретации задачи. Пусть некто решил жениться. Но поскольку женитьба — шаг серьезный, то жених намеревается принять решение только после того, как он будет иметь некоторую информацию о своей будущей спутнице жизни. Пусть для него жизненно важны две вещи: наличие квартиры у его избранницы и умение ее готовить вкусные обеды. Такой меркантилизм не должен смущать читателя. Авторы книги вовсе не идеализируют героя этой истории, а может быть, и осуждают его за невнимание к вещам куда более серьезным, чем жилплощадь и пища. Но что поделаешь. Иногда для наглядности приходится мириться с некоторыми недостатками героя примера. Степень информированности жениха об интересующих его предметах будем выражать следующим образом. Если квартира у избранницы есть, то Х1 = 1, в противном случае Х1 = 0. Если же жених пока не обладает сведениями о наличии у своей избранницы отдельной квартиры, то полагаем X1 = 0,5. Аналогично считаем, что умение готовить обеды приводит к Х2 = 1, неумение — к Х2 = 0, а значение Х2 = 0,5 свидетельствует об отсутствии у жениха необходимой информации. Введем еще переменную Y, которая будет отражать решение жениха. Если он твердо решил жениться, то Y=1. Значение Y = 0 свидетельствует об его отказе от избранницы, а Y = 0,5, означает, что жених колеблется, не зная, что ему делать. Составим отражающую эту ситуацию табл. 3.4. Она задает пять функций троичной логики, зависящих от двух аргументов X1 и Х2. Наиболее проста из них функция Y1 Как видно из таблицы, Y1=min(X1,X2). В логике такую функцию принято называть конъюнкцией. Если жених использует для принятия своих решений эту функцию, то он соглашается на брак только при условии выполнения двух своих требований: наличия квартиры и умения готовить вкусные обеды. Если хотя бы одно из этих условий не выполнено, то он отказывается от брака. При наличии неопределенности в условиях, когда остальные требования выполнены, или в условиях полной неопределенности (X1 = 0,5; X2 = 0,5) жених медлит с решением и не говорит ни да, ни нет. По-видимому, он ждет новой порции информации. Такое поведение жениха можно назвать объективным или бесстрастным. Таблица 3.4
Остальные функции в нашей таблице описывают способ принятия решений несколько иного типа. Функции Y2 и Yз отражают пессимистическую точку зрения. Жених такого типа всегда предполагает, что мир устроен не лучшим образом и всегда надо ждать от него подвоха. Поэтому он склонен интепретировать незнание как отрицательную оценку. Такой жених — пример явного пессимиста. При этом, если он руководствуется функцией Y2, то его пессимизм достигает крайней степени. При наличии любой неопределенности происходит отказ от дальнейшего накопления информации, и общение жениха с невестой прекращается. В случае функции Yз пессимизм не столь категоричен. Лишь в случае полной неопределенности жених прекращает свои попытки устроить свою личную жизнь. При частичной неопределенности он стремится продолжить сбор интересующей его информации. Оставшиеся две функции характеризуют противоположный взгляд на мир. Это взгляд оптимиста, всегда надеющегося, что природа принесет ему неожиданную удачу. Оптимист, руководствующийся в своем выборе функцией Y5, представляет собой случай крайнего (пожалуй, даже «оголтелого») оптимиста, ибо в своих рассуждениях он заменяет все оценки 0,5 оценками, равными 1. Функция Y4 характеризует более осторожного оптимиста, который склонен заменять единицей не более одной оценки 0,5. Таким образом, подобно рангам рефлексии можно ввести ранги пессимизма — оптимизма. Будем считать, что бесстрастный жених имеет ранг, равный нулю. Жених, заменяющий т и более оценок 0,5 на 0, имеет ранг пессимизма п—m+1, где п—число, учитываемых условий, а жених, заменяющий т и менее оценок 0,5 на 1,—ранг оптимизма т. В случае двух аргументов, который отражен в нашей таблице, возможны ранги пессимизма и оптимизма 1 и 2. Число возможных рангов растет линейно с ростом числа аргументов n. При принятии своего решения о браке жених может руководствоваться и несколько иными соображениями, чем было описано выше. Весьма возможно, что он не такой уж и экстремист и готов жениться и в том случае, когда у его избранницы есть либо квартира, либо она относится к числу хозяек, готовящих весьма вкусные обеды. Наличие того и другого одновременно рассматривается таким претендентом на ее руку как редкая удача. Описание процесса принятия решений о браке таким женихом можно представить в виде табл. 3.5. Таблица 3.5
Функция Z1=max(X1,Х2) в логике называется дизъюнкцией. Она определяет бесстрастный выбор жениха, согласного на выполнение хотя бы одного своего требования. Функции Z2 и Z3, отражают пессимистическую точку зрения, a Z4 и Z5 — оптимистическую точку зрения при дизъюнктивном выборе. Подобно тому как при конъюнктивном выборе мы ввели в рассмотрение ранги пессимизма —оптимизма, их можно ввести и при дизъюнктивном выборе. Введенные нами функции, кроме Y1 и Z1, можно соответственно называть пессимистическими или оптимистическими квазиконъюнкциями и квазидизъюнкциями тех или иных рангов пессимизма — оптимизма. Для иллюстрации воздействия введенных нами характеристик на коллективное поведение автоматов рассмотрим модель, являющуюся, известным обобщением модели игры в размещения, которая обсуждалась для однородного коллектива автоматов в начале данной главы. Каждое утро пастух, выгоняющий стадо на выпас, решает довольно сложную оптимизационную задачу: куда гнать стадо? Он знает п участков, пригодных для выпаса. Но и другие пастухи, пасущие свои стада в том же районе, осведомлены о них не хуже его. И вполне может случиться, что, пригнав свое стадо в прекрасную долину недалеко от деревни, он увидит, что кто-то уже опередил его еще накануне и вся пища уже уничтожена. А в более высокогорной котловине травы может быть совсем немного, ибо дожди в последнее время были редки и трава, по всей видимости, не набрала там силу. Есть, правда еще одно прекрасное место, но там почти наверное придется делить его с соседями и животным его стада придется съесть меньше, чем они бы смогли. Как же пастуху добиться своей цели: увеличить живой вес своего стада? Говорят, что в соседнем районе пастухи договорились между собой и составили план выпаса. Но в их районе об этом только поговаривают. И о чем только думает районное начальство, которое должно заботиться о суммарном весе всего поголовья животных в стадах района? Оставим на время пастуха с его нелегкими раздумьями. Формализуем постановку задачи о поиске наиболее благоприятного места для выпаса стада. Вместо пастуха с его стадом будем рассматривать некий автомат, который имеет п различных действий, смысл которых сводится к выбору одного из п участков для выпаса. Каждый такой участок автомат априорно оценивает двумя оценками: оценкой вероятности наличия в этом месте достаточного количества пищи для того, чтобы животные не голодали X1i (i здесь номер участка), и оценкой посещаемости участка, отражающей прогноз о среднем числе автоматов, которые могут одновременно с ним оказаться на участке с номером i(X2i). Эти две оценки могут формироваться за счет накопления некоторого предшествующего опыта, знания о характере участков и погодных условий или на основании «голого эмпириз-ма». Несколько огрубляя задачу, будем считать, что все оценки имеют троичный характер. Тогда X1i=1 означает, что на участке i имеется достаточно пищи для прокорма стада, X1i=" 0 — что пищи на участке i явно мало, a X1i==0,5 — что у автомата нет информации о вероятности нахождения на участке i достаточного количества пищи. Вторые оценки имеют следующий смысл: X2i== 1 — на участке с номером i предполагается такое количество одновременно пасущихся автоматов, которое при равном распределении ресурсов (пропорционально числу пасущихся автоматов, пришедших на этот участок) обеспечивает нашему автомату необходимое количество пищи; X2i==0 означает, что пищи при дележе с соседями по участку будет явно недостаточно, а X2i==0,5 свидетельствует об отсутствии информации по этому вопросу. Таким образом, при принятии решения о выборе участка автомат может действовать как наш гипотетический жених, принимающий решение о браке. Что же показали результаты моделирования на ЭВМ? Коллектив автоматов выходил на оптимум с точки зрения районного начальства лишь при определенных распределениях рангов пессимизма — оптимизма. При этом, если в модели допускалось «вымирание» автоматов — т. е. они в течение некоторого числа тактов распределений по участкам не набирали порогового значения количества пищи, то с течением времени моделирования в коллективе возрастал процент умеренных пессимистов, которые оказывались более жизнеспособными, чем оптимисты всех рангов. Процентный состав пессимистов и оптимистов в коллективе, распределение их по рангам во многом зависят от истинных параметров среды. Но в любом случае крайние пессимисты и оптимисты приносят мало пользы коллективу и при наличии вымирания быстро из него исчезают. Наиболее устойчивыми в среднем оказываются совокупности, в которых около 40 % бесстрастных автоматов, около 40 % умеренных пессимистов и 20 % умеренных оптимистов. Этот феномен связан с тем, что в однородных коллективах без организации какого-либо взаимодействия между автоматами (например, общей кассы или случайного парного взаимодействия) все автоматы кучно переходят от одного выбора к другому. Если же в коллективе имеются различные автоматы, то пессимисты и оптимисты выбирают те участки, которые не выбрали бы бесстрастные автоматы, что приводит к «размазыванию» коллектива автоматов по участкам. Тот же эффект, как было показано, достигается введением общей кассы в однородном коллективе автоматов, решающем задачу размещения. В рассмотренной нами модели «игроки» оперировали не с самими значениями тех или иных параметров среды, а с их оценками. В одном из экспериментов, например, предлагалось, что X1i==1, если вероятность наличия нужного количества пищи на участке с номером i больше 0,75. Если она была меньше 0,25, то полагалось, что X1i=0. В остальных случаях принималось, что X1i=0,5. Для второго параметра X2i=1> если на i-м участке было менее 1/4 всех стад, имеющихся в районе. А когда это количество увеличивалось до 3/4 или превосходило это число, полагалось, что X2i=0. В остальных случаях оценка второго параметра была равна 0,5. Субъективизм. этих границ очевиден. Люди в своей практике принятия решения в конфликтных ситуациях используют многие виды таких субъективных оценок. На рис. 3.18 показаны кривые, характеризующие отношения игрока-человека к получаемым им в процессе игры выигрышам. По оси абсцисс на графиках отложены величины выигрыша — проигрыша игроков, а по оси ординат—субъективные оценки этих значений игроком. Названия, приведенные на рисунке, говорят сами за себя. Дж. Кемени и Дж. Томпсон, проанализировав эти функции оценок, показали, что в коллективе из игроков с различной психологической доминантой решения, принимаемые ими в одних и тех же условиях, могут быть весьма различными. Приведем одну из моделей, предложенную ими. Пусть некто устраивает лотерею. Он выбирает такую стоимость одного лотерейного билета s, приобретя который участник лотереи может с вероятностью g выиграть некоторую сумму l. Математическое ожидание проигрыша для устроителя лотерея равно g{-l)+(l-g)s. Конечно, он не захочет проигрывать и сделает так, чтобы выполнялось неравенство 0<g<s/(l+s) Величина g мала, так как l велико по сравнению с s. Пусть человек, купивший лотерейный билет, оценивает свои выигрыши и проигрыши с помощью одной из тех оценочных функций f, которые показаны на рис. 3.18. Тогда он оценивает математическое ожидание полезности покупки лотерейного билета как Естественно считать, что человек покупает лоте-рейный билет только в том случае, когда эта оценка положительна. Тогда разные типы игроков примут различные решения. Легко представить себе, что при определенных значениях s, l и g их решения распределятся следующим образом: решение играть примут азартный игрок и бедняк; заурядный игрок будет играть в лотерею лишь при малых значениях l, а отчаянный при l, большем, чем абсцисса точки разрыва; объективный, осторожный, выигрывающий и богач откажутся от участия в лотерее; заурядный откажется при больших значениях l, а отчаянный — если l меньше абсциссы точки разрыва на графике его оценочной функции. Материал двух последних параграфов свидетельствует о том, что в моделях коллективного поведения введение неоднородности служит тем же целям, что и дополнительные механизмы по целенаправленному воздействию среды на участников коллектива. Поэтому можно считать, что разнородность, столь часто встречающаяся в природе и технических системах, не является чем-то случайным, «нарушающем гармонию», а отражает фундаментальную идею о лучшем функционировании разнородных коллективов, решающих общую задачу в условиях децентрализации, по сравнению с однородными коллективами, решающими ту же задачу. § 3.7. Еще три простые моделиD животном мире и мире растений неоднородность помогает регулировать соотношение тех или иных видов в биоценозах и фитоценозах. В качестве иллюстрации приведем две простенькие модели, хорошо известные в экологии. На рис. 3.19,а показана ситуация, сложившаяся в среде, где живут бактерии, изображенные в виде овалов. В некоторые из них проникли частицы, называемые плазмидами. Эти органические образования стоят на грани живого и неживого. Плазмиды самовоспроизводятся и имеют обмен с внешней для них средой. Этой средой служат для них тела бактерий. В условиях неперенаселенности, когда бактерии имеют достаточное количество пищи, плазмиды выделяют в окружающую их среду вещество, называемое иммунопротеином. На рис. 3.19, а плазмиды показаны зачерненными кружками, а иммунопротеин — точками. Но вот количество бактерий увеличилось на столько, что они начинают испытывать голод. Голодают и плазмиды. Это приводит к тому, что плазмиды, оказавшиеся за граничным значением голодания, начинают вырабатывать не иммунопротеин, безвредный для бактерии-хозяина, а комицин. На рис. 3.19,6 показана такая ситуация, когда одна из плазмид начинает вырабатывать комицин (зачерненные квадратики в теле бактерии). Комицин убивает бактерию и плазмиду. Но комицин, попадая во внешнюю среду, убивает в определенной окрестности все бактерии, не содержащие в своем теле иммунопротеин (рис. 3.19, б), после чего в среде остается уже меньшее число бактерий (рис. 3.19,г), Если их все еще слишком много, то найдется такая плазмида, которая опустится ниже «порога жизни" и начнет срабатывать комицин, что приведет к дальнейшему сокращению популяции бактерий. Плазмиды же делятся вместе с бактериями только тогда, когда пищи становится «слишком много", выше некоторого порога, превышение которого вызывает деление у «чистых» бактерий. Эту реальную модель саморегулирования численности организмов можно представить и в виде неоднородного коллектива автоматов, живущего в некоторой среде, в которой поддерживается постоянный уровень пищи. Вся пища делится поровну между членами коллектива. Автоматы - плазмидоносители делятся в том случае, когда количество поглощаемой ими пищи превышает некоторый порог Q1. Остальные автоматы производят деление при более низком пороге Q2. Когда автомат - плазмидоноситель получает пищи меньше, чем Q3 < Q2, то он погибает и уничтожает все обычные автоматы, которые находятся от него на определенном расстоянии (например, на торе в клетках, отстоящих от данной на расстоянии, не превышающем 5-кратного размера клетки). Для того чтобы одновременно не погибли все автоматы - плазмидоносители в модели, случайным образом выбирается один из них. Если после этого уровень пищи все еще не превосходит Q3, то случайным образом выбирается еще один автомат, способный уменьшить величину популяции. Моделирование такого процесса на ЭВМ показало почти точное совпадение процесса регулирования с тем, что происходит в природе у бактерий. Вторая модель регулирования численности чуть-чуть сложнее. Пусть члены коллектива могут использовать друг относительно друга при столкновениях (например, при случайных парных взаимодействиях) две стратегии: агрессивную и угрожающую. Если оба члены коллектива применяют агрессивную стратегию, то это напоминает драку двух петухов или схватку оленей. Оба противника наращивают усилия и не желают уступать друг другу. И лишь гибель или позорное бегство одного из них выявляет победителя. Если один из членов коллектива применяет агрессивную стратегию, а другой лишь угрожающую, то при достижении определенного уровня агрессивности тот, кто придерживался угрожающей стратегии, спасается бегством. Встреча собаки и кошки — яркий пример этой ситуации. Собака сначала всегда придерживается агрессивной стратегии, а кошка отвечает ей угрожающей (выгибает спину, издает шипение и т. д.). Если собака пугается и переходит на угрожающую стратегию, то после взаимных угрожающих поз животные расходятся. Если же собака продолжает наращивать усилия в рамках агрессивной стратегии, то кошка спасается бегством. Противники с самого начала могут оба придерживаться угрожающих стратегий. Они принимают различные ритуальные угрожающие позы, и этот процесс продолжается до тех пор, пока один из них не признает себя побежденным (для этого он, как правило, принимает специальную ритуальную позу подчинения). Подобное соперничество можно наблюдать у собак, серых гусей, тетеревов и многих других животных. Рассмотрим модель подобного соперничества. Агрессивную и угрожающую стратегии будем обозначать соответственно буквами А и У. Составим таблицу, в которой оценены все возможные комбинации парного соперничества (табл. 3.6). Таблица 3.6
На пересечении строк и столбцов таблицы стоят пары чисел. Это условные оценки выигрышей — проигрышей соперников при выборе той или иной стратегии поведения. Если, например, один из них (первый) выбрал стратегию А, а второй — стратегию У, то первый получает выигрыш, равный 10 условным единицам, а второй остается при «своем интересе». Поясним теперь, как возникли эти оценки. Сначала мы условно оцениваем победу при соперничестве как выигрыш, равный +10, серьезное повреждение или гибель, которые могут произойти при наращивании усилий в стратегиях А, оцениваем как (—20). Поскольку при встрече двух агрессоров исход поединка мы считаем равновероятным, то математические ожидания поощрения — наказания при паре стратегий (А,А) есть 0,5*10+0,5*(—20)= --5. Аналогично для встречи со стратегиями (У,У) это ожидание вычисляется как 0,5*10+(—3)=2. Здесь оценка (—3) есть плата за нервное напряжение в длительном конфликте при стратегии У. Эта стратегия приводит к значительному расходу нервных и других ресурсов животного. Таким образом, таб. 3,6 задает платежную матрицу некоторой игры. Рассмотрим организм, который может по своему желанию менять свою стратегию в зависимости от обстоятельств. Этот организм можно смоделировать в виде автомата с двумя состояниями, соответствующими стратегиям А и У, использование которых определяется вероятностями РA и Ру. При этом, конечно, РA+Ру=1. Рассмотрим коллектив, состоящий из подобных автоматов, и предположим, что он неоднороден, причем неоднородность задается различными значениями РA. В частности, при РA==1 автомат является чистым агрессором. Он во всех случаях жизни придерживается стратегии А. При РA==0 автомат всегда придерживается стратегии У. Как и в предшествующей модели, зададим некоторые пороги Q1 и Q2. Если автомат накапливает выигрыш, превышающий Q1, то он «размножается». Вместо него появляются два автомата с тем же значением РA у каждого. Если же накопленное наказание становится по абсолютной величине больше Q2, то автомат «вымирает». Возникает вопрос об оптимальном значении РA при случайном парном взаимодействии автоматов в коллективе. При моделировании на ЭВМ было показано, что коллектив из достаточно большого количества описанных автоматов, в котором значения РA имели распределение, близкое к равномерному, эволюционирует в сторону однородного коллектива, для которого РA приближается к значению 8/13. Из теории игр следует, что смешанная стратегия, при которой стратегии А и У выбираются с вероятностями 8/13 и 5/13, является для игрока в определенном смысле наилучшей. Она обеспечивает игроку максимально возможный гарантированный выигрыш (при самых наихудших для него действиях противника). Интересно было бы получить экспериментальные данные из наблюдений за животными (например, кошками), которые давали бы оценки частоты выбора ими стратегий А и У при встрече с противником, равным по силе. К сожалению, такими данными мы не располагаем. Вернемся к тому, с чего мы начали настоящую главу. События в Арбатове побудили нас рассмотреть ряд моделей коллективного взаимодействия и соглашений. Эти модели, будь дети лейтенанта Шмидта образованными в области децентрализованного управления, позволили бы им извлекать из участков куда больший доход, чем тот, которого они достигли. И в этом сила моделей, с которыми мы познакомились. В заключение укажем еще на одну модель распределения участков, которой можно было бы воспользоваться при экспансии детей лейтенанта Шмидта на территориях, на которых они никогда не бывали и сведений о которых у них нет. Такие участки кажутся равноценными, и распределение их вряд ли кого-нибудь взволнует. Жеребьевка их чисто формальна. Но вот участники дележа разъехались на места и начали «работу». Через некоторое время они уже могут оценить средний доход с доставшегося им участка. Повторный съезд участников конвенции должен восстановить справедливость (например, за счет отступных или общей кассы). Но владельцам богатых участков этого не хочется. Они не альтруисты. Тогда можно использовать механизм направленной лжи. При вопросе о среднем доходе с участка спрашиваемый говорит истинную цифру лишь тем, чей доход выше, или тем, кому невыгодно переходить на его участок. Остальным он врет, снижая истинный доход до того уровня, когда переход для спрашивающего становится невыгодным. В этой модели участники должны располагать различной информацией о реальных доходах других участников. При этом увеличение объема информация способствует улучшению условий функционирования данного автомата. Обратим внимание читателей на это важное свойство обсуждаемой модели. В модели рефлексивного поведения такая прямая зависимость не наблюдается. Все модели, которые мы предложили в данной главе, обладают одной особенностью. Если рассматривать коллектив автоматов как прообраз некоторой биологической, социальной или технической системы, то эта система функционирует в параллельном режиме, все ее подсистемы действуют независимо друг от друга и им не приходится ждать каких-либо результатов работы других подсистем. Такое положение дел встречается не столь уж часто. В сложных системах работа подсистем часто взаимоувязана, существуют определенные временные зависимости, отражающие порядок срабатывания подсистем. Эти зависимости могут носить как вероятностный, так и детерминированный характер. Поэтому в последующих двух главах мы рассмотрим децентрализованное управление, осуществляемое при таких дополнительных ограничениях. Г л а в а 4 КОГДА "ВСЕ ПО СПРАВЕДЛИВОСТИ" «Мы холодны душой к нелепым
чудесам. Буало § 4.1. Прав ли был Остап Бендер?«..у окошечка администратора господствовало оживление. Там стояла цветная очередь. Молодые люди, в фасонных пиджаках и брюках того покроя, который провинциалу может только присниться, уверенно размахивали записочками от знакомых режиссеров, артистов, редакций, театрального костюмера, начальника района милиции и прочих, тесно связанных с театром лиц, как то: членов ассоциации теа- и киноработников, общества «Слезы бедных матерей», школьного совета «Мастерской циркового эксперимента» и какого-то «Фортинбраса при УМСЛОПОГАСЕ». Человек восемь стояли с записками от Эспера Эклеровича. Остап врезался в очередь, растолкал фортинбрасовцев и, крича:—«Мне только справку, вы же видите, что я даже калош не снял!», пробился к окошечку и заглянул внутрь». Прав ли был герой романа «Двенадцать стульев», когда считал, что с коротким делом можно прорываться без очереди, или великий комбинатор заблуждался? Как должна была вести себя очередь? И как себя должен был вести администратор? Очередь! Очередь становится таким же спутником нашего быта, как еда, сон, развлечения. Впрочем, как не вспомнить здесь очередь за едой в столовой, очередь за сном в гостинице, очередь за развлечением в театральной кассе. Временами нам кажется, что очередь является порождением чьей-то злой воли, результатом деятельности враждебных сил. Однако в действительности, возникновение очередей — такая же закономерность, как выпадение снега зимой и дождя летом. Плохая, неразумная организация не порождает очередь, а лишь увеличивает ее длину. Понятие очереди безусловно предполагает наличие тех, кто в ней стоит. Заметим, что в очереди могут стоять не только люди, а, например, коровы, ожидающие, когда их будут доить. Не только одушевленные предметы, а, например, радиоприемники, ожидающие починки, или месторождения полезных ископаемых, ожидающие, когда их разведают, а разведанные — когда их освоят. Очередь могут образовывать и объекты не материальной природы, например научные идеи, ожидающие, когда их разработают и внедрят. Объекты, стоящие в очереди, независимо от их природы, мы будем называть клиентами. При этом очередью мы будем именовать не всякую совокупность клиентов, а лишь совокупность клиентов, связанных общей целью. Такой целью является стремление быть обслуженным. Обслуживание не обязательно должно быть активным. Например, без двух минут восемь вы встали в очередь, чтобы расписаться в книге прихода на работу. Вы расписались, но «с точки зрения» очереди, эта книга обслужила вас Весь комплекс обслуживающих средств: место обслуживания, обслуживающий персонал и т. п. в совокупности с правилами обслуживания мы будем называть каналом обслуживания*). *) Для читателей, знакомых с терминологией теории массового обслуживания, отметим, что введенное нами понятие «канал обслуживания» для классических моделей этой теории эквивалентно понятию «обслуживающий прибор». Но наше понимание моделей обслуживания шире, чем в рамках упомянутой теории. Совокупность клиентов, каналов обслуживания и правил взаимодействия между клиентами и каналами, клиентов между собой и каналов между собой мы будем называть системой обслуживания. Для изучения системы обслуживания мы должны знать, каким способом клиенты попадают в систему или каковы механизмы, или модели механизмов, порождающие у клиентов потребность в обслуживании. Должны знать, каковы характеристики процесса обслуживания. Должны знать, как организовано или как может быть организовано поведение клиентов в очереди и их взаимодействие друг с другом. Как клиенты попадают из очереди в канал обслуживания и как каналы обслуживания получают клиентов. И, наконец, мы должны представлять себе возможные механизмы взаимодействия каналов обслуживания друг с другом как в процессе получения клиентов, так и в процессе их обслуживания. У внимательного читателя может возникнуть сомнение в логичности наших определений. С одной стороны, мы включаем клиентов в качестве элементов в систему обслуживания, а, с другой стороны, говорим, о том, что клиенты попадают откуда-то в эту систему. Но противоречие это чисто внешнее. Клиенты действительно попадают в систему обслуживания извне, но затем становятся ее элементами. И дрова в отопительной системе могут проиллюстрировать эту мысль. Для организации управления в системе обслуживания мы, кроме правил поведения системы, с помощью которых можно осуществлять управление, должны также уметь оценивать качество функционирования этой системы. Нетрудно понять, что здесь могут существовать явно противоречивые критерии, Как правило, в системах обслуживания критерий повышения рентабельности обслуживания вступает в противоречие с критериями качества обслуживания. Повышение рентабельности функционирования городского транспорта путем повышения загрузки транспортных средств вряд ли будет встречено с пониманием пассажирами. Именно противоречивость оценок качества функционирования делает системы обслуживания наиболее интересными с точки зрения организации в них оптимального управления. Как клиенты поступают в систему? Самый простой способ — поступление клиентов через равные промежутки времени. Если время обслуживания меньше этого промежутка или равно ему, то очередь возникать не будет. Если же время обслуживания превышает интервал между появлениями клиентов, то очередь будет неограниченно возрастать. Максимальное число клиентов, которое может обслужить канал за фиксированный отрезок времени, будем называть пропускной способностью канала. Доля времени, в течение которой система занята обслуживанием, будет определять нагрузку канала. При постоянном интервале поступления клиентов, или, как мы иногда будем говорить, поступлением заявок на обслуживание, и постоянном времени обслуживания очередь не возникает, если нагрузка не превышает пропускной способности канала. Если темп поступления клиентов или длительность обслуживания подвергаются случайным колебаниям, то очередь будет возникать всегда! Даже если пропускная способность системы больше, чем нагрузка. Очередь будет тем больше, чем больше разброс длительности интервала между поступлениями клиентов и чем больше разброс длительности обслуживания. Очередь также возрастает по мере приближения нагрузки к пропускной способности системы. При приближении нагрузки к пропускной способности очередь начинает расти неограниченно. Зная, как характеристики очереди зависят от параметров системы, мы можем искать пути их изменения, приводящие, например, к уменьшению очереди. Работая над гл. 3, мы в один из дней решили посмотреть кинофильм и начали звонить в ближайший кинотеатр, чтобы узнать репертуар и время начала сеансов. Телефон кинотеатра, как всегда, был непрерывно занят. Непрерывно набирая номер в течение 20 мин, мы наконец услышали: — «Здравствуйте! Вам отвечает автоответчик кинотеатра «Прометей». Сегодня смотрите в нашем кинотеатре: на детском утреннике в 9 ч утра кинофильм «Внимание, черепаха!». На сеансах 11 и 13 ч новая кинокомедия «Мимино». Новый художественный фильм «Приезжая» на сеансах 15 ч, 16 ч 40 мин, 18 ч 30 мин, 20 ч 20 мин и 22 ч 10 мин. Приглашаем посетить наш кинотеатр. Наш адрес: проспект Просвещения, д. 20». На часах было 16 ч, и нам казалось, что половину сообщения, которое мы прослушали, можно было бы опустить — нас мало интересовало, что показывали в кинотеатре до 16 ч. Нам казалось, что можно было опустить также две первых и предпоследнюю фразы — сокращение времени, необходимого для того, чтобы дозвониться до кинотеатра, с лихвой компенсировало бы некоторое отсутствие избыточной вежливости в ответе. Мы взялись за карандаши. Оказалось, что сокращение длительности текста, приводящее к увеличению пропускной способности, так изменяет отношение пропускной способности к нагрузке, что среднее время ожидания уменьшается почти в 5 раз. Нам, чтобы дозвониться до кинотеатpa, потребовалось бы 4 мин вместо 20 мин. Этот выигрыш оправдывает затраты на смену пленки в автоответчике после начала каждого сеанса. Ведь если нам просто не повезло и среднее время, которое необходимо затратить, чтобы дозвониться в справочное бюро кинотеатра, равно не 20, а только 10 мин., то и в этом случае уменьшение вдвое времени обслуживания дает в час экономию около десяти человеко-часов, проведенных у телефона. Трудности ликвидации такого положения заключаются в том, что тысячи человеко-часов в месяц, затрачиваемые у телефонов в бесплодных попытках дозвониться в справочные службы кинотеатров, дополнительные нагрузки на каналы телефонной связи и коммутационное оборудование телефонных станций ни в коей мере не влияют на оценку эффективности функционирования кинотеатров и их справочных служб. Аналогичные выводы, кстати, можно сделать о большинстве телефонных систем обслуживания, куда чрезвычайно сложно дозвониться. Моральный и материальный ущерб, приносимый очередями людям, очевиден. Но, быть может, он не столь уж важен, если речь идет о неодушевленных предметах? К чему в этом случае сводится ущерб, приносимый очередью? Во-первых, и это относится ко всем очередям независимо от того, кто или что является клиентом, очередь должна где-то располагаться. Чем больше очередь, тем большего размера хранилища для клиентов следует создавать. Причем мы не можем ориентироваться на среднюю длину очереди — грубо говоря, в половине случаев действительная очередь будет больше средней. Создание помещений для расположения очереди (складов для хранения, стоящих в очереди изделии, буферной памяти для стоящих в очереди на обработку информационных массивов и т. п.) существенно удорожает системы обслуживания. В ряде случаев снижение объема хранилищ для очереди оправдывает расходы на введение дополнительных каналов обслуживания. Во-вторых, клиенты, стоящие в очереди, изъяты из употребления. Люди, стоящие в очереди в магазине, в это время не работают, не читают книги, не воспитывают своих детей. Автомобили, стоящие в очереди на ремонт, не перевозят грузы. Стоимость всего, что стоит в очереди, входит в стоимость системы обслуживания. Если большой магистральный нефтепровод заполнен нефтью, то эта нефть изъята из употребления и является составной частью нефтепровода, ее стоимость входит в стоимость нефтепровода, Так же и в системе обслуживания. Детали, стоящие в очереди на обработку, изъяты из употребления и в размере, равном средней длине очереди, входят в определение стоимости системы обработки. Среднее число автомашин, ожидающих своей очереди на ремонт, является составной частью системы автосервиса, и их стоимость входит в стоимость системы автосервиса. Из сказанного ясно, что задача снижения средней длины очереди имеет явный экономический смысл. Выше мы уже видели на примере, что среднюю длину очереди можно снизить, если уменьшить время обслуживания или, что эквивалентно, увеличить пропускную способность системы. Однако очень часто мы не в состоянии влиять на этот параметр. Можем ли мы вместе с тем уменьшить среднюю длину очереди? Выше уже говорилось, что система обслуживания, кроме всего прочего, характеризуется взаимодействием клиентов в очереди, иначе говоря, договоренностью об их взаимном поведении в очереди. Такую договоренность мы будем называть дисциплиной обслуживания. Какие существуют дисциплины обслуживания? Самая привычная для нас дисциплина носит название «первым пришел — первым обслужен». Это обычная, так называемая живая очередь. Существуют и экзотические дисциплины. Например,— последним пришел — первым обслужен. Смысл использования такой дисциплины может определяться различными соображениями, например конструкцией помещения для очереди. Порождающие указанную дисциплину хранилища для очереди называются магазином по аналогии с магазином для патронов в пистолете. Отсюда и название «магазинная память» в вычислительных устройствах. Дисциплина «последним пришел — первым обслужен» часто используется в системах противовоздушной обороны. Клиент (самолет), появившийся последним в зоне обслуживания, имеет большую вероятность быть обслуженным (сбитым), так как он дольше других клиентов (самолетов) будет находиться в зоне обслуживания. Дисциплины обслуживания предусматривают наличие различных приоритетов, что разрешает клиенту нарушить основную дисциплину очереди. Типичный пример установленного приоритета — табличка: «Инвалиды Отечественной войны обслуживаются без очереди». Приоритетные правила чрезвычайно разнообразны и каждый раз связаны с конкретными условиями функционирования системы. Если мы не можем изменять нагрузку на систему и характеристики каналов обслуживания, т. е. их пропускную способность, то приоритетные правила остаются единственной возможностью вмешиваться в функционирование системы, т. е. управлять ее поведением. При этом возникают следующие вопросы. Существуют ли способы улучшить качество функционирования системы за счет введения приоритетов? Если существуют, то какие характеристики системы могут быть улучшены и за счет каких приоритетов? Существуют ли способы организации коллективного поведения клиентов или каналов обслуживания, обеспечивающие выработку системы приоритетов, оптимизирующей качество функционирования системы? На все эти вопросы мы попытаемся ответить в следующих параграфах данной главы. § 4.2. Дилемма парикмахера и приоритетыВ очереди в магазине стоят пять человек, делающих приблизительно равными покупки. При этом их обслуживание продавцом занимает приблизительно равное время, скажем 6 мин на каждого. Дверь в торговый зал открывается, и входит молодой человек, пришедший купить сигареты. Его обслуживание занимает 30 с. Молодой человек, пришедший за сигаретами, становится в общую очередь. Посмотрим, как развертываются события, начиная с этого момента. Продавец начинает обслуживание первого стоящего в очереди клиента, и время его ожидания равно нулю. Второй клиент ждет 6 мин, третий— 12 мин, четвертый—18 мин, пятый—24 мин, и молодой человек, пришедший за сигаретами,— полчаса. Суммарное время, которое все покупатели провели в очереди, равно полутора часам, В среднем по 15 мин на человека. Запомним эту цифру. Теперь предположим, что молодой человек купил свои сигареты без очереди. Тогда он, вместо получасового стояния в очереди, не затратил никакого времени на ожидание. А последовательность времен ожидания людей, стоявших до его прихода в очереди, имеет вид 0,5; 6,5; 12,5; 18,5; 24,5 мин. При этом полное время ожидания равно 62,5 мин, а среднее время ожидания равно 10,4 мин, т. е. уменьшилось почти в полтора раза. Средняя длина очереди за рассматриваемый отрезок времени изменилась с 2,4 до 2. Конечно, приведенное рассуждение лишь приблизительно отражает картину, так как в нашем примере поступление клиентов прекратилось с момента прихода молодого человека за сигаретами. Однако наш пример поясняет механизм, который обеспечивает снижение средней длины очереди и среднего времени ожидания обслуживания в том случае, когда быстро обслуживаемым клиентам в очереди назначается приоритет. Оказывается, что Остап Бендер был прав, требуя чтобы его пропустили без очереди, так как ему «только справку». Заметим, однако, и это знает каждый, стоявший в очереди, что нет такой силы, которая может заставить человека, стоящего в очереди, захотеть пропустить без очереди другого, т. е. увеличить свое собственное время ожидания, даже, если он твердо знает, что это улучшит общие характеристики системы обслуживания. Если трудно представить себе побудительные мотивы, которые могли бы сформировать систему приоритетов в очереди, то следует подумать, как такую систему могут навязать очереди каналы обслуживания. Для этого, однако, необходимо внести в правила взаимодействия клиентов и каналов право каналов назначать приоритеты или, что равнозначно, право выбирать из очереди клиентов га обслуживание. Теперь из магазина мы перейдем в парикмахерскую, в которой работают несколько равноценных мастеров (система с несколькими равноценными каналами обслуживания). В парикмахерскую приходит несколько категорий клиентов, отличающихся друг от друга временем обслуживания — клиенты, желающие только побриться, клиенты, желающий сделать простую или фасонную стрижку, клиенты, желающие постричься, побриться и сделать массаж лица и т. п. Как мы уже отметили, для уменьшения средней длины очереди имеет смысл пропустить без очереди тех, кто обслуживается быстро. Если времена обслуживания клиентов известны заранее, то на этом основании в парикмахерской может быть вывешен список приоритетов, составленный по принципу «короче обслуживаешься — раньше обслуживаешься». В этой ситуации опять же заявление Остапа «мне только справку» может служить достаточным основанием для нарушения очереди (дополнительное заявление о не снятых калошах находится вне нашей модели). Список приоритетов может быть достаточно простым. Например, «бреем без очереди!» Сложнее обстоит дело, когда времена обслуживания заранее неизвестны, могут быть случайными величинами и, вообще говоря, могут изменяться во времени. В этом случае мы должны формировать так называемые динамические приоритеты в процессе функционирования системы. В рамках интересующего нас подхода система приоритетов должна порождаться коллективным поведением каналов обслуживания. Для организации коллективного поведения нам необходимо так сформулировать в этой задаче индивидуальные предпочтения, чтобы, добиваясь максимального удовлетворения индивидуальных потребностей для совокупности клиентов, достигать и требуемый общесистемный эффект. Как мы уже отмечали, трудно предложить правдоподобные критерии, делающие для клиента предпочтительным увеличение времени пребывания в очереди. А вот для канала обслуживания такие критерии можно предложить сравнительно легко. Допустим (и это допущение достаточно естественно) , что парикмахер стремится к максимизации своего заработка. Тогда, если с точки зрения парикмахера клиент, обслуживаемый быстро, будет выгоднее клиента, обслуживаемого долго, то парикмахер будет изыскивать способы протащить такого клиента без очереди. Ситуация, в которой освободившийся парикмахер берет из очереди своего постоянного клиента, если последний ему достаточно выгоден, знакома многим. В ряде случаев такое действие вызывает возмущение очереди, но мы уже выше договорились узаконить право парикмахера иметь "любимчиков". Перед обращением за очередным клиентом парикмахер может объявить, например, что студентов он обслуживает вне очереди. Но, как мы уже отметили, клиент, обслуживаемый быстро, должен быть выгоден для парикмахера. Этого можно добиться, введя постоянную плату за обслуживание. Вообще говоря, постоянная плата за обслуживание может привести к росту времени обслуживания — «Раз уж я заплатил деньги, то почему бы не обслужиться по полному кругу»: поэтому можно, как в такси, ввести «плату за посадку», не зависящую от времени обслуживания. Мы начали с того, что в качестве системы обслуживания могут выступать системы самой различной природы, а не только системы, в которых клиентами и каналами служат люди. В' качестве системы обслуживания могут выступать самые разнообразные технические системы: системы связи, вычислительные машины, транспортные системы (например, система транспортерных лент, питающих углем бункеры ТЭЦ) и многое другое. Поэтому, изучая поведение каналов и клиентов в таких системах, мы будем стремиться формализовать их поведение. Формализовать так, чтобы его можно было реализовать достаточно простыми техническими средствами. Такой подход, кроме всего прочего, поможет нам строить и изучать модели организации коллективного поведения в системах обслуживания. Если же в реальном мире локальные задачи будут решаться более тонкими и «разумными» средствами, то тем лучше для системы. Однако для наглядности изложения мы на некоторое время сохраним терминологию парикмахерской. Разделим всех клиентов на несколько типов. Каждый тип клиентов требует времени обслуживания, лежащего в некотором своем интервале. Каждому типу клиентов присвоим номер, одинаковый для всех клиентов данного типа, и назовем его номером клиента. Все клиенты, независимо от их номера, вносят до поступления в канал обслуживания одну и ту же плату. Пусть эта плата состоит из К одинаковых монет, которые парикмахер кладет в копилку. После обслуживания, длившегося Т единиц времени, парикмахер вынимает из копилки Т монет. Если К=<Т, то в копилке ничего не остается и клиент не фиксируется. Если же К > Т, то в копилке остается (К—Т) монет и парикмахер вешает на копилку номер клиента. Клиент, номер которого висит на копилке, в следующий раз имеет право на обслуживание без очереди. Если К равно среднему по всей системе времени обслуживания, то приоритет получат клиенты, длительность обслуживания которых меньше, чем среднее в системе. Если имеющий приоритет клиент вновь придет на обслуживание, внесенная им плата добавится к остатку, находящемуся в обозначенной его номером копилке. Таким образом, за достаточный для этого отрезок времени, все клиенты, время обслуживания которых меньше среднего, будут упорядочены по значениям содержимого копилок, т. е. по средним временам обслуживания, отнесенным к частотам обслуживания клиентов. Действительно, если клиенты типа А дают доход 1 руб и приходят 10 раз в день, то они безусловно выгоднее клиентов типа Б, дающих доход 100 руб., но приходящих 1 раз в месяц. Если все типы клиентов упорядочены и имеют свои номера приоритетов, то для оптимизации длины очереди клиенты типа Б все равно должны иметь приоритет ниже, чем у клиентов типа А, хотя эффект от такого упорядочивания и невелик. Приведенный способ формирования приоритетов мало чем отличается от набора в процессе функционирования статистической информации о характеристиках клиентов и решения на этом основании задачи об оптимальной системе приоритетов. Нас такое решение задачи не должно удовлетворять. Во-первых, техническая сложность системы начинает зависеть от количества типов клиентов. Чем их больше, тем больше надо иметь копилок. Во-вторых, при такой постановке задача организации децентрализованного управления теряет содержательный смысл — на каждом канале обслуживания решается полная задача об оптимальной системе приоритетов. Попытаемся упростить систему и, быть может, тем самым выявить некоторые новые привлекательные черты ее поведения. Ограничим число приоритетов на каждом канале. Пусть каждый парикмахер может иметь лишь ограниченное, весьма небольшое количество «любимчиков». В простейшем случае—двух. Теперь парикмахеру достаточно иметь всего две копилки. Но тогда двое первых оказавшихся выгодными клиентов захватят приоритет на этом канале и, следовательно, формирование системы приоритетов прекратится. Для того чтобы избежать возможности попадания в такие тупиковые состояния, организуем конкуренцию клиентов на канале. Если на обслуживание поступает клиент, не имеющий приоритета по этому каналу, содержимое копилок сравнивается между , собой и копилка, имеющая меньший запас, очищается и начинается работа с новым клиентом. Здесь естественно возникает вопрос о необходимом числе копилок. Их, как видно, должно быть не менее двух, но и не более числа типов клиентов. Исследование поведения таких систем показало, что увеличение числа копилок сверх двух приводит к незначительным изменениям качества функционирования, несоизмеримым с затратами на усложнение системы управления. При построении такой системы возникает еще один вопрос. Если копилка захвачена клиентом, имеющим сравнительно небольшое, но явно не минимальное среднее время обслуживания, и этот клиент сумеет накопить достаточно большую сумму в своей копилке, то очень мала вероятность того, что другие клиенты, используя оставшиеся копилки, сумеют превзойти его, хоть и медленно, но постоянно растущий запас. Если же, начиная с некоторого момента, клиент вообще перестал посещать парикмахерскую, то очень велика вероятность того, что на канале будет удерживаться приоритет несуществующего клиента и опять-таки функционирование системы будет блокировано. Конечно, все эти трудности можно устранить повышением «интеллектуального уровня» правил формирования приоритетов. Но это уже называется «пускаться во все тяжкие», а нас интересуют возможности формирования простейших правил взаимодействия и алгоритмов оптимизации. Отсюда не следует, что если нам встретился умный парикмахер, то он должен зарыть свой талант в землю. Простейшим выходом из создавшегося положения является ограничение объема копилки. Если копилка переполнится, то избыточные деньги сдаются в кассу. Оказывается, что введение такого ограничения улучшает поведение системы в случае, когда характеристики клиентов изменяются во времени и что для каждой степени нестационарности системы, т. е. для каждого среднего времени между изменениями характеристик клиентов, существует оптимальная емкость копилки, при которой средняя длина очереди минимальна. При этом, чем чаще изменяются характеристики, тем меньше должна быть емкость копилки. Здесь уместно вспомнить о существовании оптимальной глубины памяти целесообразных автоматов при их поведении в переключающихся случайных средах. Аналогия здесь полная. Действительно, чем меньше емкость копилок, тем выше способность системы к переучиванию, тем она подвижнее, лабильнее. Однако, чем меньше емкость копилок, тем труднее системе различать между собой выгодных клиентов, тем грубее она работает. Оптимальная емкость как раз и соответствует компромиссу между качеством решения и временем, необходимым для его нахождения. Выработка приоритетов для каналов (причем разных для разных каналов) улучшает еще одно качество системы — количество переключении. Переключением мы называем переход от обслуживания клиентов одного типа к обслуживанию клиентов другого типа. Если подряд обслуживаются два клиента одного типа, то переключения не происходит. Легко понять, что если данный канал, и только он предоставляет приоритет некоторому типу клиентов, то подавляющее большинство клиентов такого типа поступает на обслуживание именно на этот канал, что уменьшает разнообразие типов клиентов на канале и, как следствие, снижает частоту переключении. Что дает системе снижение числа переключении? Во-первых, переключение всегда связано с потерями. Это либо расходы на переналадку оборудования, либо, как в случае систем связи, источник дополнительных помех, либо дополнительная потеря времени. Во-вторых, снижение числа переключении приводит к специализации канала обслуживания, что, как правило, приводит к снижению времени обслуживания приоритетных клиентов. Здесь мы коснулись вопроса, который несколько расширяет нашу модель. Очевидны случаи, когда один и тот же клиент на разных каналах имеет разное время обслуживания и различные времена обслуживания имеют разные клиенты на одном и том же канале. В этом случае перераспределение клиентов по каналам будет изменять не только среднюю длину очереди, но и пропускную способность системы. § 4.3. Как мастер распределяет наряды Рассмотрим производственный участок, состоящий из нескольких полностью взаимозаменяемых рабочих мест. На каждом рабочем месте выполняется несколько операций, составляющих цикл выполнения наряда. Независимо от того, кем выполняется работа, рабочим нли бригадой рабочих, мы будем называть совокупность рабочего места и исполнителя (канал обслуживания) рабочим. Процесс выполнения наряда (обслуживания клиента) состоит из последовательности разнотипных работ. Например, наряд определяет работу но изготовлению приспособления в инструментальном цехе. В последовательность работ входит фрезеровка, сверление, шлифовка, шабровка, сборка и т. п. Наряд характеризуется трудоемкостью каждой операции и ее сложностью. Трудоемкость операции определяется установленной для нее нормой времени, сложность — требуемым уровнем квалификации. На основании трудоемкости и сложности устанавливается расценка—плата за изготовление приспособления, т. е. за выполнение наряда. Каждый рабочий имеет различные уровни квалификации для работ разных видов. Квалификация рабочего на данном виде работ характеризуется коэффициентом перевыполнения нормы по этому виду работ. Нетрудно понять, что время выполнения всех работ но данному наряду различно для различных рабочих. Оно зависит, с одной стороны, от набора норм времени на различные операции и, с другой стороны, от набора коэффициентов перевыполнения норм на этих операциях. Очевидно также, что средняя производительность труда на участке зависит от распределения нарядов между рабочими. Она тем выше, чем больше относительная трудоемкость отдельных операций, выполняемых каждым рабочим, соответствует его индивидуальным возможностям. Одна из задач мастера участка как раз и заключается в том, чтобы, зная индивидуальные особенности каждого рабочего и характеристики нарядов, составляющих плановое задание участку, организовать процесс производства, т. е. распределить наряды между рабочими. Опытный мастер, хорошо знакомый с возможностями рабочих своего участка, а также с возможностями и требованиями производства, успешно справляется с такого рода задачей. Однако даже у самых опытных мастеров бывают ошибки. Они вызываются тем, что мастер в силу субъективных причин может недооценивать или переоценивать способности того или иного рабочего. Ему может быть свойствен определенный консерватизм, не позволяющий вовремя заметить рост квалификации у одного и ее падение у другого. Кроме того, единоличное принятие мастером решения может привести к трениям, связанным с появлением привилегированных и обиженных рабочих. Особенно это относится к случаям, когда в связи с несовершенством технического нормирования, отсутствием норм равной напряженности, недостатками в системе оплаты и т. д., существуют понятия «выгодной» и «невыгодной» работ. Так, например, из данных, взятых на реальном предприятии, с которыми мы сталкивались при изучении этой модели, следует, что один и тот же рабочий, работая над самыми «выгодными» деталями, может заработать за день 11,5руб., а занимаясь «невыгодной» работой—всего 1,5 руб. в день. Снова заметим, что возникающая ситуация характерна для огромного числа чисто технических систем, однако рассмотрение «одушевленного» примера несколько упрощает и изложение, и чтение. При рассмотрении систем оперативного внутрицехового управления можно поставить вопрос об исключении мастера из процедуры распределения работ и замене ее процедурой коллективного выбора работ рабочими. При этом с самого начала ясно, что решения типа организации аукциона работ или, что еще хуже, новгородского вече, неприемлемы для производственных условий по целому ряду причин. Вообще говоря, если все параметры плана и квалификации рабочих известны заранее и не меняются в течение планового периода, то задачу об оптимальном распределении работ между рабочими можно было бы решить известными математическими методами и заранее назначить исполнителей для всех нарядов. Трудности использования такого решения заключаются в том, что в течение планового периода наряды поступают на участок неравномерно. На процесс поступления нарядов влияет много неконтролируемых факторов. Производительность труда рабочего подвергается случайным колебаниям, зависящим от его настроения, состояния здоровья, усталости и т. п. Плановые задания могут изменяться внутри планового периода. В связи с этим предварительное жесткое распределение может привести к простою одних рабочих при наличии очереди к другим. Преодоление этих трудностей достигается за счет организации оперативного управления распределением потока нарядов по рабочим, что, в частности, может быть реализовано путем выработки системы динамических приоритетов при наличии общей очереди нарядов на выполнение работ. На основании модели, рассмотренной в предыдущем параграфе, можно предложить правила взаимодействия рабочих, обеспечивающие децентрализованное распределение нарядов между ними. Все наряды на выполнение работ разбиваются на группы. В каждую группу попадают работы, сходные по относительной трудоемкости на разных типах работ. Каждый рабочий с определенной периодичностью, например каждый день утром или каждый понедельник утром, может назвать один или два типа работ, которые он хотел бы выполнять. Такое объявление может быть и не периодическим, а делаться после выполнения очередного наряда. При обращении рабочего за очередным нарядом он получает объявленную им предпочтительную для него работу, если такой наряд имеется. Все наряды образуют очередь, в которой существует своя структура, определяемая важностью работ, критическими сроками их исполнения и т. п. Если в очереди нет объявленной рабочим работы, то он получает первый стоящий в очереди наряд. Технические средства для реализации такой системы на участке состоят из ящика, в который складываются наряды по мере их поступления, и человека, который упорядочивает их в зависимости от имеющихся требований и выдает рабочим в соответствии с описанным выше алгоритмом. Для улучшения качества функционирования системы обычно оказывается полезной некая дополнительная информация, для записи которой можно использовать обычную доску, где рабочие вывешивают для всеобщего обозрения номера своих приоритетных групп нарядов. Естественно предположить, что в основу выбора приоритетных номеров ляжет предпочтительность соответствующих работ для каждого конкретного рабочего. Можно также допустить, что основой для формирования представлений о предпочтительности будет «выгодность» или «невыгодность» для данного рабочего тех или иных типов работ. Следует также предположить, что рост суммарной заработной платы в этом случае соответствует росту производительности труда. При функционировании такой системы возникает опасность, что все рабочие назовут в качестве приоритетной одну и ту же самую «выгодную» работу и система приоритетов не даст ожидаемого эффекта. Заметим, однако, что чем большее число рабочих будет считать приоритетной одну и ту же работу, тем меньше будет ее средняя «выгодность» для каждого рабочего, так как тем реже она будет попадать к нему. Легко понять, что разумнее иметь каждый день лишние 2 руб., чем один раз в месяц 20 руб. Можно надеяться, что эту истину достаточно быстро поймут участники распределения. Можно надеяться, что в качестве приоритетных будут закрепляться не просто самые выгодные при единичном исполнении работы, а работы, наибольшая выгодность которых обеспечивается также и частотой их поступления к данному рабочему. Приоритетное закрепление типов работ за рабочими, как и в модели приведенной в § 4.2, должно приводить к специализации рабочих на некоторых типах работ, что в свою очередь должно приводить к повышению производительности труда и пропускной способности участка, а также к увеличению предпочтительности приоритетных работ. Внедрение такой системы организации оперативного распределения работ, как нетрудно понять, сопряжено с большим числом (в том числе психологических) трудностей. Эксперимент в реальной производственной системе до сих пор не проведен, хотя подготовка к нему проводилась в ряде мест, в том числе и на таллинском Электротехническом заводе им. М. И. Калинина. В ходе подготовки к эксперименту проводилось исследование системы распределения на модели. Как была организована такая модель? В качестве исходных использовались данные по двум участкам завода «Красный Пролетарий» (Москва) и завода «Пневматика» (Ленинград). (22 детали и 3 рабочих, 47 деталей и 5 рабочих, 25 деталей и 12 рабочих.) На ЭВМ программным путем моделировался процесс поступления деталей и их обработки. Каждый раз, когда возникала необходимость выдачи нового наряда, машина через терминал обращалась с вопросом к оператору, располагавшему полной информацией о характеристиках нарядов и рабочих и имевшему опыт в распределении работ. Этот человек представлял в модели беспристрастного и хорошо информированного мастера. Таким образом было промоделировано и изучено функционирование участка в течение 500 ч. Затем процедура распределения была реализована как результат коллективного поведения. Каждый рабочий при этом моделировался двумя копилками типа, описанного в § 4.2. В результате моделирования 10 000 ч работы участка оказалось, что введение приоритетов увеличивает пропускную способность участка по сравнению с дисциплиной «первый пришел — первый обслужен» для реальных данных от 3 % до 7 % на различных участках. Заметим, что хорошо информированный беспристрастный мастер добивается в наших ситуациях практически тех же результатов, что и коллектив рабочих, моделируемый весьма примитивными локальными средствами принятия решений. § 4.4. Проблема нескольких аренЦирк, наверное, самое древнее в мире искусство. Во всяком случае, одно из древнейших. И за тысячелетия своего существования цирк, конечно, изменился. Но со времен появления в нем круглой арены диаметр ее во всех цирках мира стандартен. Все цирковые номера рассчитаны на его величину, изменение ее может привести к трагическому исходу опасного номера (а какие номера в цирке не опасны?). Поэтому возникло острое противоречие между размером арены и стремлением сделать помещение цирка более вместительным. Но если арена не может быть увеличена, то как увеличить размер зрительного зала? Сидящим вдали от арены мало удастся увидеть, и уж тем более они не смогут испытать того «эффекта присутствия», которым так славится цирк. Выход из этого положения был найден в том, что вместо одной арены в современных цирках их стало несколько. Теперь цирковые номера могли идти в параллель, а при необходимости последовательно дублироваться на различных аренах. Увеличилась «пропускная способность» цирка. Зритель получил возможность за один вечер увидеть куда больше, чем в старом цирке. Исчезла необходимость длительных перерывов между номерами, связанных с подготовкой арены и артистов. Но возникла новая задача. Как планировать номера на имеющихся аренах? В хорошо отработанной программе, когда время на подготовку каждого номера и исполнение его известно с большой точностью, эта проблема стоит не столь остро. Но в сборных программах-ревю, особенно с участием иностранных артистов, трудно заранее точно предсказать ту последовательность номеров на каждой из арен, которая позволит провести всю программу в минимальное время. Эта задача — пример известного класса задач о составлении оптимальных расписаний обслуживания при наличии времени, требуемого для переналадки оборудования. Классической моделью этой задачи является задача о расписании обработки сложных деталей на станках, требующих при переходе от выполнения одной операции к другой некоторого времени для переналадки. Мы просто, как часто делается в нашей книге, привели пример такого содержания, чтобы возбудить у читателя рой нужных нам ассоциаций. А на деле мы в дальнейшем рассмотрим куда более сложную и серьезную модель обслуживания, чем та, которой пользуется режиссер цирковой программы. Но метод, который мы обсудим, вполне пригоден и для решения задачи об использовании нескольких арен цирка. И если среди читателей нашей книги неожиданно найдется деятель циркового искусства, любящий читать научно-популярную литературу, то он может смело применять тот метод, который мы укажем. Среди систем вычислительных машин, решающих различные хозяйственные, информационные или научные задачи, можно выделить группу систем с постоянным набором программ, хранящихся в их памяти. Такие системы предназначены для решения конечного набора задач N1, N2, ... , Nk. Число машин, входящих в систему, равно l, и имеет место неравенство l>k. Обозначим программы для решения тех или иных задач через M1, M2, .... Mk; с их помощью решаются нужные потребителям задачи. Заявки на выполнение программ поступают на вход системы в случайном порядке, и система не знает априори никаких характеристик этого потока. Каждая машина системы может быть настроена на выполнение некоторой определенной программы Mi (i = 1, 2, ..., k). Это означает, что в оперативной памяти машины хранится сама программа для решения задачи Ni и необходимые для этого исходные данные. Подобно арене, приготовленной для выступления определенной группы артистов, такая вычислительная машина подготовлена для выполнения вполне определенной программы. Настройку системы машин будем производить децентрализованно. Для этого придадим каждой ЭВМ автомат, имеющий k состоянии. Пусть pij есть вероятность смены состояния с номером i на состояние с номером j (перенастройка ЭВМ с программы Мi на программу Мj). Как всегда Сумма (pij)=l. Если автомат Am (т — номер ЭВМ в системе и т=1,2,..,l) настроен на выполнение программы Mi и свободен, а на вход системы поступает заявка на ее выполнение, то Am берет эту заявку на обслуживание и получает сигнал поощрения. Автомат Am есть автомат с переменной структурой, о котором мы рассказывали в гл. 2. Поэтому, получив сигнал поощрения, он увеличивает вероятность рii и пропорционально уменьшает остальные вероятности pij для i не равное j. Если автомат при поступлении требования на решение задачи Ni был настроен на нее, но уже выполняет другое, ранее поступившее требование на решение тон же задачи, то он также получает сигнал поощрения и меняет вероятности переходов, как и автомат, принимающий к исполнению вновь поступившую заявку. Пусть автомат Am настроен на выполнение программы Mi и свободен, а вновь пришедшая заявка требует выполнения программы mj при j i; тогда поощрение и наказание Am зависят от той ситуации, которая сложилась в данный момент в вычислительной системе. Если среди свободных автоматов имеются такие, которые настроены на М,, то они берут заявку на обслуживание, а на вход Am никакого сигнала не поступает. Он продолжает ждать «свою законную» заявку. Если же таких автоматов в системе нет, то они отказываются от обслуживания, а все свободные автоматы (в том числе и Am), получают сигнал наказания. Этот сигнал заставляет Am уменьшить значение рii и увеличить пропорционально все остальные значения рij при i не равном j. Что может дать такая модель настройки? Нетрудно видеть, что вычислительные машины системы с помощью настраиваемых автоматов будут выбирать из входного потока требований на обслуживание прежде всего те, которые чаще всего в этом потоке встречаются. Вспомнив о парикмахерской, мы можем сказать, что мастера всегда готовы обслужить клиентов, регулярно появляющихся в парикмахерской, а случайный приезжий, как правило, получит у них отказ со ссылкой на то, что часть мастеров заняты, а остальные ждут своих клиентов, которые «вот-вот должны подойти». Для управления бытового обслуживания населения, которому подчиняется эта парикмахерская, дело обстоит не слишком хорошо. Мастера простаивают, а клиенты получают отказ. Для тех, кто проектировал вычислительную систему, ситуация аналогична. Простои ЭВМ не приносят ничего, кроме убытка. Штраф же, которым облагаются простаивающие ЭВМ, берется, в конце концов, из того же кармана. Из этого положения можно найти, например, следующий выход. Пусть сначала к потоку требований на обслуживание адаптируется только одна ЭВМ. Когда она начнет работать с полной загрузкой, оставшийся поток требований можно использовать для обучения следующей ЭВМ и т. д. На долю какой-то ЭВМ останется «тощий поток», содержащий лишь редко встречающиеся заявки. И специально для этой ЭВМ можно сделать буферную память, в которой редкие заявки будут ждать своей очереди на обслуживание (небольшой очереди, так как эти заявки поступают нечасто), а не будут получать обидный отказ. В парикмахерской роль такой особой ЭВМ может выполнять молодой мастер-практикант, к которому образуется очередь из случайных для данной парикмахерской клиентов. Читатели, посещающие модные парикмахерские салоны в крупных городах, конечно, видели реализацию этой процедуры на практике. Разницу в предложенных двух способах адаптации автоматов можно проиллюстрировать на конкретном примере, полученном путем моделирования на вычислительной машине. Будем оценивать качество функционирования системы отношением Н=L*/Lt, где L*—число выполненных заявок за некоторый фиксированный интервал времени, a Lt — число всех поступивших за это время заявок. Пусть вычислительная система состоит из двух ЭВМ, настроенных на выполнение одной из четырех программ M1, М2, М3 и M4 соответственно автоматами А1 и А2. На вход системы обслуживания поступает поток требований на выполнение указанных программ. Характеристики этого потока, неизвестные для A1 и A2 в описываемом эксперименте, были заданы следующими вероятностями появления заявки определенного типа: P1=0,15, P2=0,30, Рз=0,45, Р4=0,10. До обучения системы Н=0,5. После обучения по первому способу Н=0,54. Таким образом, первый способ обучения оказывается не слишком эффективным. Если же второй автомат обучается на потоке, остающемся после отбора из него заявок первым автоматом, который так адаптировался, что он настраивается на выполнение только одной программы, то при втором способе обучения Н=0,57 после обучения первого автомата, а после обучения автомата А2. значение Н стало равно 0,63. Если же второй автомат заявок не теряет, то при определенном периоде наблюдения Н= 0,85. Рассмотренная нами задача о распределении ЭВМ вычислительной системы по заявкам на обслуживание, поступающим случайным и заранее неизвестным образом, является прообразом многих технических задач, возникающих при управлении сложными системами. Управление коммутацией каналов на узле связи, включение насосов в большой водопроводной сети, работ сортировочной горки на железной дороге и многое другое может быть организовано по принципу, который был изложен в трех последних параграфах. § 4.5. Задача о жилищной комиссии и родственные ей задачиДо сих пор, говоря о децентрализованном управлении и коллективном поведении, мы имели ввиду поведение, целью которого является удовлетворение тем или иными критериям пользы. Однако очень часто при организации совокупного поведения целью системы является достижение согласованного поведения объектов, образующих систему. Организуя поведение системы, мы должны уметь обеспечить возможность для ее составных частей договориться между собой. В предыдущей главе мы уже рассматривали возможные варианты договоров. Такими договорами, или соглашениями, были процедура общей кассы и правила случайного парного взаимодействия. С другой стороны, указанные соглашения сами по себе могут являться целью поведения, направленного на ее достижение. Поведение, направленное па достижение подобных целей, образует в некотором смысле более высокий, чем рассмотренные ранее, уровень управления. Децентрализация здесь означает, что соглашения не навязываются свыше, а порождаются взаимодействием объектов. Формулировка правил такого взаимодействия есть задача следующего уровня иерархии управления. Если считать, что бога нет, то на самом верхнем уровне иерархии, порождающем правила поведения для более низкого уровня, эти правила должны быть весьма просты и не могут порождаться никаким другим механизмом, кроме случайного перебора. Пусть ограниченного, направленного, но перебора. Задача о достижении договоренности обычно усложняется противоречивостью интересов договаривающихся сторон. Если два человека любят друг друга, то достижение договоренности о вступлении в брак обычно не связано с существенными трудностями. Но попытка достичь соглашения о раздела имущества при разводе подчас оказывается нереальной без вмешательства суда. Централизованное решение задачи через суд снижает размер получаемого каждым имущества на величину судебных издержек. Рассмотрим несколько ситуаций, в которых достижение соглашения связано с преодолением противоречивых интересов, и обсудим возможные процедуры взаимодействия, обеспечивающие достижение такого соглашения. Очень часто принятие тех или иных решений достигается путем голосования. Сначала отбирается некоторое количество, обычно существенно ограниченное, альтернативных соглашений или решений. Затем проводится голосование и в соответствии с соглашением, достигнутым на более высоком уровне иерархии, отбирается решение, получившее большинство голосов. Таким образом функционируют многочисленные советы, комиссии, парламенты и международные организации. Функции голосования формируются и в некоторых технических системах, например в системах повышенной надежности. Однако использование механизма голосования не всегда приводит к желаемым результатам, а при некоторых соглашениях о процедуре голосования, принятие решения оказывается невозможным. Вспомните, например, о праве вето в Совете Безопасности. Представьте себе Технический совет крупной самолетостроительной фирмы. В этот совет входят специалисты самого различного профиля — специалисты по прочности и электронике, специалисты по двигателям и аэродинамике, специалисты по системам пожаротушения и дизайнеры. Если в таком совете решения принимаются голосованием, то для подавляющего большинства членов совета многие из рассматриваемых вопросов весьма далеки от области их профессиональных интересов. В таком случае любое решение принимается непрофессиональным большинством. Можно ли в этой ситуации улучшить качество принимаемых решений? Можно. За счет введения очень простого правила участия в голосовании. Каждый член совета в течение, например, года может голосовать ограниченное число раз. Тогда в каждом голосовании будут принимать участие только заинтересованные в результате голосования члены совета. Компетентность принимаемых решений в этом случае возрастает. Для каждого члена совета возникнет необходимость решать две задачи: принимать или не принимать участие в голосовании и, если принимать, то как голосовать. Приведенный пример интересен еще и тем, что он иллюстрирует ситуацию, в которой ограничение па ресурс, используемый в системе (число участии в голосовании), улучшает качество ее функционирования. Выше мы же заметили, что процедура голосования не всегда обеспечивает принятие решения. Решение может оказаться невозможным, если для его принятия требуется 2/3 голосов или если решение должно быть принято абсолютным большинством, а число возможных решений превышает два. Известно несколько процедур, устраняющих такие тупиковые ситуации. Голосование проводится в несколько туров. Если в очередном туре не удалось выработать решение, то может быть снижено число решений, участвующих в следующем туре, или отброшены решения, получившие наименьшее число голосов, или, как это имеет место на президентских выборах во Франции, изменено соглашение о принятии решения, и в последнем туре оно принимается относительным большинством. Однако при таком механизме все вынуждены согласиться с принятым решением, но большинство голосовавших с ним не согласно. С другой стороны, наличие права вето, казалось бы, полностью зачеркивает возможность эффективного применения процедуры голосования для принятия решений. Попытаемся все-таки подумать, каким же образом можно добиваться принятия решений при наличии права вето и явно противоречивых интересах участвующих в голосовании. Для этого обратимся к сформулированной М. Л. Цетлиным «Задаче о жилищной комиссии». В лекции, прочитанной им на заседании секции Физиологического общества в Москве 23 февраля 1965 г., он говорил: «...в нескольких словах я хочу пояснить, в чем состоит трудность распределения жилплощади и какое отношение имеет она к автоматам. Имеется сколько-то квартир, вообще говоря, не очень много, гораздо меньше, чем число нуждающихся. Если бы их было много, то никакой проблемы, никакой жилищной комиссии не было бы, ей просто нечего было бы делать. Все квартиры мы будем считать одинаковыми, скажем, двухкомнатными. Если будут разные квартиры, то будет просто несколько разных задач: как распределить двухкомнатные квартиры, как распределить однокомнатные квартиры и т. д. Имеется N нуждающихся в квартирах, и имеется т членов комиссии, т не очень большое. Давайте теперь представим себе, как фактически работает комиссия. Каждый человек берет в руки список нуждающихся и смотрит, кто из них нуждается больше всех, кто следующий и т. д., т. е. каждый составляет некоторую очередь из нуждающихся. Вот, например, первый из них пишет так (я буду людей обозначать буквами, если можно): a1,a2,a3,a4, ... , an а где-то он еще проведет черту, скажем, после a3 (квартиры кончились). Заметьте, что, составляя список, он будет очень тщательно выбирать тех, кто попадет левее черты. Так же поступит второй член комиссии, третий и т. д. Эти свои мнения они друг другу сообщат. Например, можно считать, что они выпишут их на доске. Ну и дальше, говоря формально, останется только разводить руками. Ничего здесь решить голосованием нельзя и вот почему. Потому, что у нас квартир меньше, чем нуждающихся, и, как правило, эти списки не будут ни у кого совпадать. Но если я составил список и один из моих людей не попал, то я за такое решение голосовать отказываюсь. Поэтому я буду голосовать только за свой список. До тех пор, пока я не буду уверен, что мне удастся провести своих людей, я голосовать «за» не буду. А если буду, то зря меня выбирали в жилищную комиссию. Смотрите, что будет получаться. На доске написаны мнения всех членов комиссии. Если ока-жется, что у большинства эти мнения совпадают, тогда можно решить вопрос голосованием. Давайте разберемся, вероятно ли это? Нет, совершенно невероятно потому, что на самом деле имеется N! разных мнений, где N — число нуждающихся, и вероятность того, что мнения совпадут очень невелика. Поэтому первое, что увидят члены жилищной комиссии: прийти к общему мнению невозможно. Кстати, во всякой разумно устроенной жилищной комиссии решение не принимается голосованием: начинают голосовать лишь тогда, когда есть уверенность, что это решение единогласно. Ясно, почему это делается. Если я остаюсь при своем особом мнении и меня не сумели бы убедить, что решение правильно, то жилищная комиссия заседала бы все это время напрасно. Я пойду в местком, и разбирательство начнется сначала. Как правило, решение жилищной комиссии должен утверждать местком, и если кто-нибудь из членов комиссии обоснованно возражает, то местком ничего не утвердит, а пошлет жилищную комиссию утрясать между собой мнения. Значит, решать при помощи голосования все-таки нельзя. Может быть, здесь стоит сказать, когда можно решать голосованием. Если мы, здесь собравшиеся, будем выбирать председателя из трех возможных кандидатов, то мы вполне можем решить такую задачу голосованием, потому что возможных мнений здесь гораздо меньше, чем число собравшихся, и только в таких случаях и можно решать голосованием. В нашем случае решать голосованием нельзя. Значит, члены комиссии должны прийти к какому-то разумному компромиссу, договариваясь между собой без голосования. Как они могут между собой договариваться? Прежде всего, никому не возбраняется изменять свои мнения. Во-вторых, и мы всегда об этом всерьез думаем (хотя, я думаю, это не очень верно), мы можем пытаться друг друга уговаривать. На самом деле, по любому вопросу, вероятно, здравого человека можно в чем-то как-то убедить... Оказывается, что эта задача может быть сформулирована в терминах игр автоматов...» М. Л. Цейтлин хорошо представлял себе описанную ситуацию, так как, кроме того, что он был замечательным ученым, в течение многих лет он был членом жилищной комиссии Института прикладной математики АН СССР. Рассмотрим ситуацию с несколько менее жесткими, чем в жилищной комиссии, противоречиями в интересах. Рассмотрим конкурсную комиссию, отбирающую научные работы для премирования на конкурсе. Если конкурс проводится в научном учреждении достаточно широкого научного профиля, то представители отделов, как правило, убеждены, что работа, выполненная в их отделе, которую они хорошо понимают, лучше, чем работы, выполненные в других отделах, которые они понимают хуже или вообще не понимают и поэтому считают чушью. Заключительная стадия работы такой комиссии несколько напоминает соревнования по фигурному катанию — каждый член комиссии упорядочивает все выступления (работы) и сумма занятых мест является окончательной оценкой каждого выступления. При этом членов комиссии могут ожидать неожиданные сюрпризы, когда с результатами голосования не согласен никто. Рассмотрим конкретный пример. Пусть в некотором учреждении на конкурс подали работы семь человек: Иванов, Петров, Сидоров, Кошкин, Мышкин, Собакин и Лошадкин, представляющие четыре отдела. В комиссию входят представители этих отделов и председатель комиссии от дирекции. Лошадкин—сотрудник в институте сравнительно новый и еще не увяз в сложной структуре взаимоотношений. В результате обсуждения члены комиссии следующим образом упорядочили кандидатов на три объявленные премии:
На доске были выписаны следующие голосования:
Лошадкин, которого ни один из членов комиссии не считал достойным премии, получил вторую премию. В то же время Собакин, которого два члена комиссии считали достойным первой премии, поделил с Кошкиным четвертое и пятое места. Результаты отклоняются комиссией по крайней мере тремя голосами против двух, и председатель предлагает повторить работу, произнося при этом слова об объективности и ответственности. Подумаем, какие мотивы могут возникнуть у членов комиссии при новом упорядочивании. Первый член комиссии доволен результатами, однако, полагая, что Иванову ничего не грозит, он может подкрепить позиции Сидорова и Петрова, немного повысив их оценку и понизив оценку у их -конкурентов. Тем же путем второй член комиссии может попытаться подкрепить позиции Собакина и Мышкина. Аналогично действуют и остальные члены комиссии, борясь за своих кандидатов на премии. Списки второго тура выглядят следующим образом:
Результаты снова были выписаны на доске:
Первый член комиссии удовлетворен результатами голосования, тем более, что он при следующем голосовании может только испортить жизнь Мышкину, но никак не может помочь Сидорову занять призовое место. Второй член комиссии может, конечно, повысить сумму мест Петрова до 19, но это никак не поможет Собакину. Аналогично третий член комиссии не может помочь Кошкину за счет Петрова, а пятый член комиссии не может помочь тому же Кошкину за счет Мышкина. Менее всех удовлетворен результатами четвертый член комиссии — только один из его фаворитов получил премию, но и он не в состоянии изменить результаты. Более того, «темная лошадка» Лошадкин лишился своего случайного преимущества. Полученное в результате второго тура решение устойчиво в том смысле, что никому в одиночку не удается изменить общее упорядочение, не ухудшив при этом собственный результат. Здесь просматривается очевидная аналогия с ситуацией равновесия по Нэшу. С другой стороны, могут быть образованы коалиции среди членов комиссии, которые окажутся в состоянии изменить распределение. Существуют способы ограничения возможности образования коалиций, например признание сговора между членами комиссии аморальным. Лет 10 тому назад, на ученом совете Ленинградского Отделения Центрального Экономико-Математического института АН СССР, при подведении итогов конкурса научных работ молодых ученых нами была испробована такая многошаговая процедура оценки. Уже третий тур привел к перемене только восьмого и девятого места, и по общему мнению членов совета оценка результатов конкурса была справедливой. Справедливость при этом понимается как разумный компромисс между собственным представлением о системе предпочтений и противоречащей ему системой предпочтений у остальных членов комиссии. Существенна устойчивость этого компромисса. Аналогичные процедуры можно предложить и для жилищной комиссии. § 4.6. «Упрямые» автоматы и голосованиеДадим теперь формальную модель децентрализованного согласования мнений. В традициях нашего изложения она будет описана на уровне функционирования коллектива автоматов. В' качестве членов этого коллектива будут выступать специальные «упрямые» автоматы. Простейший автомат такого типа показан на рис. 4.1. (На рис. 4.1 и 4.2, как и ранее, сплошными стрелками показаны переходы автоматов при сигнале поощрения, пунктирными — при сигнале наказания.) Как мы видим, упрямый автомат является вероятностным. У него два состояния, которые соответствуют двум типам голосования («за» и «против»). Величина Эпсилон (E) характеризует степень упрямства автомата. Если его штрафуют (например, «стыдят» его за то голосование, которого он придерживался), то он с вероятностью 1—E принимает эту критику и меняет свое мнение. С вероятностью же E он продолжает отстаивать свою точку зрения. Если же его поощряют, то из-за своего упрямства с вероятностью E автомат все же в следующий тур голосования может сменить свой выбор. Взаимодействие между автоматами в коллективе мы организуем по следующему принципу, близкому к идее случайного взаимодействия: перед каждым туром голосования автоматы случайным образом разбиваются на тройки (общее число автоматов, участвующих в голосовании, будем для простоты считать кратным трем), в тройке с равной вероятностью выбирается один из автоматов и на его вход подается сигнал наказания, если его состояние не совпадает с состояниями двух других автоматов в данной тройке. В противном случае на его вход подается сигнал поощрения. Далее выбранный автомат с долей упрямства е производит смену своего мнения или сохраняет его. Эта операция проводится перед каждым туром голосования в новой случайно формируемой тройке и с новым случайно выбираемым автоматом в каждой тройке. В каждой тройке происходит смена мнений (с известной долей упрямства) по принципу «как большинство, так и я». Можно строго доказать, что коллектив таких автоматов выходит на статистически устойчивую точку, подобную точке Нэша. Доля автоматов, приходящих в нее, равна доле автоматов, ее покидающих. Если в исходном коллективе в первом туре голосования большинство автоматов голосовало «за», то эта точка такова, что и абсолютное большинство автоматов будет в ней голосовать «за». Если же исходное голосование было таково, что голосующих «против» было ощутимо больше половины, то устойчивая точка будет нам демонстрировать абсолютное большинство голосующих «против». Когда в исходном состоянии доли автоматов,ьголосующих «за» и «против», приблизительно равны, то выход в устойчивую точку будет происходить лишь при небольших значениях параметра упрямства E. Уменьшая его, можно добиться, чтобы коллектив все-таки вышел на устойчивую точку (даже один голос перевеса в начальной ситуации приведет к переходу нужной для абсолютного большинства части автоматов на это мнение). Наши упрямые автоматы были выбраны так, что они симметрично оценивали мнения «за» и «против». Психологические эксперименты, проведенные с людьми много раз, показывали, что для абсолютного большинства испытуемых этой золотой середины в выборе мнений не наблюдается. Одни более склонны принимать положительные альтернативы, голосуя «за», другие более склонны голосовать «против». Такую несимметричность легко привнести и в наши автоматы. Рис. 4.2 демонстрирует, как это можно сделать. На рис. 4.2, а показана диаграмма смены состояний для упрямого автомата, предпочитающего голосовать «против», а на рис. 4.2, б — для любителя голосовать «за». В коллективе такие несимметричные автоматы ведут себя аналогично симметричным. Их однородные совокупности выходят на такие же устойчивые точки, как и однородный коллектив из симметричных автоматов. Только скорость сходимости к ним будет несколько иной. Естественно обсудить и модель неоднородного коллектива. Можно изучить два вида неоднородности. Во-первых, можно рассмотреть совокупность симметричных и несимметричных автоматов двух типов. Эксперимент на ЭВМ показал, что такой коллектив ведет себя подобно однородному. Обе устойчивые точки достигаются им успешно. Во-вторых, можно рассмотреть коллектив, в котором автоматы различаются по степени своего упрямства. Параметр упрямства для некоторого фиксированного автомата может принимать значения из множества {E1,E2, ..., En}. Но, как показывает эксперимент, и такой коллектив выходит либо на устойчивую точку, где абсолютное большинство голосует «за», либо на аналогичную точку, где абсолютное большинство голосует «против». На рис. 4.3 приведены типовые кривые, получаемые в результате моделирования. По оси абсцисс на этом рисунке отложены такты моделирования t (туры голосования), а по оси ординат Мю — доля автоматов в коллективе из N автоматов, которая голосует «против» (Мю0 — начальная доля таких автоматов). На рис. 4.3, а и 4.3,6 рассмотрен однородный коллектив с разным числом автоматов в коллективе и разным начальным предпочтением в коллективе голосующих. На рис. 4.3, в показан процесс моделирования для неоднородного коллектива, в котором имеется два типа автоматов, отличающихся по параметру своего упрямства. Интересно отметить, что в отсутствие перемешивания в коллективе автоматов (например, при фиксации для каждого автомата множества его возможных соседей) эффект, который мы наблюдаем на рис. 4.3, становится недостижим. Это еще раз подчеркивает важность процедуры случайных взаимодействий в «жизни» автоматных коллективов. Выше мы рассмотрели простейшую модель голосования. Теперь от нее мы сможем перейти к модели, которая напомнит нам трудное заседание жилищной комиссии или парадокс «темной лошадки» Лошадкина при отборе работ на конкурсе. Наш коллектив, как и ранее, будет состоять из упрямых симметричных автоматов. Но теперь число состояний каждого автомата равно К, где К — число ранжируемых объектов. Если мы вспомним наш пример с конкурсной комиссией из § 4.5, то там К=7 и каждый упрямый автомат, моделирующий некоторого члена конкурсной комиссии, должен иметь 7! состояний. Каждое состояние автомата есть некоторая фиксированная ранжировка объектов. Предположим, что перед каждым туром голосования происходит случайное разбиение коллектива автоматов на пары (т. е. осуществляется случайное парное взаимодействие). Если в коллективе нечетное число автоматов, то автомат, не вошедший в пару, в очередном туре голосования сохраняет свои предшествующие предпочтения. Для каждой пары вычисляется значение рассогласованности предпочтений тех автоматов, которые попали в пару. Меру этой рассогласованности ро можно подсчитать следующим образом. Пусть имеются два предпочтения (И, П, С, Л, К, М, Сб) и (Сб, И, М, Л, К, С, П). Б качестве объектов взяты претенденты на премии из примера § 4.5, а фамилии заменены первыми их буквами. Берем первый элемент из первой шкалы И и смотрим на каком месте он стоит во второй шкале. Во второй шкале он стоит на втором месте. Разность мест равна 1. Далее возьмем второй элемент первой шкалы П и снова смотрим, "на каком месте он находится во второй шкале. В нашем случае он стоит на седьмом месте. Разность мест равна 5. Повторяем этот процесс для всех элементов шкалы и суммируем получившиеся разности. Эта сумма и есть мера рассогласованности двух шкал. В нашем примере ро=1+5+3+0+0+3+6=18. Пусть произведено разбиение множества автоматов с их предпочтениями на N/2 пар (N — общее число автоматов в коллективе, если N—четно, либо число автоматов в коллективе без одного, если N—нечетно). Для каждой пары подсчитывается мера рассогласованности. Сумма этих мер, деленная на N/2, определяет R—меру рассогласованности мнений по коллективу автоматов. Именно она характеризует успешность или неуспешность коллективного голосования. Если R=0, где R—мера рассогласованности по коллективу, то это означает, что у всех автоматов коллектива, состоящего из четного числа членов, все мнения полностью совпали. Пусть в паре автоматов равновероятно выбирается один из них, который будет изменять свои предпочтения с вероятностью 1—E сохранять их неизменными с вероятностью E. Как будет организовано изменение предпочтений? Автомат выделяет в мере рассогласованности тот элемент, который вносит в нее максимальное рассогласование. В том примере, который мы только что рассмотрели, таким элементом является Собакин. Его вклад в рассогласование, равный 6 единицам, самый большой. Тогда с вероятностью 1—E выбранный в паре автомат может переставить Собакина на несколько позиций так, чтобы рассогласование уменьшилось. Наиболее прост случай, когда перемещение происходит на соседнюю позицию. Тогда, если изменения производит второй автомат в паре, то ранжировка (Сб, И, М, Л, К, С, П) превращается в ранжировку (И, Сб, М, Л, К, С, П). Но можно осуществить перестановку и на большее число позиций. Число позиций, на которое перемещается элемент, вносящий максимальное рассогласование в ранжировки автоматов пары, можно назвать степенью «конформизма» автомата. После изменения предпочтений (или сохранения старых в тех парах, где проявилось упрямство) наступает новый тур голосования и образование в коллективе новых случайных пар. Моделирование на ЭВМ описанного процесса при различном числе автоматов, различном числе ранжируемых элементов, различных, значениях параметра упрямства автоматов и степени конформизма показало, что имеется явная тенденция сходимости процесса к некоторому единому мнению. На рис. 4.4 показаны типичные результаты моделирования. По оси абсцисс отложены такты моделирования t (туры голосования), а по оси ординат—значения R. На рис. 4.4,а показано поведение коллектива автоматов при различных степенях конформизма Омега. Видно, что увеличение степени конформизма приводит к ускорению сходимости. В начальный момент мнения автоматов в коллективе равномерно распределены по допустимым ранжировкам. На рис. 4.4,6 показан процесс сходимости в том случае, когда в начальной ситуации мнения автоматов не «размазаны» равномерно по всем возможным ранжировкам, а имеют вид нормального усеченного распределения на них. Этот случай ближе к реальности, чем предыдущий, так как в коллективе голосующих, как правило, уже перед первым туром наблюдается некоторое согласованное «общее мнение», по крайней мере относительно определенных претендентов. Как видно из рис. 4.4, скорость сходимости мнений экспертов при наличии предварительного общего мнения увеличивается. Отметим, что модели голосования, которые мы рассмотрели, могут интерпретироваться в самых неожиданных областях. Например, модель простейшего голосования «за» и «против» в коллективе автоматов тесно связана с созданием живучих технических систем, в которых элементы способны к самовосстановлению. К этому мы еще вернемся в гл. 5. Г л а в а 5. КОЛЛЕКТИВ ВО ВРЕМЕНИ«Время уже оделось в числа», Луис де Гонгора § 5.1. Что такое синхронизация?Уже довольно давно биологи, которые занимались культурами тканей, т. е. выращиванием живых клеток вне организма, обратили внимание на синхронизацию моментов деления клеток. Явление заключалось в следующем. Клетка делится. Две вновь образовавшиеся клетки некоторое время находятся в состоянии покоя, а затем одновременно делятся. Тот же эффект повторяется для четырех вновь образовавшихся клеток и т. д. Возможны следующие механизмы, обеспечивающие синхронизацию делений. Во-первых, в каждой клетке могут существовать достаточно точные внутренние часы, которые определяют интервалы между делениями клетки. Во-вторых, клетки могут согласовывать друг с другом моменты своих делений. До сих пор ни одна из этих гипотез не нашла точного экспериментального подтверждения. Первая гипотеза достаточно правдоподобна; если такие часы действительно существуют, то механизм синхронизации очевиден. Для обеспечения механизма согласования необходим обмен информацией между клетками. Существует возможность достаточно быстрого обмена сигналами, например при помощи биополя, но наличие такого биополя до сих пор нельзя считать экспериментально доказанным. Скорости же распространения электрохимических процессов, по-видимому, не могут обеспечить наблюдаемой точности синхронизации достаточно больших популяций клеток. Последнее определило интерес биологов только к двум гипотезам, объясняющим механизм синхронизации — наличие биополя и внутренних часов. Существование биополя оставалось под большим сомнением, а внутренние часы могли объяснить только процесс синхронного независимого деления и также требовали рассмотрения механизмов взаимодействия, если включение процесса деления инициируется каким-либо внешним для популяции клеток сигналом, воспринимаемым ограниченным числом клеток. Описанный, но необъясненный эффект, возникающий в изучаемом объекте, вещь неприятная, но не смертельная. Однако, как только ученые начали заниматься моделями самовоспроизведения, вопрос о механизмах, обеспечивающих одновременное включение разных частей самовоспроизводящейся машины, встал уже не перед биологами, а перед инженерами и математиками. Здесь, правда, вроде бы не было технической сложности — можно было иметь в системе общие, достаточно точные часы и одновременно сообщать всем частям системы текущее время. Такой способ временного согласования поведения частей системы называется в технике синхронизацией. Однако идея синхронизации общих часов казалась далекой от биологических прототипов и американский ученый Дж. Майхилл сформулировал свою знаменитую задачу, которая носит название «задачи о цепи стрелков». Задача Майхилла состоит в следующем: Имеется цепь стрелков (рис. 5.1), каждый из которых может общаться только с двумя своими непосредственными соседями. Цепь состоит из конечного числа стрелков, два крайних стрелка имеют только по одному соседу. Один из крайних стрелков получает команду, после чего стрелки должны договориться и одновременно произвести выстрел. Существуют ли правила поведения стрелков, обеспечивающие решение этой задачи, если количество слов, которыми могут обмениваться стрелки и объем внутренней памяти каждого из них ограничены и не зависят от длины цепи? Положительный ответ на вопрос о существовании решения задачи Майхилла означает, что есть возможность синхронизации совокупности сколь угодно большого числа объектов ограниченной сложности за счет организации взаимодействия между ними при сколь угодно медленных процессах обмена сигналами. Существование решения задачи Майхилла было доказано Дж. Мак-Карти и М. Минским, а в 1962 г. Э. Гото опубликовал решение задачи с минимально возможным временем решения, равным 2N—2, где N — число стрелков. При этом алгоритм поведения каждого стрелка представлялся конечным автоматом с несколькими тысячами внутренних состояний. Следующий принципиальный шаг был сделан советским ученым В. И. Левенштейном, опубликовавшим в 1965 г. блестящее решение задачи, в которой используется автомат, имеющий всего девять внутренних состояний. Усилиями последующих исследователей число состояний удалось уменьшить до восьми. Хотя решение задачи Майхилла давало ответ па принципиальный методологический вопрос и демонстрировало ряд эффектов, которых мы коснемся в следующем параграфе, многие относились к полученным конструкциям скептически: «Зачем городить все эти сложности, если можно протянуть провод между всеми стрелками и одновременно для всех включить лампочку, являющуюся командой стрелять?» До последнего времени возражать таким скептикам было трудно. Принцип внешней синхронизации прекрасно обеспечивал решение огромного числа технических задач. Однако постепенно начали накапливаться представления, связанные с трудностями использования общей синхронизации в системах высокой сложности. Положение драматизировалось с появлением субмикронных интегральных схем. Дело в том, что если размер транзисторного перехода в кристалле меньше микрона, то задержки в соединительных проводах становятся более существенными, чем время переключения транзистора, и мы опять попадаем в ситуацию, когда обмен информацией между объектами оказывается относительно медленным. В обиход начал входить термин — эквихронная зона, т. е. зона кристалла, в которой можно считать, что время течет одинаково. Для обеспечения же синхронизации процессов, протекающих в различных эквихронных зонах, требуется организация специального взаимодействия между зонами. Существуют разные подходы к решению этой задачи. Здесь мы остановимся на решении, связанном с задачей Майхилла. § 5.2. Управление стрелкамиСформулируем задачу Майхилла в терминах автоматов, моделирующих поведение стрелков. Имеется цепь из N автоматов. Каждый автомат имеет п внутренних состояний. Состояние каждого автомата в следующий момент времени зависит от его состояния в текущий момент времени и состояний двух его соседей, правого и левого. В начальный момент все автоматы находятся в некотором начальном состоянии Sо. В начальный момент па один из край-них автоматов цепи подается внешний сигнал, выводящий его из начального состояния. Существует ли такая конструкция автомата (правила смены его состоянии), что после инициации крайнего автомата цепи через некоторое время все автоматы одновременно перейдут в одно и то же состояние S и ни один из них не перейдет в это состояние ни в один из предыдущих моментов, причем сложность каждого автомата п не зависит от длины цепи. Рассмотрим возможный алгоритм взаимодействия автоматов, обеспечивающий решение указанной задачи. На рис. 5.2 изображена временная диаграмма поведения цепи из девяти автоматов. Каждому автомату соответствует вертикальная линия. Тонкая линия обозначает начальное состояние So автомата. Инициирующий сигнал поступает на крайний автомат цепи А9 и переводит его в состояние, которое мы будем называть состоянием готовности S1. Перейдя в это состояние, автомат посылает в цепь два сигнала а1 и a3, распространяющиеся по цепи со скоростями 1 и Уз соответственно. Распространение сигнала по цепи со скоростью 1 означает, что автомат, получивший справа сигнал а1, передает его в том же направлении в следующем такте работы, а при скорости распространения 1/3 задерживает сигнал а3 на три такта. Сигнал a1, дойдя до противоположного края цепи, переводит крайний автомат в состояние готовности Si и отражается от края цепи, начиная распространение в обратном направлении (слева направо). Нетрудно понять, что отраженный сигнал а1 и сигнал а3 встретятся точно в середине цепи. Находящийся в точке встречи автомат A5 (или два автомата в случае их четного числа) переходит в состояние готовности Si, которому на рис. 5.2 соответствует жирная черта. Автомат A5, перешедший теперь в состояние S1, посылает в обе стороны по паре сигналов a1 и a3, причем сигнал a1 отражается от первого встреченного им автомата в состоянии S1. В результате в точках встречи отраженных сигналов с сигналом из (А3 и A7) происходит переход автомата в состояние S1 и наступает новая генерация сигналов a1 и a3 в обе стороны. Таким образом, в каждом цикле происходит деление интервала между двумя автоматами, находящимися в состоянии S1 пополам, и в центре этого интервала автомат тоже переходит в состояние S1. Такой процесс продолжается до тех пор, пока все автоматы цепи не перейдут в состояние S1. Обратим внимание на то, что до последнего деления у каждого автомата будет по крайней мере один сосед, который не готов к синхронизации, т. е. находится в состоянии, отличном от S1. Автомат переходит в состояние синхронизации S, если он сам и оба его соседа находятся в состоянии S1. Таким образом, задача синхронизации решается и правила поведения каждого автомата не зависят от длины цепи. Время, необходимое для решения задачи деления интервала пополам, равно 3/2 его длины, и, следовательно, общее время синхронизации с точностью до постоянных, зависящих от четности и нечетности интервалов, равно утроенной длине цепи. Процесс синхронизации можно ускорить, если автомат, перешедший в состояние готовности, посылает еще сигнал а7, распространяющийся со скоростью 1/7, и сигнал а15, распространяющийся со скоростью 1/15 (рис. 5.3). Причины, приводящие к ускорению процесса синхронизации в такой ситуации, очевидны из сравнения рис. 5.2 и 5.3. Хотя и в этом случае правила локального поведения не зависят от длины цепи, но сложность автоматов возрастает. Для того чтобы отдельно взятый автомат мог осуществить задержку сигнала на Т тактов, необходимо, чтобы он имел не менее Т внутренних состояний. Если он одновременно должен задерживать один сигнал на Т1 тактов, а другой сигнал на Т2 тактов, то число его состояний должно быть не меньше, чем T1T2. Таким образом, введение дополнительных сигналов, ускоряющих синхронизацию, ведет к существенному росту сложности автоматов. Кроме того, теперь необходимое число сигналов, а следовательно, и сложность автоматов начинает зависеть от длины цепи. В предыдущем параграфе мы уже упоминали о блестящем решении задачи синхронизации В. И. Левенштейном. Необычайное изящество этого решения состоит в том, что он нашел способ организовать взаимодействие между автоматами так, что в процессе взаимодействия между соседними автоматами осуществляется задержка распространения сигналов на число тактов, равное 1, 3, 7, 15, ..., (2k—1), причем k зависит не от числа состояний автомата, а от длины цепи. Решающие эту задачу автоматы имели всего девять внутренних состояний. Сейчас известно решение для восьми внутренних состоянии. В этом случае время синхронизации достигает своего минимального значения, равного удвоенной длине цепи, т. е. времени, необходимого для того, чтобы сигнал, распространяющийся со скоростью 1, прошел всю цепь туда и обратно. Методологически принципиально в этом решении то, что за счет взаимодействия каждый автомат решает локальную задачу, сложность которой такова, что без взаимодействия сам автомат не может се решить и, более того, с ростом числа автоматов при сохранении ограниченности взаимодействия только двумя соседями растет сложность решаемых локальных задач. Появление решения задачи Майхилла породило несколько дополнительных интересных проблем. Прежде всего была решена задача синхронизации цепи автоматов для случая инициации произвольного автомата цепи. Сложность локального автомата при этом возросла до 10 состояний. Следующий вопрос, возникший при развитии моделей этого типа,— вопрос о возможности синхронизации двух автоматов, между которыми включена неизвестная им задержка, причем сложность автоматов не должна зависеть от величины задержки. Последнее требование исключает возможность использования простого алгоритма, сводящегося к нахождению временного интервала между посылкой сигнала и возвращением отраженного сигнала обратно. Использование указанного алгоритма невозможно и в случае, если задержка изменяется во времени — например, в такой полуфантастической ситуации, когда мы хотим синхронизовать события на Земле и удаляющемся от нее космическом корабле. В этой ситуации мы должны синхронизовать систему, посылая друг другу сигналы синхронизации в один и тот же момент. Возникает вопрос о существовании алгоритма выхода на синхронный режим за счет локального поведения командного комплекса на Земле и систем космического корабля. В рамках рассматриваемых автоматных моделей решение оказалось достаточно простым и обеспечивается автоматами, имеющими 12 внутренних состоянии. Идея алгоритма, осуществляющего синхронизацию с точностью до такта автомата, достаточно проста и состоит в следующем. Инициирующей синхронизацию автомат посылает в канал связи в три последовательных момента времени три сигнала a1, a2 и a3. Приемник отправляет эти сигналы обратно, задержав сигнал а1, на один такт, сигнал a2 на два такта и сигнал a3, на три такта. Одновременный прием одним из участников обмена сигналов a1 и a3 означает выход на синхронный режим, и с этого момента он начинает посылать в канал синхросигнал s. В момент совпадения у одного из участников сигналов a1 и a3 другой участник получает сигнал a2, который отправляет обратно с задержкой в два такта. После выхода на синхронный режим сигнал a2 не отличим от сигнала s, и если последний возвращается участником с задержкой в два такта, то обмен сигналами s начинает поддерживать взаимную синхронизацию. Для исключения влияния неточности локальных часов, определяющих локальное время на Земле и космическом корабле, обмен сигналами a1 и a2 должен продолжаться и после выхода на синхронный режим. Теперь рассмотрим ситуацию, в которой майхилловские стрелки не стреляют из ружей, а включают какие-то устройства (рис. 5.4), каждое из которых обладает своим латентным временем, т. е. временем между нажатием пусковой кнопки и началом работы устройства. Например, от момента включения питания радиолокационной станции до момента разогрева радиоламп проходит 1 мин, а от момента запуска двигателя до его прогрева — 5 мин. Каждому «стрелку» известно только латентное время своего собственного устройства. Возникает вопрос о существовании локальных правил поведения автоматов, сложность которых (число состояний) не зависит ни от длины цепи, ни от латентных времен других «стрелков», иными словами, после подачи команды одному из «стрелков» цепи они должны нажать пусковые кнопки так, чтобы все управляемые ими устройства начали работать одновременно. Оказалось, что эта задача имеет решение, базирующееся на принципах решения исходной задачи Майхилла и локальный автомат представляет собой цепочку из Tk автоматов, решающих задачу Майхилла, где Tk — локальное латентное время, и логической схемы, вырабатывающей стартовый сигнал в зависимости от состояний автоматов указанной цепочки. Коль скоро мы рассматриваем алгоритмы локального ограниченного взаимодействия, то естественно задуматься о влиянии на решение задачи числа соседей. При изучении этого вопроса оказалось, что решение задачи синхронизации не на отрезке, а на произвольном графе, приблизительно так же сложно. С другой стороны, возникает вопрос, а может ли быть решена задача синхронизации не при двух, а только при одном соседе? Ответ на этот вопрос положителен. Любая задача, которую можно решить на отрезке с двумя соседями, можно решить на кольце с одним соседом. § 5.3. Синхронизация и асинхронностьВ рассмотренных выше задачах содержался некоторый обман. Описанные модели решают задачу синхронизации, но используют при этом некий внутренний такт, который неизвестно откуда берется. И лишь в задаче о взаимной синхронизации через канал с неизвестной задержкой мы упомянули о возможности существования механизма, согласующего длительности внутренних тактов. Задачу исключения понятия внутреннего такта нельзя решить в рамках используемой для описания алгоритмов локального поведения формальной модели конечного автомата, так как она игнорирует реальное физическое время. Но как только мы начинаем рассматривать автомат как реальное физическое устройство, он становится динамической системой, переходные процессы в которой не адекватны процессам смены состояний в модели конечного автомата. Преодоление указанных трудностей обеспечивается теорией согласованных самосинхронизующихся схем, которые обеспечивают инвариантность поведения автоматов по отношению к длительности внутреннего такта. Однако изложение идей и результатов этой теории выходит далеко за рамки настоящей книги. Мы опишем все же модель, в которой синхронизация осуществляется без привлечения понятия жесткого такта. На рис. 5.4 «стрелки» образовывали шеренгу, что соответствовало жесткой структурной организации. Теперь мы рассмотрим возможность синхронизации «толпы». Пусть автоматы блуждают в некотором ограниченном пространстве и в какие-то моменты времени сталкиваются друг с другом. В отличие от моделей случайного парного взаимодействия, мы не предполагаем, что эти столкновения одновременны, и тем самым исключаем необходимость тактовой синхронизации. Для нашей модели, вернее для ее формального изучения, необходимо, чтобы в нашей толпе осуществлялось достаточно хорошее перемешивание, т. е. чтобы в идеале все столкновения были равновероятными. Перемешивание, порождаемое процессами типа броуновского движения, несколько искажает получающиеся результаты. Столкнувшись, два автомата осуществляют акт взаимодействия и расстаются. Возникает вопрос о существовании правил взаимодействия, обеспечивающих синхронизацию такой совокупности автоматов, правил, не зависящих от числа автоматов. Прежде всего уточним, что мы в этом случае понимаем под процессом синхронизации. В начальный момент времени все автоматы находятся в некотором состоянии 5о и при столкновении двух автоматов, находящихся в этом состоянии, оно сохраняется у обоих автоматов. Внешний сигнал, инициирующий процесс синхронизации, поступает на один из автоматов и выводит его из начального состояния. Естественно, мы не можем требовать, чтобы через какое-то время все автоматы перешли в синхронное состояние, так как при случайном взаимодействии всегда существует ненулевая вероятность того, что информация об инициации процесса за любое конечное время не выйдет за пределы ограниченной части автоматов. Поэтому при случайном взаимодействии можно говорить лишь о вероятности того, что значительная доля автоматов одновременно или в течение относительно короткого отрезка времени будет находиться в синхронном состоянии. Длительность этого отрезка времени определяется частотой столкновений. Поскольку смена состояний автоматов есть результат взаимодействия, то по крайней мере все перешедшие в синхронное состояние автоматы должны в течение этого интервала времени вступить во взаимодействие. Качество, или точность, синхронизации мы будем оценивать математическим ожиданием доли автоматов, находящихся в синхронном состоянии. Пусть у нас задано некоторое число e (0<e<1) и мы можем определить интервал времени te, в течение которого доля автоматов, превышающая 1—e, заведомо вступит во взаимодействие. Мы будем говорить о синхронизации совокупности автоматов с точностью до е, если один из автоматов совокупности инициирован в момент времени t0 и существует такой момент времени tc, что до этого момента математическое ожидание доли автоматов, перешедших в синхронное состояние, не превышает е, а математическое ожидание доли автоматов, перешедших в синхронное состояние после момента времени tc+te, превышает (1-e). Теперь можно рассмотреть алгоритм локального взаимодействия, обеспечивающий решение задачи синхронизации. Автомат имеет (k—1) внутреннее состояние. Состояние с номером 0 будем называть начальным, а состояние с номером k — синхронным. Взаимодействие определяется следующими правилами:
Попытаемся содержательно рассмотреть процесс синхронизации. Первый из инициированных извне автоматов переходит в состояние 1 и, сталкиваясь с автоматами, находящимися в состоянии 0, будет переводить их в состояние 1. Этот процесс обеспечит лавинообразное распространение переходов в состояние 1 в совокупности автоматов. Автомат в состоянии 1 сменит его на состояние 2, если он встретит автомат, находящийся также в состоянии 1, и вероятность этого события равна доле автоматов в состоянии 1. Если же автомат, в состоянии 2, встретится с автоматом в состоянии 0, то он возвратится в состояние 1. Таким образом, если скорость перехода автоматов из состояния 0 в состояние 1 линейно нарастает с ростом доли автоматов, находящихся в состоянии 1, то скорость перехода из состояния 1 в состояние 2, грубо говоря, возрастает, как корень квадратный от этой доли. И вообще, если в совокупности имеется некоторое распределение автоматов по номерам состояний, то доля автоматов с малыми номерами состояний уменьшается с гораздо большей скоростью, чем увеличивается доля автоматов с большими номерами состояний. Можно ожидать, что по мере продвижения этого распределения по номерам, его разброс будет возрастать. Иными словами, распределение автоматов по номерам будет «сгущаться» относительно номера текущего среднего состояния. Это предположение подтверждается как математическим анализом, так и результатами моделирования поведения такой совокупности на ЭВМ. При моделировании в качестве одного такта выбиралось время, в течение которого все автоматы по одному разу вступают во взаимодействие. Тогда, например, в совокупности из 1024 автоматов при числе состояний каждого автомата, равном 15, в 400 экспериментах все автоматы переходили в синхронное состояние. Существенно здесь математическое доказательство независимости требуемого при данном е числа состояний автомата от общего числа автоматов в совокупности. Этот факт доказан для достаточно больших размеров совокупности и достаточно малых e. Однако это отнюдь не умаляет содержательного значения полученных результатов. Результаты настоящего параграфа кажутся удивительными. Казалось бы, с ростом размера совокупности задача согласования поведения должна усложняться, однако существуют весьма простые правила случайного взаимодействия, которые обеспечивают синхронизацию реакции совокупности на информацию, поступившую только одному индивидууму. Обеспечивающие этот эффект процессы, в которых отстающие подтягиваются, а убежавшие вперед тормозятся, можно назвать процессами синхрофазировки. Возможно, что аналоги синхрофазировки встречаются и в эволюционных процессах. Случайные изменения, возникающие у отдельных индивидуумов вследствие случайных парных взаимодействий, распространяются по всей популяции и синхронно проявляются при возникновении соответствующих условий. § 5.4. Гимн однородным структурамЧитатели, наверное, заметили пристрастие авторов к однородным структурам с однотипно организованным взаимодействием. Это действительно так. Нас не перестают удивлять и восхищать огромные возможности, скрытые в этих простейших, структурах. Только что одномерная однородная, структура продемонстрировала нам свою способность к синхронизации без глобального синхронизующего, сигнала. Несколько ранее, в гл. 3 поливальные насосы включались на участках дач так, как нам этого хотелось. Здесь мы приведем еще несколько примеров из удивительного мира однородных структур. Отметим, что однородные структуры часто встречаются в биологии, а техника проявляет к ним особый интерес. Ведь однородные структуры легче производить, заменять и контролировать. Однородность и однотипность — идеал инженера. Вот почему в последние годы, особенно после появления микроэлектроники, так возрос интерес к однородным структурам. Мы думаем, что картина, описанная ниже, знакома всем читателям. В зале заседаний идет собрание. Председательствующий ставит на голосование какой-то проект или решение. «Прошу поднять руку тех, кто «за»,— говорит он. Поднимается лес рук. Подсчет числа голосов весьма трудоемок. Иногда председатель не справляется с ним и требуются специальные помощники — счетчики. «Кто «против»? — снова спрашивает председатель. И опять лес рук. И снова надо считать. Хорошо, когда одно из мнений собирает мизерное число сторонников. Тогда и считать не требуется. Общая картина достаточно красноречива. («Считать не будем? Я думаю, и так все ясно»,— говорит в этих случаях обычно председатель.) Но если «за» и «против» собрали примерно одинаковое число голосов, то публика начинает волноваться и требует перёголосования. Всегда возникает мнение, что счетчики ошиблись. Как избежать этой щекотливой ситуации? Можно ли автоматизировать подсчет голосов и определение результатов голосования? Удастся ли создать «машинку для голосования», которая давала бы нужный результат независимо от числа голосующих? Ответы на все эти вопросы положительны. Все это можно сделать с помощью одномерных и двумерных однородных структур. Проиллюстрируем наше утверждение на наиболее простых примерах. Рассмотрим сначала простейшее голосование, при котором каждый его участник голосует «за» или «против», а окончательное решение принимается по простому большинству голосов. Тогда, очевидно, каждую пару «за—против» можно вычеркнуть из дальнейшего сравнения. Если вычеркнуть все такие пары, то останутся только те, кто проголосовал «за» (если их большинство), или те, кто проголосовал «против». Считать их число не надо. Для простого большинства хватает и одного лишнего голоса. Эту процедуру вычеркивания конкурентных пар легко реализовать на одномерной однородной структуре. Рассмотрим схему, показанную на рис. 5.5. Каждый автомат имеет два состояния, которые мы обозначим через а, b. Состояние а соответствует тому, что данный результат голосования еще не вычеркнут, состояние b — что он вычеркнут. На внешние входы автоматов поступают сигналы хi от участников голосования. При этом хi=1 означает, что i-й участник голосования проголосовал «против», a хi=0 — что он проголосовал «за». Если голосование происходит в специально для этого оборудованном месте, то сигнал от каждого голосующего поступает в наше устройство в результате нажатия им соответствующей кнопки на индивидуальном пульте. Сигналы, передаваемые по горизонтальной шине между автоматами, являются для системы внутренними (рабочими). Работа автоматов в цепи задается табл. 5.1. Таблица 5.1
Поясним, как устроена эта таблица. В некотором такте работы на автомат Ai поступает входной сигнал Xi, равный 0 или 1, и один из четырех возможных рабочих сигналов. Сам Аi при этом находится в одном из двух возможных состояний (а или b). Значения входного и рабочего сигналов и состояние автомата определяют текущую ситуацию, которая записывается парой символов: значением рабочего сигнала, выдаваемого автоматом Ai в этой текущей ситуации, и новое состоянием, в которое он переходит. В начале работы системное устройство СУ, показанное на рис. 5.5 в виде кружка, выдает на боковой вход самого левого автомата цепи сигнал So. Все автоматы в начальном такте работы находятся в невычеркнутых состояниях а. Встретив первый автомат в состоянии а (в начальный такт работы это всегда будет крайний левый автомат в цепи), сигнал So переводит его в вычеркнутое состояние b. Если при этом на внешний вход автомата подавался сигнал «за», то далее по цепи будет вправо распространяться сигнал S1. Если же данный автомат имел на входе Xi=1 (т. е. сигнал «против»), то вправо будет распространяться сигнал S2. Сигналы S1 и S2 осуществляют поиск первого автомата, который мог бы составить вычеркиваемую пару с отмеченным ими автоматом. Если при своем движении вправо сигналы S1 или S2 находят соответствующий автомат, то он переводится в вычеркнутое состояние, а рабочий сигнал становится равным S3. Этот сигнал есть свидетельство вычеркивания одной пары из множества голосующих. Сигнал S3 «проскакивает» через все оставшиеся автоматы цепи, ничего не меняя на своем пути. Его приход в СУ свидетельствует об окончании одного акта вычеркивания. Приход его в СУ заставляет системное устройство выдать на цепочку автоматов новый сигнал So. Окончание процесса вычеркивания произойдет тогда, когда сигнал S1 или сигнал S2 не найдут себе подходящей пары для вычеркивания. В этом случае на вход СУ поступит не сигнал S3, a S1 или S2. Появление сигнала S1 говорит о том, что большинство проголосовало «за», появление S2 — о противоположном результате голосования. Особым случаем является равенство голосов «за» и «против». В этой ситуации наше устройство посылает на боковой вход левого автомата цепи сигнал So, который «проскакивает» неизменным через все вычеркнутые автоматы и приходит на вход СУ. Это и есть сигнал о равенстве голосов. Отметим, что значение N нигде не фиксировалось и никакой роли для нас не играло. Устройство для подсчета голосов будет срабатывать верно при любом числе голосующих. Мы рассмотрели простейший случай голосования. Но и для более сложных случаев задача об определении результатов голосования оказывается разрешимой с помощью одномерной цепи автоматов, в которой сложность каждого автомата не зависит от того, сколько лиц приняло участие в процедуре голосования, а зависит лишь от вида голосования. Так, например, при голосовании по принципу 2/3 (решение принимается, если за него проголосовало не менее 2/3 голосующих) сложность автоматов не меняется, а лишь увеличивается до шести число различных рабочих сигналов. При одном «сканировании» с помощью сигнала So происходит вычеркивание тройки автоматов, на два из которых поступил сигнал «за», а на один — сигнал «против». Можно рассматривать задачу не с простым голосованием «за» и «против», а с выбором одного из К претендентов по принципу большинства голосов. Это требует уже автоматов с четырьмя состояниями и восьми различных рабочих сигналов. При последовательном голосовании (например, сначала предлагается из трех претендентов B1, В2 и В3 выбрать либо B1, либо группу (В2, В3), и если выбран B1, то голосование заканчивается, а если группа, то на втором туре идет борьба между В2 и В3) требуется уже двумерная однородная структура. Такой же структуры требует и голосование, в котором каждый претендент на «призовое» место оценивается определенным коли-чеством очков. Видов голосования человечество придумало очень много. Но интересно, что все они (по крайней мере, известные сегодня) можно промоделировать на однородных структурах, сложность элементов которых никак не зависит от числа голосующих. Однородные структуры используются сейчас в самых разнообразных областях, хотя их применение и тормозится тем, что очень привычные вещи реализуются с их помощью весьма непривычным для человека образом. Возьмем, к примеру, операцию умножения. С детства мы привыкли умножать в столбик и верим, что этот способ самый простой и быстрый. На самом деле это совсем не так. Развитие вычислительной техники заставило нас перейти от десятичной системы к двоичной. В двоичной системе умножение оказалось куда более простым по своей структуре. Сдвиг на один разряд и сложение в определенной последовательности дают тот же эффект умножения в столбик без необходимости помнить таблицу умножения. Вот как выглядит умножение 12 на 14 в двоичной системе:
Здесь мы умножали, начиная со старшего разряда множителя, и производили сдвиги вправо. Конечно, можно было бы умножать, начиная с младшего разряда множителя, и делать сдвиги влево. Результат был бы одинаков. Как и при десятичном умножении, он равен 168. На рис. 5.6 показана однородная матрица, состоящая из трех столбцов, каждая клетка которых представляет собой однотипный автомат, имеющий три состояния D0 , D1 , D. Состояния D0 и D1 называются рабочими. Если автомат находится в них, то это означает, что он хранит в данной клетке значение двоичной цифры 0 и 1 соответственно. Состояние D является безразличным (нерабочим). Каждый автомат имеет связи со всеми своими соседями. Эти входы и выходы мы будем обозначать буквами н, в, л, п (низ, верх, левый, правый). По ним могут передаваться сигналы пяти типов: безразличный (пустой) и B0, B1, Co, C1. Безразличный сигнал мы специально обозначать никак не будем. Сигналы Во и B1 несут информацию о значении цифр в соответствующем разряде множителя. Сигналы Со и С1, выдаваемые автоматами, соответствуют передаче соседу сигналов 0 и 1. Число строк в матрице зависит от разрядности перемножаемых чисел. При n разрядах число строк в первом столбце равно 2n + 1, во втором и третьем столбцах —2n. Матрица, показанная на нашем рисунке, предназначена для перемножения четырехразрядных двоичных чисел. Все автоматы, образующие матрицу, функционируют одинаково. Этот принцип проистекает из однородности среды. Работа автоматов иллюстрируется табл. 5.2. Здесь индексы k, p, i могут принимать значения 0 или 1. В этой таблице заполнены только те места, которые соответствуют комбинациям сигналов и состояний, встречающихся в процессе умножения. Звездочка означает, что этого сигнала может и не быть. Таблица 5.2
Как же происходит умножение? На рис. 5.6, а показано начальное заполнение матрицы. Множитель записан в левом столбце так, что внизу находится младший разряд. Множимое написано в соседнем столбце. Правый столбец будет использоваться для получения произведения. Идея проста: если очередная цифра множителя есть 0, то множимое надо сдвинуть на один разряд вверх. Если же очередная цифра множителя есть 1, то до сдвига множителя его надо прибавить к той сумме, которая в этот момент будет накоплена в правом столбце матрицы. Процесс начинается с подачи сигнала Во справа на младший разряд множителя. Этот сигнал как бы считывает значение разряда. Появление после этого состояния D означает, что разряд считан (рис. 5.6, б). Далее сигнал Во распространяется вверх по левой колонке и на каждом уровне порождает сигнал Во направо. Эти сигналы сдвигают множимое без прибавления в накопленную сумму правой колонки матрицы. В нашем примере это происходит потому, что на начальном цикле разряд множителя был равен 0. На рис. 5.6, в, г показаны еще два такта работы однородной среды. Появление на рис. 5.6 г сигнала Во, приходящего в левую колонку, соответствует началу работы с очередным разрядом множителя. Таким образом, на четвертом такте завершается микроцикл умножения. Общая картина распространения сигналов по однородной матрице при умножении двоичных чисел в столбик показана на рис. 5.7. На нем двойная стрелка изображает сигналы Bk, обычная стрелка — сигналы Ck. Светлый кружок означает переход автомата в данном такте в состояние D и выдачу вверх значения, соответствующего его состоянию, темный кружок — переход автомата в состояние Dp, соответствующего значению сигнала, поступившего на данный автомат снизу. Перечеркнутая стрелка означает, что передается либо сигнал Во, либо Со. За 18 тактов, как следует из рис. 5.7, цикл умножения двух четырехразрядных двоичных чисел завершается. Состояния автоматов правой колонки хранят результат умножения. Сигналы, которые на рис. 5.7 как бы выходят за пределы матрицы, пропадают и не оказывают влияния на дальнейшее функционирование матрицы. Читатель, пользуясь табл. 5.2 и рис. 5.7, может самостоятельно завершить умножение 12 на 14 с помощью однородной матрицы. Общее число тактов, которое нужно затратить на умножение двух n-разрядных двоичных чисел по предложенному методу, равно 8п+2. Если же отказаться от привычной нам логики умножения и перейти на более «изысканные» методы умножения, то однородная матрица позволяет найти произведение всего за 4n—1 такт работы. При этом сложность автоматов, образующих матрицу, даже меньше, чем при умножении в столбик. Правда, при умножении двух n-разрядных чисел потребуется в этом случае n2 + 1 автомат, а для рассмотренного нами случая — 6n + 1 автомат. Кроме умножения, с помощью однородных матриц можно производить и деление. Один из способов деления на однородной матрице с двумя столбцами требует автоматов той же сложности, что и для умножения в столбик. Число необходимых автоматов равно 2п+3. Однородные среды открывают большие возможности в самых различных областях применения. Например, они оказываются незаменимыми при обработке зрительной информации, отображаемой на устройствах типа фотоматриц. Однородные автоматные структуры позволяют в этом случае выделять контуры отображаемых рисунков, находить вершины углов и точки пересечения, определять расстояние между изображениями на матрице и т. п. Развитие робототехники в последние годы стимулировало это направление исследований. Для нас важно, что однородные структуры и однородные коллективы, состоящие из простых устройств, способны решать многие задачи, для которых мы привыкли использовать традиционные последовательные (централизованные) способы решений. А трудность перехода к параллельным (децентрализованным) методам решения кроется, в частности, в нестандартности методов и алгоритмов, реализуемых в однородных структурах. Наш гимн однородности не противоречит тому, что говорилось ранее о пользе неоднородности. В гл. 3 мы демонстрировали те новые качества, которые неоднородность вносит в поведение коллектива автоматов, решающих общую задачу. Ибо никто еще не доказал, что однородные коллективы и структуры могут эффективно решать все задачи, возникающие перед техническими системами. Но никто не доказал и противоположного! § 5.5. «Почему йога —не наш путь?» Именно так называл свое научное выступление на одной из школ по коллективным моделям поведения известный советский кибернетик М. М. Бонгард. В этом выступлении он говорил о том, что излишняя централизация в биологических организмах может нанести огромный вред. При возрастании централизации организм все большие ресурсы будет затрачивать на обработку информации для принятия решений, ему будет оставаться все меньше времени на поисковую и адаптационную деятельность. И М. М. Бонгард привел в качестве примера адептов учения йогов, которые в своей практике часто достигают того, что «вытаскивают наверх, в сознание» управление теми физиологическими процессами, которые протекают у человека на уровне автономных и полуавтономных систем управления. Они, например, могут сознательно регулировать ритм биения сердца, сокращать и расслаблять желудок, сознательно управлять температурой тела и т. п. Но к чему это приводит? В пределе, когда все автоматизмы подавлены, йог должен тратить все свое время и ресурсы мозга на то, чтобы все эти процессы протекали без срывов, иначе жизнь его может оказаться под угрозой. Но тогда ему уже не хватит времени ни на что другое, ни на размышления, ни на созерцание. Конечно, индийские йоги не попадают в подобное положение. Автоматизмы они сохраняют. И вмешиваются в течение физиологических процессов лишь изредка. Да и цель их иная. В овладении секретом управления автономными процессами, забота о которых вытеснена из сферы сознания, они видят еще одну ступень в овладении законами управления своим телом. Но аналогия, подмеченная М. М. Бонгардом, очень ярка и поучительна. Мы много говорили о параллельных процессах и методах их взаимодействия. В человеческом организме формы этого взаимодействия куда богаче. Но суть явления сохраняется. Процессы текут почти автономно, синхронизуясь во времени за счет редких периодических или специфически определяемых ситуацией сигналов. Однако децентрализация, при которой подсистемы работают практически автономно, обладает одним весьма существенным недостатком, о чем мы еще не говорили, хотя читатели могли бы и сами догадаться о нем. По крайней мере во многих наших моделях, функционирующих в быстро меняющихся средах, он был явно заметен. Этот недостаток связан с тем, что за децентрализацию управления приходится платить увеличением времени адаптации. То, что по единому приказу из центра можно сделать в системе за весьма короткое время, если центральное звено заблаговременно получит информацию об изменениях свойств среды, в децентрализованной системе будет осуществляться весьма медленно. Наверное, поэтому в биологических организмах (и у человека, в частности) имеются как бы два уровня: децентрализованный и централизованный по управлению. Однако эти уровни не дублируют друг друга. Пока окружающая среда почти неизменна и вполне устраивает человека, децентрализованное управление реализуется в полном объеме. Отдельные его подсистемы функционируют автономно и почти не взаимодействуют между собой. Но вот произошло резкое изменение состояния среды, грозящее человеку неприятными последствиями. Требуется как можно быстрее перевести все подсистемы в состояние «боевой готовности». И тогда срабатывает централизованное управление, переводящее организм в состояние, которое можно назвать ситуацией стресса. Основная особенность этой реакции — ее неспецифичность. Она осуществляется в любых опасных ситуациях и направлена на взаимодействие со всеми подсистемами организма. В' кровь начинают выделяться гормоны, стимулирующие адаптационные реакции, повышается готовность организма к отдаче энергии, подпитываются мышцы и т. п. После этого либо наступает период адаптации, либо стрессовая ситуация исчезает. В наихудшем случае организм так долго стоит в готовности номер один, что наступает истощение, а, возможно, и гибель. Таким образом, между децентрализованной и централизованной частями системы управления мы наблюдаем весьма интересное распределение функций. В медленно меняющихся или неизменных средах децентрализованная часть системы управления успешно справляется с адаптацией поведения к среде и достижением глобальных целей организма, а при резких изменениях среды организм включает некоторую систему всеобщего назначения. Специалисты по управлению интегральными роботами (в отличие от узкоспециализированных роботов. последние должны действовать в широком классе сред, точное описание которых сделать невозможно) сейчас находятся в весьма нелегком положении. С одной стороны, совершенно очевидно, что в роботе имеется немало подсистем, которые должны функционировать автономно или почти автономно, получая сигналы из центрального блока управления (например, подсистемы «глаз» и «рука», позволяющие роботу найти нужный предмет, взять его и совершить с ним какую-либо операцию, должны действовать параллельно и автономно, согласуя свои действия лишь не слишком частыми синхронизующими сигналами). С другой стороны, возникает проблема создания неспецифических глобальных видов воздействий от центрального блока, способного обеспечить целесообразное поведение робота. Общие законы такого поведения сформулировать очень трудно. Вспомним, например, три общих закона робототехники, предложенные в свое время А. Азимовым. Эти законы находятся в приоритетной связи. Первый из них самый приоритетный. Согласно ему робот никогда, ни при каких обстоятельствах не должен причинять вред человеку. Это закон всеобщего запрещения. И довольно легко себе представить, как можно организовать воздействие на подсистемы при опасности нарушения этого закона. Второй закон А. Азимова говорит о том, что робот всегда должен стремиться к достижению поставленной перед ним задачи, если это не противоречит первому закону. А третий закон робототехники указывает роботу на необходимость принимать все меры к самосохранению, если это не противоречит предшествующим двум законам. Но два последних закона уже не могут быть неспецифичными в отношении сигналов, передаваемых подсистемам робота. Требуется их спецификация по типам целей, которые ставятся перед роботом, и способам его самоохранительных действий. Неспецифические сигналы централизованной части управляющей системы в наших многочисленных автоматных и неавтоматных моделях поведения были представлены различными воздействиями среды на подсистемы. Такие механизмы, как введение общей кассы или случайных парных взаимодействий, играют в этих моделях общерегулирующую роль. Напомним читателю, что, как мы говорили в § 4.4, целью коллектива может быть не только достижение целесообразного (или оптимального) поведения во внешней среде, но и поиск этих регулирующих воздействий, позволяющих подсистемам прийти к некоторому согласованному функционированию. Для того чтобы еще раз подчеркнуть весьма важную для нас мысль о вреде «вытаскивания» специфических функций в централизованную часть системы управления, мы закончим этот параграф одной сценкой, которую можно было наблюдать на международной конференции по проблемам искусственного интеллекта и робототехники. Один из высокопоставленных представителей военно-морского флота США в ответ на жалобы докладчика о том, что весьма трудно придумать небольшое число неспецифических законов целесообразного поведения для интегральных роботов, сказал, что он не видит в этом особой проблемы. И пояснил свою мысль следующим примером из жизни. Когда новички попадают на корабль, то первое время они никак не могут приспособиться к новой среде, совершают массу ошибок и вместо помощи часто наносят непоправимый вред. Команда вынуждена тратить силы на то, чтобы следить за новичками и оберегать их от беды. Однако всего этого можно избежать. Новичкам достаточно усвоить раз и навсегда, на весь их начальный период адаптации на корабле, только один неспецифический закон: «Если ты видишь движущийся предмет, то отдай честь, если же предмет неподвижен, то покрась его». Это, конечно, анекдот, но мысль, высказанная в нем, точно отражает нашу проблему. Однако, к сожалению, сегодня мы слишком мало знаем о том, как надо строить эти регулирующие процедуры в системах децентрализованного управления, Г л а в а 6 ДИАЛЕКТИКА ПРОСТОГО И СЛОЖНОГО«Дороги, которые мы выбираем, следует отличать от дорог, которые выбирают нас». Феликс Кривин § 6.1. Синтезогенез и интеграция усилий«Все эти создания обладали тройственной симметрией и напоминали формой греческую букву гамма с тремя остроконечными плечиками, соединяющимися в центральном утолщении. В падающем свете они казались черными, как уголь, в отраженном — переливались синим и оливковым цветом, как брюшки некоторых земных насекомых. Наружные их стенки состояли из очень мелких пластин, напоминающих грани бриллианта, а внутри «мушки» содержали одну и ту же микроскопическую конструкцию. Ее элементы, в сотни раз меньшие, чем зернышки песка, образовывали что-то вроде автономной нервной системы, в которой удалось различить две частично независимые друг от друга цепи. Меньшая часть, занимающая внутренность плеч, представляла собой микроскопическую схему, заведующую движением «насекомого», нечто вроде универсального аккумулятора и одновременно трансформатора энергии. В зависимости от способа, каким сжимали кристаллы, они создавали то электрическое, то магнитное поле, то переменные силовые поля, которые могли нагревать до относительно высокой температуры центральную часть; тогда накопленное тепло излучалось наружу однонаправленно. Вызванное этим движение воздуха, .как реактивная струя, делало возможным движение в любом направлении. Отдельный кристаллик не столько летал, сколько подпрыгивал, и не был, во всяком случае во время лабораторных экспериментов, способен точно управлять своим полетом. Несколько же кристалликов, соединяясь кончиками плеч друг с другом, образовывали систему с тем лучшими аэродинамическими показателями, чем больше их было. Каждый кристаллик соединялся с тремя; кроме того, он мог соединяться концом плеча с центральной частью любого другого, что давало возможность образования многослойных комплексов. Соединения не обязательно требовали соприкосновения, кристалликам достаточно было сблизиться, чтобы возникшее магнитное поле удерживало все образование в равновесии. При определенном количестве насекомых система начинала проявлять многочисленные закономерности, могла в зависимости от того, как ее «дразнили» внешними импульсами, менять направление движения, форму, вид, частоту внутренних пульсаций; при определенных внешних условиях менялись знаки поля, и, вместо того, чтобы притягиваться, металлические кристаллики отталкивались, переходили в состояние «индивидуальной россыпи». Эта длинная цитата из повести Станислава Лема «Непобедимый» приведена нами не случайно. На планете «Регис-III» люди столкнулись с необычным явлением. Из примитивных кристалликов, обладающих примитивным поведением, при определенных условиях возникал сверхорганизм — туча. И эта туча обладала почти неисчерпаемыми возможностями по адаптации своего поведения, ибо хранила в огромной памяти, складывающейся из памятей-песчинок отдельных кристаллов, необъятный запас знаний. Однако столь ли уж необычен этот способ возникновения сложного из простого? После того, что читатель прочитал в предшествующих главах, подобный путь организации сложного поведения должен казаться ему весьма привычным; Наблюдения за биологическими организмами также не противоречат идее польского фантаста. Такое объединение более простых организмов в более сложный —один из путей эволюции в органическом мире. К. М. Завадский, много лет занимавшийся проблемами эволюции, назвал такой путь синтезогенезом. Переход от одноклеточных водорослей к многоклеточным был решающим шагом на пути прогресса органического мира; сообщество рабочих пчел в улье или рабочих муравьев в муравейнике—примеры того же типа. Но простое скопление однородных подсистем или организмов—это еще не новая система или организм. Множество рабочих пчел, встретившихся на цветущем лугу и относящихся к разным пчелиным семьям,—это совсем не то, что множество рабочих пчел из одного улья. И совокупность пассажиров, оказавшихся одновременно в трамвае, резко отличается от множества покупателей и продавцов на колхозном рынке. В чем же состоит это отличие? В самом общем виде можно сказать, что некоторая совокупность элементов является единой системой, если эти элементы обладают потенциальным свойством образовывать статические или динамические структуры, необходимые для «выживания» элементов и всей их совокупности, т. е. обладают свойством устанавливать взаимодействие друг с другом для достижения локальных и глобальной целей. Это, конечно, не определение, а скорее рассуждение о чрезвычайно сложном вопросе. Исчерпывающий ответ на него — предмет специального исследования, выходящего далеко за границы возможностей авторов. Но, как нам кажется, суть всех моделей коллективного поведения и взаимодействия в этом и состоит. Отметим еще, что когда речь идет о биологических совокупностях, то в реальных ситуациях эти потенциальные свойства проявляются лишь частично, а остальные — ждут своего часа. Хорошо- известны, например, опыты с некоторыми бактериями, которые всегда обитали в средах, где отсутствуют определенные виды углеводов. При искусственной пересадке их в среды, где эти непривычные углеводы были единственной доступной для бактерий пищей, они начинали вырабатывать фермент для их расщепления. Возможность этого была заложена в их генную структуру «на всякий случай» и реализовалась именно тогда, когда в этом возникла необходимость. Другой пример — огромные потенциальные возможности любого человека, подавляющее большинство которых никогда не проявляется у индивида, а возможно, и у человеческого сообщества. Таким образом, синтезогенез—это путь увеличения числа потенциально возможных свойств, которые могут пригодиться системе при встрече с непривычными для нее ситуациями и средами. Рассмотрим простую модель, иллюстрирующую возможности синтезогенеза. На рис. 6.1 показан тороидальный мир — совокупность клеток, размещенных на внешней поверхности тора (обычная сушка или баранка дают превосходное представление о тороидальной форме). Предположим, что в клетках этого мира может находиться пища, которой могут питаться «организмы», обитающие в них. В качестве таких «организмов» будем рассматривать автоматы с линейной тактикой. Простейшая форма подобного автомата — автомат с одним действием, показанный на рис. 6.2, а. В состоянии 1 при получении сигнала штраф автомат «умирает» (на рисунке это отмечено крестиком). Действие, которое может совершать автомат,— перемещение в некотором фиксированном направлении на одну клетку тора. Обозначим четыре возможных направления перемещения, показанные на рис. 6.1, через А, Б, В, Г. Тогда простейшие автоматы будут делиться на четыре типа — будем обозначать их теми же буквами. Допустим, что автоматы, находящиеся в одной клетке, могут объединяться. Если объединяются два автомата одного типа, то это приводит к увеличению длины лепестка (т. е. глубины памяти для этого действия). При объединении же автоматов различного типа новый автомат имеет уже не один лепесток, а два. На рис. 6.2,6 показан автомат, который возник в результате объединения четырех автоматов, два из которых относятся к типу А, а оставшиеся два — к типу В и Г. Для удобства будем обозначать такой автомат как А2ГВ. В отличие от классического автомата с линейной тактикой наш автомат не может накапливать наказания безгранично и «умирает», когда число подряд действующих штрафов (пунктирные стрелки) превышает число состояний, имеющееся у автомата (для автомата, показанного на рис. 6.2, б, оно равно четырем). Кроме того, смена лепестков происходит равновероятно. Сигналы наказания и поощрения формируются средой следующим образом. Если автомат в данной клетке съедает пищу, то он получает сигнал поощрения, в противном случае—сигнал наказания. После того как автомат съест пищу (на что в модели требуется один такт) и уйдет из клетки, то пища может в ней одномоментно восстановиться или клетка останется пустой до того момента, когда по закону, характеризующему среду, пища снова восстановится. Если в одну и ту же клетку попадает несколько автоматов, то они принудительно объединяются и образуют новый более сложный «организм». Рассмотрим несколько ситуаций в эволюционном процессе на торе. На рис. 6.3 показано несколько простейших ситуация на некотором участке тороидальной поверхности. Клетки, в которых имеется пища, отмечены точками. Предполагается, что пища, съеденная в клетках, полностью восстанавливается, как только автомат уйдет из нее. На рис. 6.3, а показаны два простейших автомата. Автомат Л съедает пищу в клетке, где он находится, и идет наверх. Но на этом кольце пищи нигде больше нет. В результате он погибает в клетке, помеченной крестиком. Иная судьба у автомата Г. Если пища имеется на всем кольце, то этот автомат, двигаясь по замкнутому кольцу вправо, будет все время поддерживать свое существование. Он живет вечно, не беспокоясь ни о чем. На рис. 6.2, б показана еще одна очень простая ситуация. Автоматы А и Г встречаются в клетке с пищей, объединяются и начинают движение. Каким оно будет? Это зависит от того, какое именно состояние окажется начальным. Ели это состояние, соответствующее состоянию 1 автомата А, то объединенный автомат сначала сделает шаг наверх. В этой клетке пищи нет и автомат получит наказание. Это заставит перейти его в состояние 1 бывшего автомата Г и сделать шаг на одну клетку вправо. Там пища есть. Съев ее, автомат сделает еще один шаг вправо. Получив наказание, он, как автомат А, сделает шаг вверх и получит пищу. Далее процесс будет повторяться циклически, если пища размещается на поверхности тора регулярным образом. Автомат будет двигаться по «диагональной линии» и жить вечное Если бы начальным состоянием объединенного автомата было состояние 1 автомата Г, то движение было бы аналогичным. Пунктирные стрелки показывают оба возможных пути автомата АГ. Усложнение структуры далеко не всегда приводит к улучшению функционирования. Это положение иллюстрируется рис. 6.3, в. В клетке с пищей образуется автомат АБГ. Пусть начальным его состоянием является состояние 1 автомата Г. Сдвинувшись на одну клетку вправо и получив сигнал штраф, автомат переходит (путем равновероятного выбора) в состояние автомата Б. Он сдвигается вниз, но пищи там нет. Опять следует равновероятный переход, и автомат снова попадает в состояние автомата Г. Происходит сдвиг вправо. Но так как пищи в этой клетке нет, объединенный автомат погибает, исчерпав все свои ресурсы. Если бы объединения не произошло, то при том распределении пищи, которое показано на рис. 6.3, в, все три простейших автомата могли бы жить вечно. Наши забавные автоматы на тороидальной поверхности можно исследовать с разных точек зрения. Но, к сожалению, это увело бы нас весьма далеко от основной канвы книги. Те, кому понравился этот мир, могут придумать много занимательных и интересных историй, полных драматизма и неожиданных метаморфоз, которые могут развернуться на поверхности тора. Для нас же важно отметить, что синтезогенез может приносить как пользу, так и вред, ибо иногда лучшее — враг хорошего. Тем не менее путь синтеза, своеобразной полимеризации, часто встречается в эволюционирующих технических системах. Этот путь сыграл большую роль в создании мировой сети связи и транспортных сетей. При образовании комплексов резервированных устройств мы также сталкиваемся с явлением, подобным синтезогенезу. Выскажем еще раз одну весьма важную мысль, связанную с синтезогенезом. В процессе такого объединения возникает особое явление, сходное (чисто внешне) с полимеризацией в химии. Элементы, вступая в объединение и не меняясь по своей структуре, как бы приобретают новые качественные возможности. И эти новые возможности зависят от механизма объединения. В гл. 4 мы уже столкнулись с этим явлением. Когда два автомата объединялись чисто механически (так, как объединяются автоматы в нашей модели эволюции на горе), число их состояний растет, как п2, если каждый из автоматов имел п состояний. Когда же они объединяются за счет случайного парного взаимодействия, то это дает им возможность функционировать как автоматам, обладающим памятью глубины 2n. В гл. 5 мы также столкнулись с явлением «полимеризации». Автомат всего с восемью состояниями, объединившись в шеренгу стрелков, как бы приобретал возможность работы с памятью всей совокупности автоматов, становился богаче по своим возможностям, не меняя своей структуры. Это явление кажется нам весьма любопытным. Но, наряду с этим процессом в биологической и технической эволюции, идет и другой важный процесс, связанный с ростом неоднородности в организме с появлением специализированных подсистем. § 6.2. Сегрегациогенез и его последствияТермин сегрегациогенез, как и термин синтезогенез, принадлежит К. М. Завадскому. Его смысл сводится к тому, что в процессе развития биологических особей идет не только их усложнение путем объеди-нения более простых организмов в более сложные, но и процесс дифференциации функций, выполняемых отдельными подсистемами, и ведущий затем к изменению структуры этих подсистем для лучшего осуществления своих специфических функций. Прогресс требует отказа от универсальности, однотипности. Универсальный элемент делает все одинаково плохо. Если пища на торе в примере, рассмотренном в предыдущем параграфе, всегда расположена так, что для обхода клеток с пищей нужен ход шахматным конем, то имеет смысл, чтобы специфическая функция автомата позволяла бы ему прямо выполнять это движение в течение одного такта. Но если пища расположена иным образом, то подобное действие и не нужно. Коллизия между универсальностью и специфичностью, между однородностью и разнородностью есть явление всеобщее, встречающееся всюду. Биоценозы и техноценозы также демонстрируют эту коллизию. Количество рабочих пчел в улье может колебаться в довольно широких пределах, и они образуют подсистему, способную прожить самостоятельно, но самка пчелиного улья должна быть всегда одной единственной, и она быстро погибнет, если лишить ее рабочих пчел. Дифференциация здесь зашла уже весьма далеко, и отдельные подсистемы перестали уже быть способными к автономному функционированию вне той системы, в состав которой они входят. Однако польза от появления подобных подсистем очевидна. Мы уже говорили в гл. 3 о пользе разнородности в коллективе автоматов. Ранги рефлексии, уровни пессимизма—оптимизма были первыми показателями различий, намечавшихся в подсистемах, которые позволяли неоднородному коллективу более успешно решать стоящую перед ним задачу, чем однородному коллективу. Правда, любой из автоматов такого коллектива мог бы функционировать и в одиночку. Но это просто означает, что специализация еще не дошла до того рубежа, за которым самостоятельное существование отдельной подсистемы становится невозможным. Однако специализация — непременный спутник прогресса, ибо только с ее помощью можно уменьшать затраты времени на достижение тех или иных целей, стоящих перед организмом. В качестве иллюстрации сказанного рассмотрим, например, эволюцию в области ЭВМ. На первом этапе каждая вычислительная машина представляла собой некоторое единое и неделимое целое. Ее процессор, память, устройства обмена с внешним миром и управляющая система находились в столь жестких связях, что не могли не только функционировать, но и анализироваться отдельно друг от друга. Все процессы в ЭВМ протекали строго последовательно под контролем центрального устройства управления. Такую ЭВМ мы можем уподобить некоторой «клетке» в мире вычислительной техники. Как же происходила эволюция ЭВМ в последующие годы? Один путь был связан с усложнением структуры ЭВМ, введением в ее состав новых подсистем, обеспечивающих для нее возможность выполнения новых функций*) (например, графопостроителей, которые сделали возможным выводить из ЭВМ не только текстовую, но и графическую информацию, или появление в составе ЭВМ датчиков случайных чисел, позволяющих использовать при решении задач методы, опирающиеся на случайные распределения). Эти подсистемы, увеличивая сложность «клетки», не меняли принципиально условий ее существования. Но это усложнение вело к усложнению управляющей системы, на плечи которой падало все больше задач. И наступил момент, когда операционные системы ЭВМ (а именно они, как правило, выполняют роль центрального блока управления всеми процессами, протекающими в ЭВМ) стали самым узким местом. Появились грозные признаки того, что усложнение структуры ЭВМ приведет в тупик. Все чаще и чаще возникали ситуации, которые специалисты по операционным системам называют дедлоками (ловушками). Это такие состояния, когда требования различных процессов, протекающих в машине, предъявляют к операционной системе разноречивые требования, и она не знает, что ей делать. *) Эти подсистемы могут быть реализованы и в виде программ. Стало ясно, что при централизованном управлении дальнейшее усложнение структуры ЭВМ и улучшение ее функционирования уже невозможно. Переход к комплексированию ЭВМ был тем следующим шагом в эволюции, который надо было неизбежно сделать. Синтезогенез сработал. Вместо «одноклеточного» вычислительного устройства появились «многоклеточные». Эти образования могли иметь различную структуру. На рис. 6.4 показаны некоторые типы структур комплексов ЭВМ. На рис. 6.4, а приведена структура с центральной ЭВМ 1, которая выполняет роль центрального управляющего устройства для ЭВМ 2, 3, 4, на рис. 6.4,6 мы видим смешанную структуру, а на рис. 6.4, в — децентрализованную, в которой все ЭВМ равноправны. Важно отметить, что даже в централизованной структуре возникает некоторая децентрализация. Центральная ЭВМ не все время ведет процессы в подчиненных ей машинах. Она лишь инициирует в них начало некоторых процессов, синхронизует протекающие процессы между собой и производит обмен информацией между процессами. А в остальном машины, входящие в систему, действуют самостоятельно. И это направление эволюции подтверждает правильность отказа от пути йогов, о котором говорилось в гл. 5. Интересно отметить, что децентрализованная структура, показанная на рис. 6.4,в, демонстрирует возможность введения в структуру «организма» неспецифического централизованного управления. Показанный на этом рисунке пунктиром блок синхронизации К. может по специальной кольцевой шине передавать сигнал одновременно всем ЭВМ, образующим систему. Это может быть, например, сигнал прерывания всех вычислений для приема новой внешней информации, или для повторения вычислений, или для тестовой проверки. Но такой центральный управляющий блок может и отсутствовать. Тогда синхронизация работы децентрализованной системы будет осуществляться по типу кольца стрелков, о чем было рассказано в гл. 5. Кроме этого основного пути эволюции ЭВМ приблизительно в те же годы развивался и еще один путь — создание ЭВМ на основе однородных клеточных структур, о которых мы также говорили в гл. 5. Этот путь был связан с идеей синтезогенеза в чистом виде. Предполагалось, что однородность и универсальность отдельных подсистем (автоматов, находящихся в клетках однородной структуры с потенциально однотипными связями между ними) позволят улучшить характеристики ЭВМ. Однако этого не произошло. Ибо сегрегациогенез оказался куда более эффективным в отношении этих характеристик. И следующий шаг в эволюции ЭВМ — комплексирование не однотипных, а узкоспециализированных подсистем, причем для каждой из них четко определены те функции, которые она реализует. Сначала это привело к структурам того же типа, что и показанные на рис. 6.4. Отличие состояло лишь в том, что ЭВМ, входящие в систему, стали специализированными. Например, они могли быть специально созданы для обработки символьной информации, работы с матрицами, предварительной обработки и преобразования сигналов, поступающих от объекта управления, и т. п. Но при этом, как в автоматных моделях с рефлексией или уровнями пессимизма — оптимизма, все такие ЭВМ могли действовать и вне системы, автономно. При дальнейшем сегрегациогенезе это свойство исчезло. Дифференциация коснулась даже той исходной ячейки — ЭВМ, которую мы уподобили клетке. Ее составляющие как бы обрели самостоятельность, и возникла структура, показанная на рис. 6.5. Процессоры, блоки памяти, блоки обмена и управляющие блоки как бы плавают в некоторой вычислительной среде. Их объединение в структуру происходит динамически, управляющие блоки, получив задание, ищут исполнителей, свободных от работы, и организуют процесс. На рис. 6.5 показан такой момент, когда управляющий блок У1 объединил для решения задачи два процессора П1 и П4, один блок памяти 32 и три блока обмена O1, О3 и О5. Одновременно управляющий блок У2 организовал другой процесс, объединив для этого в структуру процессор Пз, запоминающее устройство 31 и обменное устройство O1. Задачи управляющие блоки получают из внешней среды. Из той же среды обменные устройства получают исходную информацию. Результаты решения также возвращаются во внешнюю среду. После окончания решения задачи структуры «рассыпаются». В этой структуре сегрегациогенез зашел настолько далеко, что отдельные подсистемы автономно не могут существовать. Лишь объединившись в структуру, где обязательно наличие одного управляющего блока и хотя бы одного обменного устройства, связанного с процессорами или запоминающими устройствами, наш «организм» сможет функционировать. Способность образовывать структуры под задачи демонстрирует его адаптационные возможности, а специализация отдельных подсистем позволяет реализовать связанные с ними функции параллельно и максимально быстро. Анализируя прогресс в эволюции, К. М. Завадский предложил следующую наглядную схему, показанную на рис. 6.6. Есть как бы три возможности в эволюционном развитии биологических организмов. При первом из них арогенезе идет расширение адаптационных возможностей организма. Он как бы расширяет набор сред, в которых он будет выживать и давать потомство. Этот процесс может идти либо за счет синтезогенеза (как в нашей модели эволюции на тороидальной поверхности), либо за счет сегрега-циогенеза (как, например, в вычислительной среде, дающей возможность решать любые задачи, для которых у системы хватает ресурсов). Заметим, что при наличии тех же ресурсов в рамках единой системы типа, показанной на рис. 6.4, а, не удалось бы, например, организовать одновременное протекание двух процессов, показанных на рис. 6.5. Если арогенез есть расширение адаптационных возможностей системы, то аллогенез есть смена некоторых функций, реализуемых организмом, на новые, экологически равноценные. Другими словами, при аллогенезе происходит как бы смена одной экологической ниши на другую, более выгодную для выживаемости организма. Такое явление можно наблюдать не только в биологии, но и в технике. В эпоху клавишных вычислителей, предшествующую появлению ЭВМ, они использовались в основном в научных расчетных бюро. ЭВМ вытеснили их оттуда, но они нашли свою экологическую нишу в бюро технико-экономических расчетов, которым невыгодно пользоваться услугами ЭВМ. Самолеты в свое время вытеснили дирижабли, но похоже, что горячие поклонники дирижаблей нашли для них новую подходящую нишу в современном техноценозе, и в ближайшее время мы, возможно, вновь увидим в небе их неповторимые силуэты. Наконец, телогенез — это как бы обратная сторона арогенеза. При телогенезе происходит очень глубокая адаптация к заданному состоянию экологической среды, которая достигается глубокой специализацией организма. Примеры телогенеза в технических системах очевидны. Практически все узкоспециализированные системы могут рассматриваться с этой точки зрения. Первобытное рубило, пригодное для всех случаев жизни, постепенно породило огромное количество рубящих инструментов, многие из которых пригодны для выполнения очень конкретных работ, но не могут использоваться для чего-либо иного (например, колун, если только не использовать его обуха для забивания чего-либо). Арогенез, аллогенез и телогенез — это не альтернативные пути эволюции. Они действуют согласованно и одновременно. Доминирование любого из них может оказаться в развитии некоторого организма временным и преходящим. Но все эти пути направлены на единственную цель — улучшение адаптации .организма к данной среде и, как следствие этого, .увеличение его выживаемости в ней. И сказанное .вполне можно перенести на технические системы. § 6.3. Эволюция в городе ЕдгинСтранное название города есть обратное прочтение слова «нигде». Город этот придумал английский писатель С. Батлер во второй половине XIX века. В английском написании название этого города, совпадающее с названием романа, выглядит как «Erehwon». Роман С. Батлера утопический. Герой романа, молодой человек по имени Хиггс, путешествуя в горах, попадает в необычный город. Его жители живут по законам, противоречащим нормам морали и юриспруденции, которые господствовали в Европе того времени. Например, болезни и несчастья, которые случаются с жителями Едгина, приравниваются к преступлениям. И за это судят и наказывают. Рождение ребенка также не является радостным событием, и дети, когда они вырастают, вовсе не благодарны своим родителям за то, что те даровали им жизнь. Но зато все жители города Едгин красивы, веселы и жизнерадостны. Хиггса они принимают с распростертыми объятиями, но вскоре сажают в тюрьму, Причина столь странного поступка — наличие у Хиггса часов. Почему часы испугали местных жителей, Хиггс узнает существенно позже, из рассказа дочери начальника тюрьмы Ирем. И эта причина имеет непосредственное отношение к теме нашей книги. Но прежде чем говорить об этом, необходимо несколько слов сказать о самом Самуэле Батлере. В его богатой событиями жизни, наполненной разнообразными интересами и пристрастиями, было одно многолетнее увлечение. И это увлечение — попытка понять суть эволюционного процесса. Чарльз Дарвин и его фундаментальная теория происхождения видов сыграли в этом огромную роль. Сначала С. Батлер принял его теорию целиком, но позже наступил период, когда его стали одолевать сомнения. Наиболее сомнительным положением дарвиновской теории для Батлера было то, что течение такого процесса, как биологическая эволюция, возможно только за счет случайного взаимодействия и случайных мутаций. Он был глубоко убежден, что процесс этот должен быть целенаправленным*). Но кем он направляется? С. Батлер был рационалистом, он критически относился к религии, неоднократно высмеивал в своих произведениях церковные порядки и религиозные догмы. Но в своих книгах, посвященных модели эволюции («Жизнь и привычка», 1877, «Старая и новая эволюция», 1879, «Бессознательная память», 1880 и «Случайность или хитрость как главный источник органических изменений», 1886), С. Батлер выступал против идеи Дарвина о вероятностном характере эволюции. И одним из его аргументов была принятая им концепция технической эволюции. Пожалуй, впервые эта концепция появилась в статье С. Батлера «Дарвин среди машин», опубликованной в 1863 г. Уже в ней он указывает на то, что человек выступает в технической эволюции как звено, привносящее в эволюционный процесс цель и рациональность. В романе «Едгин» эта идея раскрывается во всей своей глубине. *) Идею о направленности эволюции, ее рациональности рбосновывал и академик Л. С, Берг, создавший теорию номогенеза. Герой романа постепенно узнает, что раньше в Едгине существовал богатейший техноценоз, созданный учеными и техниками для обслуживания жителей города, облегчения их труда и дальнейшего развития науки и техники. Но, возникнув, техноценоз стал подобен раковой опухоли. Из «Трактата машин», попавшего к нему в руки, Хиггс узнает, что развитие техноценоза шло так быстро, что люди постепенно из хозяев положения стали превращаться в рабов созданной ими машинной цивилизации. С точки зрения машин люди превращаются в насекомых, опыляющих и оплодотворяющих технические устройства, живущие своей независимой жизнью. И, верный своей задаче критики современного ему общества, С. Батлер восклицает: «Сколько людей и теперь живут, как рабы у машин? Сколько людей проводят всю жизнь от колыбели до могилы, служа машинам и днем и ночью?» Так происходит и в Едгине. Все развивающееся множество машин прекрасно приспосабливается к функционированию в создаваемой специально для них среде. Они поглощают массу энергии, которую для них необходимо производить, требуют постоянного ухода за собой. Все большие массы жителей города должны отдавать свое время машинам, обслуживанию их, конструированию новых машин, подготовке для них рабочих мест. Чем бы это кончилось для города, возникшего в воображении С. Батлера, неизвестно. Писатель своей волей обрывает лавинообразную техническую эволюцию в Едгине. Находится ученый, который строго доказывает, опираясь на теорию Дарвина об естественном отборе и идею целенаправленности эволюции Батлера, что жители города весьма скоро будут полностью покорены машинами и в результате сегрегациогенеза потеряют возможность существовать самостоятельно. Результатом этого выступления было уничтожение всей техники в Едгине и запрещение создавать в будущем какие-либо механизмы. И лишь в музее хранятся остатки некогда уничтоженных порождений эры техногенеза, напоминая жителям города о минувшей опасности. Для нас интересно отметить те особенности технических систем, возникших в процессе эволюции по воле человека, которые отмечает С. Батлер. Во-первых, это достижение цели любыми средствами. Логика действий технического устройства отлична от логики действия человека. Во-вторых, развитые технические системы требуют от человека, участвующего в управлении ими, узкой специализации, при которой коллектив управленцев связан между собой только информацией, выдаваемой ему технической системой. Первое положение мы уже обсуждали в гл. 5, когда говорили о трудностях, связанных с созданием общих законов управления, которые могли бы компенсировать логику «машинных рассуждении». Что же касается второго положения, то тут писатель был бы совершенно прав, если бы не возникала возможность заменить человека-управленца соответствующим техническим устройством. А именно эта идея и была обсуждена в гл. 3 и 4 (а отчасти и в гл. 5) книги. Образ рабочего на конвейере, столь ярко сыгранный в бессмертном фильме Чарли Чаплина, показывает, что опасения С. Батлера были небезосновательны. В чем-то писатель оказался прав. И когда в книге Р. К. Баландина, изданной в 1978 г., мы читаем: «Но даже техника — наше создание, над которым мы безраздельно господствуем,— одновременно имеет над нами значительную власть. Мы сейчас столько же зависим от нее, сколько от остальной природы. Мы употребляем в пищу техногенные (искусственно выведенные и взращенные) виды животных и сорта растений, причем после обязательной кулинарной, техногенной обработки. Мы существуем среди техники и за счет техники. Мы, безусловно, вынуждены обслуживать технику, заботиться о ней, в какой-то степени к ней приспосабливаться, вынуждены учитывать ее возможности и запросы (нередко в ущерб собственным, личным интересам), максимально содействовать ее прогрессу и постоянной работе в оптимальном режиме...»*, и тень города Едгин витает перед нами. *) Баландин Р. К. Геологическая деятельность человечества. Техногенез. —Минск: Вышэйшая шкода, 1978, с. 256. И тем не менее мы, конечно, не можем пойти по пути жителей города, придуманного английским писателем. Технический прогресс нельзя повернуть вспять. Никто из нас не откажется от тех завоеваний, которые он дал человечеству. Но необходимо очень четко и точно понимать, что в условиях лавинного нарастания элементов в различных техноценозах, появления глобальных техноценозов, охватывающих практически всю деятельность человека, проблемы управления ими становятся самыми главными. И идея децентрализации управления, создания кооперированных и коалиционных систем управления — основное направление в управлении техническими сверхсистемами. § 6.4. Вместо заключения. Эволюция продолжаетсяНаша книга подошла к концу. Мы постарались, насколько это возможно в популярной книге, предназначенной для широкого круга читателей, рассказать о путях построения децентрализованных систем управления различного типа. Нам кажется, что аналогии в этой области, которые нетрудно заметить. между биологическими, организационными и техническими системами, не случайны. Похожее управление возникает из-за сходных условий, складывающихся на объекте управления. И эволюционный путь развития больших технических систем —.одно из ярких свидетельств этого. Поэтому в заключение книги мы приведем еще один пример эволюционного развития технической системы, который идет сейчас на наших глазах. ЭВМ возникли менее 40 лет назад. В одном из предшествующих параграфов данной главы мы уже говорили об их эволюции. Сейчас в этом процессе реализован еще один шаг, имеющий огромное значение как для самих ЭВМ, так и для человечества. Этот шаг — появление всемирной сети обработки данных. Сначала ЭВМ объединялись друг с другом непосредственно, кабелем. Но потом возникла идея вое-пользоваться для этого каналами связи, которые существуют во всемирной сети связи. Такое решение дало качественный скачок. Если раньше человек, который собирался использовать вычислительную машину для решения интересующей его задачи, знал, какая именно ЭВМ ее решает, непосредственно взаимодействовал с ней, то теперь он потерял эту информацию. Задача, введенная в сеть, может решаться на любой ЭВМ, входящей в нее. И зачастую эта ЭВМ находится территориально весьма далеко от пользователя. Пользователь становится как бы обладателем всего ресурса сети, что делает его возможности почти безграничными. Его задача может решаться одной машиной в сети или одновременно несколькими машинами. Возможен и такой режим, при котором задача пользователя решается последовательно по частям на различных ЭВМ сети. А учитывая неоднородность ЭВМ, входящих в сеть, и неоднородность отдельных частей решаемых задач, такая организация решения может привести к существенному повышению эффективности решения. Первая территориальная сеть обработки данных стала функционировать в 1969 г. в США. Это сеть ARPA, ставшая прообразом многих последующих сетей. В ней имеется подсеть, состоящая из коммутационных процессоров, которая обеспечивает обмен между всеми ЭВМ, входящими в сеть. В отличие от телефонной сети, в которой два абонента связываются друг с другом через коммутацию каналов, в сети обработки данных заявки на связь поступают от ЭВМ в коммутационные процессоры. В заявках указан адресат и абонент. Иногда адресат не указывается, а указываются лишь требования к нему (макисимально допустимое время решения и необходимый объем оперативной памяти для решения задачи). Коммутационный процессор при наличии адресата пересылает заявку либо непосредственно ему (если имеется прямой канал связи между этим коммутационным процессором и адресатом и последний способен принять заказ), либо в другой коммутационный процессор, чье положение на сети обеспечит передачу заявки на решение нужному адресату. Ели же адресат не указан, то коммутационный процессор сам определяет ту ЭВМ, которой можно передать поступившее задание. Таким образом, в сети обработки данных вместо коммутации каналов возникает коммутация сообщений, циркулирующих в сети. Сами сообщения в каждом коммутационном процессоре, в который они попадают, получают как бы транзитную визу. Эти визы помогают потом коммутационным процессорам и сообщениям «вспоминать» свой путь по сети и не терять абонента, который ввел сообщение в сеть. Для облегчения функционирования коммутационных процессоров в сети имеются еще терминальные коммутационные процессоры, задача которых сводится к тому, чтобы служить своеобразным буфером между ЭВМ и подсетью коммутационных процессоров. Каждый терминальный коммутационный процессор обеспечивает выход к другим ЭВМ — не одной, а целой группе ЭВМ, каждая из которых через свои оконечные устройства — терминалы обслуживает десятки и сотни пользователей. На рис. 6.7 показан фрагмент такой сети. На нем зачерненные кружки — оконечные терминалы, большие круги—отдельные ЭВМ. Терминальные коммутационные процессоры ТК. показаны прямоугольниками, а коммутационные процессоры К—параллелограммами. Сеть ARPA развивалась очень быстро. В короткий срок она охватила всю территорию США, а вскоре через английский и норвежский узлы связи дотянулась до Европы. В последующее десятилетие стали появляться и другие сети. В США стала функционировать сеть TYMNET, которая предоставляет своим пользователям услуги не только для обработки данных, но и позволяет им черпать информацию из банков данных, где хранится огромный объем информации по самым различным отраслям знаний. Создатели этой сети предполагают, что со временем она сможет оказывать такие же услуги, как и библиотеки. Требование читателя будет поступать в сеть, и читателю на экран дисплея будет высвечиваться текст книги. При желании пользователь может заказать этот текст для хранения дома. Тогда он будет выдан ему через печатающее устройство. Вообще, появление сети обработки данных породило и продолжает порождать новые функциональные возможности использования ЭВМ. Так, одно время в сети ARPA «печаталась газета» по проблемам искусственного интеллекта и робототехники. Корреспонденты вводили тексты статей в память своих ЭВМ. Далее эти статьи собирались на одной из ЭВМ, которая формировала «газету». Каждый читатель мог вызвать себе «газету» на экран дисплея, прочитать ее и при желании отпечатать всю целиком или некоторые особенно интересные для него статьи. Другое неожиданное применение сеть получила, когда в США происходила одна из конференций по проблемам искусственного интеллекта. В ней участвовали ученые не только США, но и ряда европейских стран. Необычным было то, что европейские участники при этом находились у себя дома и никуда не выезжали. Да и американские специалисты не покидали своего места жительства. Все доклады, присланные на конференцию, были введены в сеть, каждый участник мог ознакомиться с наиболее интересными для себя сообщениями и выступить в дискуссии или задать докладчику вопросы. Выступления и вопросы просто вводились с терминальных устройств в сеть. Докладчики получали их и вводили в сеть свои ответы на вопросы. Самое приятное заключалось в том, что любой участник конференции мог отдыхать в любое время, не рискуя что-либо упустить. Более того, из-за различий во времени между США и Европой часть участников конференции активно работала, а другая спокойно спала, чтобы утром включиться в работу с новыми силами. Но мы несколько отвлеклись от основной канвы. Вернемся к анализу процесса эволюции сети обработки данных. Кроме нескольких сетей в США появились общегосударственные территориальные сети в ряде европейских стран. В 1974 г. вступила в строй первая очередь сети CYCLADES во Франции. В 1971 г. был подписан протокол между восемью странами Европы о создании европейской сети обработки данных. В 1976 г. эта сеть начала функционировать в составе пяти узлов коммутации (Лондон, Цюрих, Париж, Милан, Испра). Через Лондон эта сеть соединилась с американскими сетями, возникли узлы в Вене и многих других городах. Некоторые страны Восточной Европы также установили каналы связи с европейской сетью. А сейчас имеется канал, соединивший Москву с несколькими сетями обработки данных в Европе. Ведутся активные работы по созданию территориальной сети СССР. Так происходит эволюция этой новой технической системы, которая сулит человечеству невиданные ранее возможности использования ЭВМ. И как во всякой системе, возникающей эволюционным путем, в системе обработки данных всемирного масштаба нет и не может быть какого-либо центрального пункта оперативного управления. Все территориальные национальные и межнациональные сети функционируют автономно, независимо от остальных. Согласованное управление достигается децентрализованным способом, подобным тому, который уже много лет используется в телефонных сетях. Плата за услуги по использованию вычислительных мощностей и каналов связи, а также банков информации скореллирована с платами за время ожидания обслуживания таким образом, что пропускная способность сети становится весьма высокой и в ряде случаев приближается к максимальной. Вся служебная информация, которая циркулирует между центрами коммутации, оформляется специальным образом в виде протоколов обмена стандартного типа, что облегчает подсоединение к сети новых участков и сетей. Пока еще синтезогенез в мировой сети обработки данных явно доминирует. Но начинают появляться признаки того, что и сегрегациогенез заявляет о своих правах. Некоторые участники сети начинают специализироваться на обработке задач определенного типа и создавать технические средства, которые позволяли им решать такие задачи наиболее эффективно (а значит, и увеличивать свою прибыль). Эта тенденция, по-видимому, будет развиваться и может со временем привести к тому, что отдельные участки сети (прежде всего на территории одной страны) будут терять свою автономность и способность к самостоятельному функционированию. А впереди намечается слияние сети обработки данных с всемирной телевизионной сетью, что даст новые еще даже не предугадываемые возможности. Люди сами творят техническую эволюцию, но в отличие от природы они делают это целенаправленно. И только от них зависит будущее техногенной сферы. И все слаженнее звучит оркестр систем, порожденных человеком. Звучит, хотя и не управляется одним дирижером. Ибо нет такого дирижера, который мог бы управлять столь сложным оркестром. И нам кажется, что прав был поэт Константин Фофанов, который еще в конце прошлого века писал: «Сильней и глубже век от века Все меньше веры в Божество. И больше веры в Человека».
ЛИТЕРАТУРА И КОММЕНТАРИЙДля тех читателей, которые хотели бы более подробно ознакомиться с моделями коллективного поведения и децентрализованного управления, можно рекомендовать следующие четыре книги. 1. Цетлин М. Л. Исследования по теории автоматов и моделированию биологических систем.—М.: Наука, 1959, 316 с. 2. Варшавский В. И. Коллективное поведение автоматов.—М.: Наука, 1973. 407 с. 3. Срагович В. Г. Теория адаптивных систем.— M.I Наука, 1976, 319 с. 4. Цыпкин Я. 3. Адаптация и обучение в автоматических системах.—М.: Наука, 1968, 399 с. Все они специально посвящены проблемам, обсуждавшимся нами, хотя авторы двух последних книг и пользуются зачастую другой терминологией для описания моделей и методов, составляющих суть теории коллективного поведения. В этих книгах приведена обширная библиография работ в данной области, которая может послужить отправным пунктом для дальнейших поисков. Кроме этих основных источников мы бы хотели указать еще на несколько книг, посвященных смежным областям с той, которая исследовалась на предшествующих страницах. 5. Поспелов Д. А. Игры и автоматы.—М.: Л.: Энергия, 1966, 134 с. 6. Поспелов Д. А. Вероятностные автоматы. — М.: Энергия, 1970, 87 с. 7. Буш Р., Мостеллер Ф. Стохастические модели обучаемости. — М.: Физматгиз, 1962, 483 с. 8. фон Нейман Дж. Теория самовоспроизводящихся автоматов.—М.: Мир, 1971, 382 с. В этих книгах читатели найдут многие модели, тесно связанные с коллективным поведением и решением задач на однородных структурах. При написании гл. 6 мы использовали ряд работ биологов, специалистов в области теории эволюции. Укажем эти источники. 9.Брайнес С. Н., Свечинский В. Б. О соотношении принципов централизации и децентрализации в биологических системах управления.— В сб.: «Бионика», Научный Совет по комплексной проблеме «Кибернетика».—М.: 1973, т. 3, с. 17—19. 10. Завадский К. М. К проблеме прогресса живых и технических систем.—В сб.: «Теоретические вопросы прогрессивного развития живой природы и техники».—Л.: Наука, 1970, с. 3—28. 11.Рашевский Н. Организмические множества: очерк общей теории биологических и социальных организмов. — В сб. «Исследования по общей теории систем».—М.: Прогресс, 1969, с. 442—461. Трактат о машинной эволюции С. Батлера, о котором мы говорили также в гл. 6, включен в состав его утопического романа «Едгин». Этот роман на русский язык никогда не переводился. Поэтому мы приводим его оригинальные выходные данные, а также указываем современное исследование, специально посвященное сравнительному анализу концепций Батлера и Дарвина по вопросам эволюции. 12. Butler S. Erewhon. — London: Penguin Books, 1970.— 170 p. 13. Wile у В. Darwin Сh., Butler S. Two versions of evolution.—London: Chatto a. Windus, I960.—130 p. И, наконец, укажем на ряд работ, из которых мы заимствовали те или иные модели и результаты и которые не использовались еще в основных книгах [1—4]. 14. Алексеев М. А., Залкинд М. С., Кушнарев В. М. Решение человеком задачи выбора при вероятностном подкреплении двигательных реакций.— В сб.: «Биологические аспекты кибернетики».—М.: Изд-во АН СССР, 1962, с. 198—209. (Результаты использованы в § 2.4 при описании опытов с людьми, производящими альтернативный выбор.) 15. Вайсборд Э. М., Розенштейн Г. Ш. О времени «жизни» стохастических автоматов.—Изв. АН СССР: Сер. Техн. киберн. 1965, № 4, с. 52—59. (В этой работе приведена точная модель максимизации «жизни» автомата, которая на уровне внешней интерпретации описана нами в § 2.6.) 16. Филоник С. А., Солнцев С. В. Реализация арифметических функций на однородных структурах. — Изв. АН СССР: Сер. Техн. киберн. 1974, № 4, с. 114—126. (Наш пример умножения в столбик, обсуждавшийся в § 5.4, заимствован из этой работы. Кроме того, в данной работе приведен метод умножения, дающий результат существенно быстрее, а также методы деления на однородных структурах.) 17. Варшавский В. И., Мараховский В. Б. и др. Однородные структуры. Анализ. Синтез. Поведение.—М.: Энергия, 1973, 140 с. (В этой книге читатель найдет многочисленные примеры использования однородных структур для решения самых разнообразных задач.) Модели голосования, рассмотренные в § 4.6, были исследованы С. Б. Котляр, чьими результатами мы и воспользовались.
ОГЛАВЛЕНИЕВместо предисловия ................ 3 Глава 1. Как возникает децентрализованное управление? 5 1.1. Искусственный мир .......... 5 1.2. Системы, которые в полном объеме никто не создавал 9 1.3. Несколько поучительных примеров . ...... 13 1.4. Обсуждение примеров ............ 17 1.5. Зачем нужна децентрализация? ......... 21 Глава 2. Просто ли существовать в сложном мире? ... 26 2.1. Парадоксы целесообразности . ........ 26 2.2. «Маленькая зверушка» . . . ........ 29 2.3. Линейная тактика—залог успеха ....... 33 2.4. «Личные» качества автоматов ......... 36 2.5. Как жить в динамическом мире? ........ 40 2.6. «Доживем до понедельника» . ........ 51 2.7. От индивида к коллективу . ......... 55 Глава 3. Согласованность без договоренности . .... 58 3.1. История начиналась в Арбатове ........ 58 3.2. Когда все одинаковые ............ 69 3.3. Распределение ограниченного ресурса . ..... 80 3.4. Что дает случайное взаимодействие ....... 85 3.5. «Он думает, что я думаю...» .......... 94 3.6. Оптимисты и пессимисты в мире автоматов . . . 100 3.7. Еще три простые модели . . ........ 103 Глава 4. Когда «все по справедливости» . ...... 115 4.1. Прав ли был Остап Бендер? . ........ 115 4.2. Дилемма парикмахера и приоритеты . ..... 121 4.3. Как мастер распределяет наряды . ...... 128 4.4. Проблема нескольких арен . ......... 132 4.5. Задача о жилищной комиссии и родственные ей задачи ................... 137 4.6. «Упрямые» автоматы и голосование . ..... 144 Глава 5. Коллектив во времени ........ 152 5.1. Что такое синхронизация? . . . ....... 152 5.2. Управление стрелками . . . . ....... 155 5.3. Синхронизация и асинхронность . ....... 160 5.4. Гимн однородным структурам . . ...... 164 5.5. Почему йога — не наш путь? . ........ 173 Глава 6. Диалектика простого и сложного . ..... 178 6.1. Синтезогенез и интеграция усилий ....... 178 6.2. Сегрегациогепез и его последствия . . .... 184 6.3. Эволюция в городе Едгин ........ 191 6.4. Вместо заключения. Эволюция продолжается . . . 195 Литература и комментарий ....... ..... 201 Предметный указатель .............. 203 |