<<:o:

ПРОБЛЕМЫ НАУКИ И ТЕХНИЧЕСКОГО ПРОГРЕССА

В. И. ВАРШАВСКИЙ

Д. А. ПОСПЕЛОВ

 

ОРКЕСТР ИГРАЕТ БЕЗ ДИРИЖЕРА

РАЗМЫШЛЕНИЯ ОБ ЭВОЛЮЦИИ НЕКОТОРЫХ ТЕХНИЧЕСКИХ СИСТЕМ  И УПРАВЛЕНИИ ИМИ

 

 

 

МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ

1984

 

32.81

В 18

УДК 62-50

Варшавский В. И., Поспелов Д. А.

В 18 Оркестр играет без дирижера: размышления об эволюции некоторых технических систем и управлении ими.—М.: Наука. Главная редакция физико-математической  литературы,   1984.— 208 с., 50 илл.— 65коп.

Мир, создаваемый человеком в технических системах во многом похож на тот, который окружает человека в природе. И в искусст­венном мире техники могут происходить процессы, подобные эволюции живых организмов. Возникают колонии и сообщества техниче­ских систем, формируются «сверхорганизмы» типа муравейника, возникают «коллективы», живущие по своим законам. Авторы книги анализируют эти аналогии и рассматривают принципы построения управления в таких технических системах, которые во многом отличаются от привычных схем управления. Для чтения книги не требуется никакой специальной подготовки, хотя она обращена не только к так называемому широкому читателю, но и к специалистам, работающим в области управления и кибернетики.

В  1502000000-058 185-84                           ББК 32.81                                 053(02)-84                                                                     6Ф 0.1

© Издательство -«Наука» Главная редакция

физико-математической литературы. 1984

 

ВМЕСТО ПРЕДИСЛОВИЯ

13 февраля 1922 года в Москве состоялось первое публичное выступление Персимфанса — Первого симфонического ансамбля Моссовета. Это выступле­ние стало настоящей сенсацией для всех профессио­налов и любителей музыки,

Дело в том, что Персимфанс исполнял музыку без дирижера. И не какие-нибудь легкие для коллектив­ного исполнения сочинения. В его первой программе прозвучали такие серьезные музыкальные вещи, как Третья (Героическая:) симфония Бетховена или кон­церт для скрипки с оркестром того же авторе. И звучали они настолько слаженно и артистично, что профессионалы уходили после концерта в полном недоумении. Им казалось, что в игре Персимфанса есть какой-то трюк, фокус, кто-то скрытно дирижирует оркестром, создает то неповторимое исполнение, которое может обеспечить лишь воля дирижера. Ибо лишь дирижер способен дать свою, глубоко индивидуальную интерпретацию музыкаль­ного произведения, навязать динамику исполнения, синхронизировать партии различных инструментов, заставить огромный оркестр звучать слаженно. Имен­но поэтому обычно музыканты сидят на сцене так, чтобы видеть дирижера и следовать его указаниям.

А музыканты Персимфанса сидели совсем иначе. Струнные сидели, образуя полный круг (частично спиной к зрителям!), а духовые располагалась в середине этого круга. Каждый музыкант видел каждого, ибо в Персимфансе каждый слушал каж­дого и всех, а все слушали каждого. Не было ника­кого трюка. Взаимодействуя непосредственно друг с другом, прекрасные музыканты, входившие в Персимфанс, легко обходились без дирижера.

Десять лет продолжались с неослабевающим успехом выступления Персимфанса, и все это время загадка этого оркестра интересовала и широкую публику, и специалистов. В рамках общей цели — достижения артистичного исполнения, того или иногопроизведения, каждый музыкант реализовал наи­лучшим образом свою локальную цель, демонстрируя в полной мере свои профессиональные возможности. (Другим примером, возможно более близким некото­рым читателям, может служить джазовый ансамбль, играющий в стиле диксиленд.) Таким образом, вместо централизованного управления, реализуемого дирижером, в Персимфансе восторжествовал децен­трализованный способ управления. Этот способ реализовался за счет коллективного взаимодействия музыкантов, которое «порождало» процесс управле­ния. Но как это происходило, оставалось непонятным» не укладывалось в четкие и формальные правила.

Подобная ситуация, когда сложные процессы развиваются не за счет централизованных воздейст­вий, а за счет локальных взаимодействий их элемен­тов, широко распространена в природе и в челове­ческом обществе. Она встречается гораздо чаще, чем это может показаться на первый взгляд. А, значит, вопрос о том, как рождается децентрализованное управление в результате коллективного взаимодей­ствия элементов — куда глубже того, который возник у тех, кто стремился понять загадку Персимфанса. Ответ на него — одна из целей этой книги.

Авторы ее поставили перед собой задачу рассказать на популярном уровне о проблемах управления в сложных системах, которые в теории управления принято называть большими. В подобных системах часто приходится переходить от централизованного управления к децентрализованному. Это представляет собой как бы плату за сложность, присущую боль­шим системам. Централизованное управление в них, как правило, неэффективно, а в ряде случаев просто невозможно. Но откуда берутся столь сложные си­стемы? Не есть ли категория больших систем наду­манной? Как мы постарались показать в книге, мир больших систем, окружающих человека, все время обогащается. Рост сложности искусственных систем, создаваемых человеком, происходит постоянно. Идет эволюционное развитие созданных ранее искусствен­ных систем, в какой-то степени напоминающее эво­люцию в мире живых организмов. Децентрализован­ное управление — закономерное порождение этой эволюции. И наша задача — убедить читателей в справедливости этих утверждений.

Глава   1 КАК ВОЗНИКАЕТ ДЕЦЕНТРАЛИЗОВАННОЕ УПРАВЛЕНИЕ?

 

Голос: «До того, как что-нибудь было, ничего не было.»

И. Шток

§ 1.1. Искусственный мир

С того момента, как наш далекий пращур взял в руки камень и стал обрабатывать им бесформенный кусок породы, стараясь придать ему нужную форму, стал возникать мир вещей, которых не было в при­роде. Эти создания человеческих рук и человеческого ума со временем образовали то, что теперь принято называть словом техноценоз. Техноценозы,— подобно биологическим сообществам, биоценозам — представ­ляют собой множество различных технических устройств, приборов, систем и приспособлений, свя­занных между собою тесными и на первый взгляд непривычными связями. Живя среди этих искусствен­ных вещей, человек не часто фиксирует эти связи. Редко, кто сознательно отмечает, что ручки на двери располагаются на определенной высоте, а сама дверь требует для своего открывания и закрывания опре­деленных усилий, никого не удивляет, что шурупы устроены так, что их можно ввинчивать и вывинчи­вать с помощью отвертки, не приводит нас в изумле­ние и то, что железнодорожный вагон, прицепленный к поезду в Москве, может пересечь в составе поезда всю Европу (проезжая по мостам через реки и через туннели в горах), переплыть пролив на пароме и оказаться в Лондоне. Техноценозы подобно биоцено­зам заставляют «организмы», входящие в них, жить по законам, диктуемым всем сообществам. Если, например, конструктор пополняет техноценоз новым типом самолета, который требует для своего взлета и посадки полосы длиной, большей, чем на сущест­вующих в данный момент аэродромах, то такой самолет не сможет существовать нигде, кроме как в во­ображении конструктора или в цехе завода-изготови­теля. Для него просто нет соответствующей «эколо­гической ниши» в техноценозе, связанном с полетами.

В этой книге мы часто будем пользоваться анало-гиями из биологии, использовать термины, принятые при описании структуры и функционирования биоло­гических сообществ. Это не просто прихоть авторов. Мы глубоко убеждены, что между органическим миром, созданным природой, и техническим миром, созданным и создаваемым человеком, имеется боль­шое сходство. И это сходство не внешнее, а глубинное. Фундаментальные законы природы влияют на биологические организмы и на технические систему, которые должны функционировать в той же среде,' что и живые организмы. Одинаковость целей даже при условии кардинальных различий живого и не­живого приводит к появлению сходства в структуре и функционировании. И в нашей книге мы попы­таемся вскрыть некоторые черты этого глубинного сходства.

Рассмотрим теперь грубую схему того, как человек создает новый элемент техноценоза. В рамках рациональной деятельности человек ничего не делает «просто так», без определенной цели. И созда­ваемые им технические устройства изобретаются, проектируются  и  изготовляются  для  решения некоторой задачи, достижения определенной цели. У этих изделий есть цель существования, которую мы будем обозначать через Ge. Например, создавая мотыгу, ее первые изобретатели ставили перед собой вполне определенную цель: создать приспособление, с помощью которого можно было бы взрыхлять нa определенную глубину землю для посадки растений. Это предопределило и множество допустимых форм ра­бочей поверхности мотыги, и длину ее ручки, и выбор материала для изготовления ее частей. Создавая автомобиль типа «БелАЗ», конструкторы ставили перед собой вполне определенную задачу, породившую «существование» этого семейства сверхтяжелых грузовиков,— перевозку больших объемов породы на открытых карьерных разработках.

Естественно, что создатель нового объекта учи­тывает, что Ge должна быть достижима. Но, как правило, он хочет, чтобы эта цель достигалась эффек­тивным образом. Что вкладывается в это понятие? Ответить на такой вопрос очень трудно. Но для нас важно, что в понятие эффективности в частности может входить требование о возможно меньшем расходе каких-либо ресурсов (например, энергетических, сырьевых или временных) на достижение Ge, надеж­ности достижения Ge, полноты (точности) ее дости­жения, минимизации затрат на изменения в техно-ценозе для обеспечения функционирования создавае­мого объекта. Все эти требования можно объединять в некоторое понятие «ограничения». Не все читатели, вероятно, согласятся с такой трактовкой понятия ограничения. В теории управления этот термин по­нимается более узко. Но для нас такое его расшире­ние в рамках данной книги представляется оправдан­ным.

Для того чтобы созданный объект техноценоза мог бы достигать Ge, требуется еще организовать процесс ее достижения. Мало создать мотыгу, нужны еще человеческие руки, способные заставить ее действовать. Мало создать «БелАЗ», нужен еще шо­фер, способный использовать тяжеловоз по назначе­нию. Другими словами, для достижения Ge необходим процесс управления. Управление требует для своей реализации определенных средств, ресурсов, которые мы будем обозначать R, и наличия информации о текущем состояния дел в той среде, где функциони­рует наш объект, состояниях самого объекта и со­стоянии управляющих средств. Обозначим всю эту информацию через I. Необходимость в управлении как бы выделяет в объекте две части: исполнитель­ную и управляющую. Деление это весьма условно и в реальном объекте может иногда происходить лишь на уровне рассуждения об объекте, но оно весьма удобно. Именно к управляющей части обычно относят рассуждения об эффективности процесса достижения Ge. И для оценки ее работы вводят понятие крите­рия управления (например, достижение цели мини­мальными средствами) Q, который может носить как количественный, так и качественный харак­тер.                          

С течением времени техноценозы растут коли­чественно, структура их усложняется, число различ­ных связей и зависимостей увеличивается. При этом возникает качественно новая задача управления — управление в рамках некоторого техноценоза или части его. Эта задача возникает потому, что цель существования самого техноиеноза обычно не форму­лируется каким-либо отдельным человеком или группой людей, a Ge объектов, входящих в техноценоз, далеко не всегда согласованы между собой.

Рассмотрим некоторый пример. Пусть нам необ­ходимо перевезти контейнер с грузом из пункта А в пункт Б. Между этими пунктами нет прямой связи (даже воздушной), и мы вынуждены везти контей­нер сначала по морю на корабле, потом по железной дороге и, наконец, на автомобиле. Каждый вид тран­спорта, которым мы воспользуемся, «живет» в своем техноценозе. Для морского транспорта в него в част­ности входят порты, предназначенные для грузовых операций. Они в свою очередь состоят из причалов, погрузочно-разгрузочных механизмов и складов. Железнодорожный транспорт не может существовать вне сортировочных станций, складов и тех же по­грузочно-разгрузочных механизмов, а для автомобиля в его техноценоз входят и дороги, и авторемонт­ные хозяйства, и заправочные станции. Простая операция перевозки контейнера требует согласован­ной формы взаимодействия техноценозов и многих объектов внутри них. Если между портовым складом и железной дорогой нет связи, способной осуществить передачу контейнера, то он не достигнет пункта Б. Если заправочные станции не обеспечат горючим автомобиль, выделенный для перевозки контейнера, и его нельзя доставить ни на каком другом автомо­биле, то результат будет тот же, контейнер никогда не попадет в пункт Б.

Именно это требует специальных усилий по управ­лению в рамках одного техноценоза или группы взаимодействующих техноценозов*). Но на самом деле ситуация еще сложнее. Весь этот искусственный мир существует не сам по себе. Он существует в тес­ном переплетении с миром естественным. Человек, породивший техноценозы, сам становится их элемен­том, взаимодействует с объектами техноценоза» ставит и реализует в них свои собственные цели, наконец, организует управление внутри техноценоза и между техноценозами. Это резко усложняет структуру связей, ограничений и критериев. Учет экономических и социальных факторов делает управление особенно сложным. Тот всплеск работ по созданию автоматизированных систем управления, который так ярко проявился в последнее десятилетие, свидетельствует о том, что проблемы управления в техноценозах и между ними превратились в «горячие точки» техногенной цивилизации.

*) Отметим, что выделение тех или иных техноценозов как самостоятельных единиц сама по себе задача нетривиальная Но в этой книге мы ее не решаем.

В чем сложность возникшей перед человечеством задачи в области такого управления? Почему до сих пор не видно кардинальных успехов в этой области? Частичный ответ на свои вопросы мы получим в сле­дующем параграфе. 

§ 1.2. Системы, которые в полном объеме никто не создавал 

Вероятно, все читатели нашей книги пользовались междугородним телефоном. Предположим, что некто X, живущий в небольшом районном городке на юге Днепропетровской области, очень хочет поговорить со своим братом, работающим в Магадане. Оформив заказ на разговор и прождав необходимое для службы связи время, абонент Х начинает говорить со своим братом Y. Как возникает возможность такого разговора, ни X, ни Y, как правило, не интересует. Им важно только, чтобы слышимость была хорошей, а время ожидания начала разговора небольшим. Однако десятки, если не сотни различных технических устройств обеспечивают этот разговор. Между Х и Y протягивается канал, скоммутированный с помощью этих устройств. А при полуавтоматическом или руч­ном каналах связи в обеспечении разговора Х и Y участвуют и люди — диспетчеры. И ни X, ни Y не знают маршрута движения своих сообщений.

Но мы не будем анализировать сейчас те прин­ципы управления, которые позволяют сети телефонной связи обеспечивать коммуникацию Х с Y и многих других абонентов, которые одновременно с на­шими Х и Y используют ту же сеть телефонной связи. Обратим внимание на другую особенность столь привычной для большинства обитателей земно­го шара системы, входящей в современную техногенную сферу. В отличие от радиоприемника или телеви­зора, самолета или автомобиля мировая сеть теле­фонной связи не имеет единого проектировщика, который бы воплотил свой замысел в имеющуюся сеть. Та система, которая существует, возникла из более простых систем эволюционным путем, путем постепенного объединения более простых систем и усложнения функционирования в процессе их объединения. Поясним эту очень важную для авторов книги мысль.

Когда в 1878 г. в Нью-Хойзене в США появилась первая телефонная станция, то возник как бы зародыш будущей системы. Конечно, у этой станции был свой создатель и проектировщик. И, создавая свое детище, он создал и способ управления им. Так появилось наборное коммутационное поле и первые ра­ботники связи—миловидные девушки, ловко орудо­вавшие штекерами, обеспечивая необходимые соеди­нения между абонентами. Телефонный аппарат, каналы связи и коммутатор стали первыми важными Элементами этой телефонной сети. Такие локальные сети быстро распространились по многим странам. Потом появилась каналы связи между городами и странами, которые связывали между собой отдельные телефонные сети. Постепенное усложнение структуры сети приводило к возникновению новых технических проблем, без решения которых эти новообра­зования не могли бы функционировать. Возникли промежуточные усилители, полуавтоматические и автоматические коммутаторы и многое другое. И на каждом этапе развития телефонной сети работали изобретатели, ученые и проектировщики, которые улучшали элементы сети, изобретали новые устрой­ства для коммутации абонентов, повышения качества передачи сигналов и т. п. В развивающейся сети появилась иерархия — верный признак усложнения ее структуры. Усложнялись и методы управления сетью.

Но что же происходило с системой управления сетью связи? Создатели телефонного аппарата сна­чала исходили из того, что абонент, соединившись с коммутационным узлом, назовет диспетчеру необхо­димый ему номер. Появление автоматических узлов коммутации принципиально ничего не изменило. Только вместо произнесения номера вызываемого абонента в трубку мы набираем его на вращающемся диске или с помощью кнопочного устройства. Но при вызове абонента из другого города, с которым пока еще не установлена автоматическая коммутация по коду города, мы продолжаем пользоваться «старым дедовским способом», называя диспетчеру номер необходимого телефона и город, в котором этот або­нент проживает.

Таким образом, управление со стороны абонента, пытающегося установить связь с нужным ему лицом, практически никак не изменилось со времен тех телефонов, когда он крутил ручку магнето, посылая сигнал начального вызова в коммутатор. И рост телефонной сети сказывается для пользователя лишь в расширении его возможностей по связи с другими абонентами, да в росте отказов и времени ожидания при попытках установления связи.

А какие изменения произошли в системе управле­ния на коммутационном узле? Внешне тоже никаких, ибо принцип коммутации каналов остался старым. Но изменения коснулись более глубинного пласта управления. В телефонной сети каждый коммута­ционный узел, каждая национальная компания или одна из таких компаний имеют свои собственные цели и предпочтения. Но для работы всей сети нужно, чтобы вое эти индивидуальные цели были бы как-то скомпенсированы, согласованы с другими индиви­дуальными целями. Сеть, связывающая отдельные подсети, заставляет всех пользователей образовывать некоторую коалицию, коллектив. И без соотнесения личных интересов пользователя с интересами парт­неров по коалиции ничего нельзя добиться. Это при­водит к тому, что вместо максимизации своего лич­ного выигрыша (будем называть так всю совокупность требований, которые индивид предъявляет к сети) каждый специалист, принимающий участие в управ­лении, должен максимизировать свой личный выиг­рыш лишь в условиях согласованных действий осталь­ных специалистов. Поэтому и возникает новая функ­ция управления — достижение согласованных дейст­вий при управлении объектом при наличии многих управляющих систем (пользователей) со своими лич­ными локальными интересами.

Как можно добиться такого согласования? Один из способов — распространение специальной служеб­ной информации по всей сети, организация перегово­ров и совещаний, плакирование ее работы. Этот путь имеет скорее теоретический, чем практический интерес. Время, затрачиваемое на переговоры и согласования, будет слишком большим, планирование в условиях случайных требований абонентов на обслуживание невозможно, ситуации, возникающие в сети, динамичны и трудно предсказуемы. Где же вы­ход из создавшегося положения? По-видимому, он единственный. Согласование действий управляющих органов в сети должно возникать как бы «само со­бой» в процессе автономного и децентрализованного функционирования  всех  частей  этой  системы. А для того чтобы оно стало возможным, необходим некоторый регулирующий механизм, реализуемый не каким-либо «верховным органом» сети, а в процессе обмена незначительной информацией локального типа между отдельными подсистемами управления. В телефонной сети земного шара это может быть реализовано в виде взаимных платежей между государствами и компаниями, отражающими ка­чество согласования работы отдельных участков се­ти и величину потоков требований на связь в тех или иных участках сети.

Для нас чрезвычайно важен и принципиален следующий вывод из сказанного. Система, возник­шая эволюционным путем, не может управляться централизованно,  единым  органом  управления. И достижение глобальной цели функционирования такой системы (ее Ge) происходит за счет согласо­вания действий отдельных подсистем объекта, за счет своеобразного конформизма систем управления этими отдельными подсистемами. Централизованное управление в подобных системах может привести только к ее развалу. Известному советскому ученому А. А. Ляпунову принадлежит следующий заме­чательный по своей наглядности пример бессмыслен­ности централизованного управления в определенных технических системах. Предположим, что кому-нибудь в голову пришла идея централизованно управлять использованием всех товарных вагонов, находящихся в распоряжении железных дорог СССР. Крайним случаем выражения этой идеи было бы создание грандиозного парка свободных вагонов, размещаемого где-нибудь в районе Урала. Требова­ния на перевозки поступали бы в центральную диспетчерскую, которая и выделяла бы необходимое заказчику множество вагонов и гнала бы их к месту погрузки. После выполнения задания вагоны возвращались бы в парк. Ясно, что подобная организация управления парком грузовых вагонов не­эффективна и попросту вредна. Хотя это отнюдь не означает, что не может существовать некоторой глобальной цели управления и критерия управления, относящегося ко всему парку грузовых вагонов. Но они должны достигаться не путем прямого управле­ния ресурсами, как это было в едином парке ваго­нов на Урале, а путем согласованных действий от­дельных подсистем в условиях организации между ними такой системы поощрения и наказания, кото­рая обеспечивала бы достижение этой цели с уче­том глобального критерия управления.

Такое управление и подобное взаимодействие управляющих подсистем встречается не столь уж редко. Для иллюстрации этого утверждения приве­дем несколько поучительных примеров.  

§ 1.3. Несколько поучительных примеров

 1. По-видимому, каждый из читателей посещал колхозный рынок. На рынке, если исключить лиц, зашедших туда из любопытства или в поисках случайного заработка, все остальные посетители делятся на два класса: покупателей и продавцов. Основной операцией, совершаемой на колхозном рынке, является единичный акт купли — продажи. В результате этого акта некоторое количество опре­деленного товара переходит из рук продавца в руки покупателя. Мы не хотели бы пока вдаваться в тон­кости, связанные с совершением этого акта, ибо многие из них должны исследоваться не в данной книге, а в литературе иного направления (от юриди­ческой и психологической до художественной). По­этому, обедняя процесс, мы будем каждый единич­ный акт купли — продажи характеризовать тремя параметрами: С1, С2 и С. Смысл этих параметров следующий: C1 характеризует опорную цену про­давца, т. е. ту цену, ниже которой ему невыгодно продавать свой товар; С2 — предельную цену, за который покупатель может приобрести товар, отка­зываясь его покупать по более высокой цене;

С — цену, которая была реализована в акте купли — продажи. Конечно, если этот акт совершился, то C1 £С £ С2. Будем считать, что продавцы и поку­патели не договариваются заранее о величине C1 по всему множеству продавцов (что иногда явно наблюдается на рынке) и о величине С2 но всему множеству покупателей. Конкретное значение С в этом случае будет появляться в результате некоторого процесса, протекающего в конкретной паре покупатель — продавец. Но никто не заставляет покупателя не получать информацию о ценах, кото­рые требуют за свой товар различные продавцы, а продавца — не анализировать готовность назначить ту или иную цену множеством отдельных покупате­лей. Никто не заставляет покупателя выбирать именно этого продавца, а продавца — именно этого покупателя. С помощью изменения цен на товары и тот и дру­гой как бы управляют процессом купли—продажи.

Будем для определенности считать, что класс покупателей есть объект управления, а класс про­давцов — управляющая система, цель которой — продать весь имеющийся у продавцов товар (пред­полагается, что запросы покупателей и количество товара, имеющегося на рынке у продавце», сбалан­сированы). Эта общая цель как бы разлагается на индивидуальные цели отдельных продавцов—про­дать тот товар, который они привезли на рынок. Общая цель мало интересует конкретного продавца. Она интересует скорее местный горисполком» получающий от продажи товаров на рынке определен­ный процент от количества проданного товара. В реальной жизни этот процент получается не не­посредственно, а косвенным образом, с учетом таких показателей, как обеспечение населения города необходимыми продуктами питания, но нас устраи­вает подобная очень грубая модель.

Если теперь зафиксировать закон изменения цен в процессе торговли между покупателями и продав­цами и учесть, что цель продавца — максимизиро­вать С при ограничении С ³ C1 и продать как можно больше товара, то эта цель может быть достиг­нута при замене каждого продавца устройством, изменяющим по заданному закону величину назна­чаемой за товар цены, начиная с некоторой цены С*, определяемой начальным состоянием продавца' при приезде на рынок (например, значением про­дажной цены, которое было установлено перед выездом на рынок на семейном совете), до величины его опорной цены C1. При этом отказ очередного покупателя от покупки товара по запрашиваемой цене в простейшем случае снижает эту цену на основании заложенного в устройство закона изменения цен. Каждое устройство-продавец действует как бы автономно. Множество покупателей и другие устройства-продавцы выступают для него как не­которая среда, подающая ему сигналы о необходи­мости снижения или повышения цен. Как показы­вает анализ процессов, протекающих в такой рыноч­ной модели, децентрализованное управление, совер­шаемое множеством устройств-продавцов, приводит к выравниванию цен С на рынке. При этом дости­гается и общая цель всего коллектива продавцов — количество продаваемого товара стремится к макси­муму. Если же увеличить количество информации, поступающей к продавцам, сообщая им, например, среднее значение величины С в данный момент по всем уже совершенным актам купли — продажи или полную информацию о значениях С по всем уже реализованным актам купли — продажи, то сходи­мость процесса выравнивания цен на рынке будет иметь значительно большую скорость.

Что мы должны особенно выделить в этом при­мере? Прежде всего децентрализованный характер управления. Управление происходит с помощью коллектива почти автономных устройств (продав­цов), получающих информацию о действиях друг друга только через среду. И тем не менее, как эта ни парадоксально, такое управление приводит к удовлетворению всех локальных целей продавцов и обеспечивает   некоторый   глобальный   выигрыш, отражающий интересы системы управления более высокого уровня, которая, однако, не оказывает не­посредственного влияния на локальные процессы во взаимодействии продавцов и покупателей.

2. Второй наш пример относится к пчелиному улью и описывает ситуацию, хорошо известную на­блюдательным пчеловодам. Наступило похолодание. Оно грозит неприятностями расплоду. Он может по­гибнуть. И рабочие пчелы собираются на сотах с расплодом плотной массой, тесно прижавшись друг к другу. Температура в районе расплода поднимает­ся и опасность исчезает. А когда жара такова, что температура в улье начинает катастрофически под- ниматься, рабочие пчелы приносят в улей воду и покрывают ячейки с расплодом тонкой водяной плен­кой. После этого каждая из рабочих пчел, находя­щихся в улье, начинает выполнять роль своеобразно­го вентилятора. Она быстро работает крыльями, по­могая испарению воды и охлаждению ячеек с рас­плодом.

В описанных процессах все пчелы действуют индивидуально, независимо друг от друга, децентра­лизованно, ибо каждая из них своими органами чувств ощущает критические перепады температуры в улье и включает программы ликвидации нежелательных последствий.

3. Рассмотрим грубую модель конвейерного про­изводства автомобилей. Некоторые цеха или группа цехов выпускает отдельные узлы будущего автомо­биля; они поступают на главный конвейер и соби­раются в готовое изделие. В отдельных производст­вах также могут существовать свои «главные кон­вейеры», узлы для которых готовятся во вспомога­тельных подразделениях второго порядка и т. д.:

«я гайки делаю, а ты для гаек делаешь болты». Это приводит к взаимной увязке работы всех частей сложного производственного процесса. И если соот­ветствующий участок, производящий гайки, еже­месячно выполняет план на 200 %,  а  участок, произ­водящий болты — на 150 %, то радости от этого не­много. И если нельзя увеличить выпуск болтов до 200 %, то необходимо снизить выпуск гаек до 150 %.,

Таким образом, основной заботой для автозавода в целом должен быть комплекс мероприятий, обес­печивающих ритмичность и бесперебойность работы главного сборочного конвейера, а не максимизацию выпуска каких-либо вспомогательных узлов (если только не удается использовать их для снабжения автохозяйств дефицитными запасными частями). Руководители вспомогательных подразделений мо­гут действовать автономно и децентрализованно лишь в пределах решения основной задачи, подчиняя свои локальные цели общей цели завода.

4. Всякий житель большого города имел дело с радиофицированными такси. Водители этих машин могут принимать информацию о поступающих в дис­петчерскую заказах. Давайте вспомним, как про­исходит их распределение. Диспетчер может при­держиваться различных .стратегий распределения. Во-первых, он может просто сообщить всем автома­шинам, находящимся на линии, условия поступив­шего  заказа. Если у кого-то из водителей этот заказ встретит интерес (например, данный водитель про­стаивает и находится недалеко от места, где надо брать пассажира, или он заинтересован в перемеще­нии к конечному пункту, указанному в заказе), то он может взять заказ на себя, сообщив об этом диспетчеру. Во-вторых, диспетчер может назначить того или иного водителя для выполнения заказа, исходя из своего понимания обстановки или из каких-либо личных соображений. Однако второй путь оказывается гораздо менее эффективным как для парка, так и для заказчика, у которого в сред­нем растет время ожидания исполнения заказа. Особенно это проявляется в том случае, когда зака­зы поступают не для незамедлительного выполнения, а с указанием срока их выполнения. В этом случае децентрализованное управление,   осуществляемое водителями такси (здесь диспетчер выполняет роль информационного, а не управляющего звена), ока­зывается более эффективным, чем централизованное.

§ 1.4. Обсуждение примеров 

Нам кажется, что приведенных примеров уже достаточно для того, чтобы можно было сделать не­которые выводы. В последующих главах читатель встретит еще немало примеров объектов из того множества естественных и искусственных систем, которые обладают теми же специфическими свойст­вами, что и телефонная сеть, пчелиный улей, колхоз­ный рынок или большое автохозяйство.

Выше мы ввели такие характеристики систем управления, как I, Q и R. Попробуем теперь, опи­раясь на приведенные примеры, дать самую общую классификацию систем управления, причем мы за­ранее предупреждаем читателя, что цель этой клас­сификации весьма узка. Она нужна нам для пояс­нения идей, развиваемых в данной книге, а не для исчерпывающей классификации централизованных и децентрализованных систем управления. Вторая за­дача неизмеримо труднее и серьезнее, чем та клас­сификация, которая будет дана в этом параграфе.

Рассмотрим сначала управление температурой в улье. Каждая рабочая пчела имеет полную  информацию о состоянии улья. И эта информация одина- кова для всех рабочих пчел, находящихся в улье.

Она сводится к знаниям о текущей температуре в улье. Каждая рабочая пчела обладает не только одинаковой I, но и одинаковым Q. Цель управления — приведение температуры около сот с расплодом в допустимый интервал, а в качестве дополнительного требования выступает время, в течение которого это необходимо сделать. Кроме того, и R у всех рабочих пчел одинаковы. Все они умеют махать крыльями с одинаковой скоростью, повышать. температуру своего тела на 10 градусов но сравнению с температурой воздуха, приносить и распылять воду. Таким образом, в случае регулирования тем­пературы в улье мы имеем управляющую систему, состоящую из однотипных подсистем управления, каждая из которых характеризуется одними и теми же значениями I, Q и R. Кроме того, локальные интересы таких подсистем согласованы с глобальной целью управления (попросту cовпадают с ней), что не требует от них каких-либо действий по согласо­ванию интересов.

Подобные системы можно отнести к простейшим децентрализованным системам управление. В них отсутствует какая-либо специализация подсистем управления, и если управление не может быть осу­ществлено отдельной подсистемой, то, увеличивая их число, мы получаем систему управления, способную решить поставленную перед вей задачу («не умом, так количеством»—вот девиз подобных систем),

Когда пожарная команда прибывает к месту ту­шения пожара, то картина несколько отличается от ситуации в улье. Хотя все пожарные подразделения имеют одинаковую глобальную цель — потушить по­жар с минимальными затратами и в минимально возможное время — и одинаковую исходную инфор­мацию, средства их различны, а значит, различны и индивидуальные локальные цели, которых они мо­гут достичь. Одни из них баграми и топорами взла­мывают крышу, под которой находится очаг пожара, а другие с помощью специального раствора пытаются сбить пламя. Здесь наблюдается не только чисто структурная децентрализация системы управления (пожарной части), но и специализация подсистем по средствам. Системы такого класса иаиболее часто встречаются в технических системах, обра­зующих техноценозы. Если же при этом на пожаре нет начальника, ставящего подразделениям задачи и разумно координирующего их действия, то мы имеем дело с типичной децентрализованной по средствам системой управления.

Конвейерная система автомобильного завода дает нам пример того, что подсистемы системы управления могут и не обладать полной и однотипной информа­цией. Средства, имеющиеся в руках отдельных под­разделений завода, и их локальные цели могут также различаться между собой (во всяком случае, в условиях принятой системы стимулирования про­изводства). И лишь административное подчинение всех заводских подсистем управления главному дис­петчеру завода и ряду других лиц вносит в эту си­стему ту централизацию, которая необходима для согласования этих локальных целей. Если же центра­лизация будет отсутствовать, то автомобили все равно будут собираться, если зарплату платить только за собранные автомобили. Как это сделать, по-видимому, представляют все читатели.

Таксопарк дает нам пример системы, где водите­ли автомобилей, обладая однотипной информацией и одинаковыми средствами достижения целей, при­нимают различные решения из-за различных крите­риев достижения своих целей. Роль диспетчерской сводится к тому, чтобы эти личные цели не вступили в противоречие с целью таксопарка (например, вы­полнением спущенного ему плана). При необходи­мости диспетчер может навязать тому или иному водителю свою волю, отражающую стремление к достижению глобальной цели всего коллектива.

Наконец, ситуация на рынке, где отсутствует опо- вещение о сделках между продавцами и покупателя- ми, дает нам пример децентрализованного управле­ния, в котором из-за взаимного влияния подсистем управления друг на друга происходит принудитель-ное согласование личных целей продавцов, приво­дящее к равновесным ценам в актах купли — про­дажи.

Сказанное означает, что понятие децентрализации в системе управления может быть весьма различным. Обязательно лишь наличие отдельных подсистем в системе   управления, которые должны выбирать средства воздействия на объект управления, не по­лучая информации о том, какое решение в тот же момент времени принимают другие подсистемы. Корректировка действий подсистем происходит толь­ко через информацию, получаемую подсистемами от объекта управления. Весьма часто подсистемы мо­гут быть таковы, что они «не знают» о существова­нии других подсистем или имеют весьма ограничен­ную информацию об их функционировании.

Рис. 1.1.

На рис. 1.1 приведена классификационная струк­тура, использующая значение трех классификацион­ных параметров: I, R, Q. Звездочка означает, что. в данной системе управления для разных под­систем нет совпадения по множеству значений этого параметра. Около каждой позиции классификацион­ной структуры указан пример системы управления, для которой выполнены соответствующие условия. Пояснения нужны только для двух случаев, так как остальные примеры мы уже проанализировали. Для случая (I*, R*, Q) можно рассматривать систему управления   движением   городского   транспорта. В такой системе происходит естественная декомпо­зиция системы управления на подсистемы по видам транспорта  (троллейбусно-трамвайное управление,  управление метрополитеном и т. п.). В распоряжении каждой такой подсистемы имеются свои средства достижения однотипной цели — максимизации коли­чества перевозимых пассажиров при обязательной экономии энергии и ресурсов. Для случая же (I*, R*, Q*) примером может служить система управления ходом спектакля в театре. Ведущие спектакль согласуют между собой различные под­системы (систему освещения сцены, систему музы­кального сопровождения, систему смены декораций и т. п.). Все подсистемы имеют свои средства и свои цели, согласованные с помощью режиcсерского плана с глобальной целью максимизации эстетиче­ского наслаждения, которое испытывают зрители.

Приведенные нами иллюстративные примеры в ряде случаев упрощены, но нам хотелось, чтобы они были несложны и ненадуманы. И если читатели по­чувствовали смысл классификации, приведенной на рис. 1.1, то авторы достигли своей цели полностью.

§ 1.5. Зачем нужна децентрализация? 

Возникает вполне законный вопрос: не является ли децентрализация в системе управления следствием нашего плохого знания поведения объекта управ­ления или того, как надо строить системы управле­ния? Мы хотим привести ряд соображений в пользу того, что во многих случаях децентрализованное управление есть не ухудшенный вариант централи­зованного или иерархического, но вполне законный, а часто и единственно возможный вид управления. Кое-какие мысли по этому поводу мы уже высказы­вали выше. Здесь же мы суммируем их оконча­тельно.

1. Не все технические, а особенно экономические и организационные системы, возникли на основании единого проектировочного замысла. Многие системы в их современном виде «никто не изобретал, не про­ектировал и не создавал». Они возникли из более простых систем в результате своеобразной техни­ческой эволюции, о которой мы будем говорить в заключительной части книги. Выражение, которое мы взяли в кавычки, является метафорическим. Конечно, в создании этих систем принимали участие и изобретатели, и проектировщики, и ученые. Но мы хотим подчеркнуть, что ни один из них не создал всю систему «целиком». Были люди, которые проек­тировали автоматические телефонные станции или локальные сети связи, но нет единого создателя Мировой телефонной сети или Мировой транспортной сети или Всемирного сообщества филателистов. В системах такого типа централизованное управление возможно лишь на уровне соглашений о путях развития системы, договоров о стандартах и основных ограничениях на пользование системой и т. п. Оперативное же управление самим процессом в них возможно, по-видимому, лишь децентрализованным образом.

2. Сложность тех систем, которыми в настоящее время пытается управлять человечество, достигла такого порядка, что централизованное управление ими становится невозможным из-за огромного пото­ка информации, подлежащей переработке централь­ным управляющим органом и передаче по каналам связи. Время, затрачиваемое на это, делает, как правило, дальнейшую работу по управлению в ди­намическом режиме бесполезной. Иллюстрацией может служить положение, сложившееся в метеоро­логии при решении задачи краткосрочного прогноза погоды. Наземные метеостанции и метеоспутники поставляют сейчас такое количество оперативной информации, которое просто невозможно обработать в нужные сроки. Это породило остроумное и печаль­ное замечание одного из крупных специалистов по прогнозу погоды, сказавшего, что «сегодня мы можем с абсолютной точностью предсказать погоду на завтра, но для этого нам нужен месяц работы».

3. С ростом сложности больших систем падает их надежность. При числе контактов порядка 1010, что примерно соответствует числу контактов в современ­ной мировой телефонной сети, наличие отказов практически постоянно. Другими словами, система должна выходить из строя с вероятностью, весьма близкой к единице. Тем не менее, практика использо­вания телефонной сети показывает, что этот фено­мен нами не наблюдается. Причиной такого пара­докса является все та же децентрализация, которая обеспечивает в системе избыточность по управлению, необходимую для нормального функционирования системы. Нормальное функционирование таких систем, как мировая сеть связи или большая энерго­система, обеспечивается за счет локальных решений по изменению коммутации каналов или по пере­броске энергии из одной точки энергосети в другую. Если бы эти решения принимались централизованно, то время, затрачиваемое на передачу необходимей информации, сделало бы функционирование таких систем абсолютно ненадежным и неэффективным.

4. В ряде случаев очень трудно сформулировать на том уровне точности, который необходим для централизованного управления, цель существования объекта управления и критерий управления. Но даже если это и можно сделать для сложной системы, то, к сожалению, почти, никогда не удается указать, как, исходя из них, осуществлять само управление объек­том. Однако весьма часто такую информацию можно указать для подсистем управления и увязать их функционирование через, ограничения, формируемые из цели существования и критерия управления всем объектом в целом. Примером подобной ситуации могут служить различные автоматизированные си­стемы управления региональными объектами (типа города, области и т. п.).

5. При создании межнациональных и межгосу­дарственных систем децентрализация в условиях современного состояния мира просто неизбежна, хотя отдельные межгосударственные органы управ­ления и могут быть созданы в результате специальных соглашений.

Все сказанное заставляет весьма серьезно отнес­тись к самой идее децентрализованного управления в сложных системах. Исторически первые интересные модели такого управления были созданы М. Л. Цет-линым, чей вклад в это направление трудно пере­оценить. Он был создателем целого направления исследований, получившего название «коллективное поведение автоматов». Им были сформулированы основные принципы, лежащие в основе подобных мо- делей, и способы их реализации. Последующие иссле­дования в этой области позволили создать ряд оригинальных и интересных моделей децентрализо­ванного управления типа (I, R, Q*), а впоследствии и других типов.

Итак, объектами наших дальнейших исследований будут децентрализованные системы управления разных типов (см. рис. 1.1). При этом, как правило, мы будем рассматривать системы управления, в ко­торых подсистемы однотипны. Децентрализация в таких системах достигается за счет согласования действий подсистем через объект управления (среду, в которой функционируют подсистемы), что позволяет всей системе достигать поставленной перед ней цели в результате действий подсистем, направленных на достижение своих локальных целей.

Такое  ограничение  рассматриваемых  систем управления связано с тем, что в противном случае нам пришлось бы говорить о столь широком классе систем, что никакие результаты, кроме тривиальных, мы бы получить не смогли. Кроме того, однотипность подсистем управления резко облегчает задачу ком­пановки самой системы управления и значительно снижает сложность ее проектирования.

Чаще всего мы будем рассматривать такие под­системы управления, работу которых можно описы-вать моделью конечного или вероятностного автомата. Хотя читатель встретит в дальнейшем и другие модели. Такое наше пристрастие определяется двумя фактами: хорошей разработанностью теории именно для таких подсистем и широким спектром приложе­ний, в которых автоматные модели управления на­ходят свое применение.

План нашего дальнейшего изложения таков. В следующей главе мы рассмотрим модель отдель­ной подсистемы, представляющей собой или детер­минированный, или вероятностный автомат, функцио­нирующий в случайной среде. Мы покажем, что, несмотря на весьма простую конструкцию, устрой­ство этого типа могут с успехом приспосабливать свое поведение к априорно неизвестным условиям функционирования. Затем в гл. 3 и 4 мы опишем различные способы организации взаимодействия таких подсистем и приведем много разнообразных примеров решения задач управления, успешно решае­мых таким образом. В гл. 5 мы обсудим проблемы, относящиеся к однородным структурам, в которых протекают параллельные и асинхронные процессы. Такие распределенные системы децентрализованного управления обладают многими важными для техники сегодняшнего дня свойствами, позволяющими исполь­зовать их в тех случаях, когда централизованным управлением воспользоваться невозможно. В заклю­чительной главе книги мы проанализируем эволю­ционный путь развития технических объектов и систем управления ими, который, как нам представ­ляется, начинает играть все большую роль в техни­ческом прогрессе человечества. Для систем такого типа децентрализованное управление оказывается единственно возможным.

В тексте книги, учитывая ее популярный (на­сколько это нам удалось) характер, почти нет ана­литических выкладок и доказательств. В ней господ­ствует качественный характер изложения. Какие-либо ссылки на источники отсутствуют. Однако крат­кий комментарий (библиография), завершающий книгу, позволит заинтересованным читателям найти работы, в которых строго доказаны все результаты, упомянутые в этой книге, а также те работы, кото­рые были использованы авторами в качестве источ­ников примеров и моделей. И последнее. Кое-что читатель должен знать (например, азы теории вероят­ностей или математического анализа). Если бы мы этого не могли потребовать от читателя, то ничего, кроме вводной главы, нам бы написать не удалось,

Глава  2 ПРОСТО ЛИ СУЩЕСТВОВАТЬ В СЛОЖНОМ МИРЕ?

 

«Подражанье, повторенье — мира этого дела.
Если бы не повторенье, жизнь бы праздником была, —
Награждались бы старанья, исполнялись бы желанья,
А возмездия угроза бесполезная спала».

Омар Хайям

 § 2.1. Парадоксы целесообразности

    Лиса вернулась с богатой добычей. Часть ее на­сытила лисий выводок, а оставшуюся пищу лиса прячет «на черный день». Тщательно роет яму, кла­дет в нее мясо и засыпает его землей. Наблюдая за ее поведением, можно прийти к выводу, что цель действий лисицы порождена ее «интеллектом». Столь целесообразно и «разумно» ее поведение.

    Но судьба оказалась для нашей героини по очень счастливой. Она попала в западню и стала жительницей зоопарка. Теперь ей уже не прихо­дится тратить силы на добывание пищи. Ее кормят служители. Но что делать лисе, когда пищи избыток? Конечно, спрятать! И лиса скребет когтями бетонный пол вольера, а через некоторое время, когда «яма» готова, «прячет» в нее мясо. И после этого перестает обращать внимание на остаток трапезы, который, конечно, так и остается лежать на полу вольера. Лиса просто игнорирует его, не видит «зарытое» мясо. То, что в привычной для животного среде вы­глядело целесообразно, в условиях другой реальности становится лишенным каких-либо черт разумности.

    Такие узко специализированные действия, тесно связанные с типовой ситуацией в окружающем мире, принято называть рефлексами. Чем проще организо­ван организм, тем жестче схема рефлекса. Тем неле­пее выглядит их поведение в изменившейся среде. Разных видов рефлексов существует немало и клас­сификация их довольно неустойчива. Для нас важно лишь то, что существуют рефлексы, которые помогают живому организму приспосабливаться к условиям той среды, в которой он обитает.


    Рассмотрим два небольших примера. Зоопсихо­логи очень любят использовать для наблюдения за поведением живых организмов и за изменением это­го поведения в условиях той или иной среды спе­циально сконструированные лабиринты. Площадки и коридоры лабиринтов снабжаются всевозможными приятными и неприятными для живущего в нем раз­дражителями. А различные размещения этих раз­дражителей позволяют экспериментаторам создавать по своему желанию ту или иную «географию» среды обитания.

    Простейшие лабиринты — Т-образные. На рис. 2.1 показано два таких лабиринта. Рассмотрим сначала верхний. Его использовал для своих опытов с обыч­ными дождевыми червями американец Йеркс. В на­чале опыта черви помещались на площадку в осно­вании буквы Т. Эту площадку ярко освещали, и червь начинал движение, стремясь найти более комфортабельное место. Там, где коридор имел разветвление, червь мог сделать выбор из двух альтер­натив: поворачивать влево или поворачивать вправо. Конечно, червь «не мог знать», что левый коридор сулит ему одни неприятности. По дороге налево включено электрическое поле, а камера в конце коридора представляет собой ванночку с раздражаю­щим червя солевым раствором. Зато правый коридор приводил червя в затемненную и влажную камеру, где он чувствовал себя превосходно.

В процессе эксперимента червь многократно пре­одолевал лабиринт и «принимал решение» о выборе коридора при разветвлении. И постепенно обучался поворачивать только в правый коридор. Другими словами, не имея никакой первоначальной информа­ции об особенностях среды обитания, червь в про­цессе взаимодействия с окружающим миром выра­батывал целесообразный способ поведения в нем.

Изменение среды экспериментатором (например, замена раздражителей левого коридора на благо­приятные условия правого и перенесение этих раздра­жителей в правый коридор) делало поведение обу­ченного червя нецелесообразным. Казалось бы, что червь должен был бы до конца своего существования быть в полном разладе с окружающей его средой. Но через некоторое число безуспешных попыток найти в правом коридоре уютную камеру для отдыха червь впервые поворачивал в левый коридор. Шло переучивание. И снова наступала пора полной адап­тации червя к изменившемуся миру.

Рассмотрим теперь нижний лабиринт, показанный на рис. 2.1. Его использовал другой зоопсихолог— Торндайк для опытов с крысами. При разветвлении коридора голодная крыса, привлекаемая запахом приманки, должна сделать альтернативный выбор между левым и правым коридорами. Но в каждом из них крысу ждут неприятные ощущения от раздра­жения электрическим током. Эти раздражения про­исходят с фиксированными вероятностями Рп и Pл, которые не изменяются в одной серии опытов. Цель эксперимента — определить, сможет ли крыса в процессе обучения научиться выбирать только тот коридор, ведущий к пище, в котором вероятность электрического раздражения меньше.

Опыты  Торндайка   повторяли  неоднократно. В экспериментах принимали участие не только крысы, но и другие животные. Формы лабиринтов изме­няли. Но основной качественный результат во всех экспериментах оставался неизменным. После более или менее длительного периода обучения наступал момент, когда животное правильно оценивало раз­ницу в значениях Ру и Рл (в случае Т-образного лабиринта) и принимало целесообразное решение по выбору маршрута движения к пище. При незна­чительной разнице в значениях вероятностей болевых раздражении выбор пути движения происходил без заметных предпочтений.

Казалось бы, что математики должны были бы обратить на эти интересные факты свое внимание. Но этого не произошло. Эпоха моделей и открытий на стыке наук еще не наступила, науки еще сильно разобщены, у представителей каждой из них свой «внутрицеховой» язык, непонятный для непосвящен­ных. Интерес к результатам в соседних областях знаний минимален. Идет глубокий анализ явлений в отдельных областях, а время синтеза и интеграции знаний еще отделено от времени опытов Торндайка десятилетиями. Альянс между математикой и зоо­психологией в те далекие годы, предшествующие первой мировой войне, не состоялся. Математики не заметили опытов Торндайка, а психологи были очень и очень далеки от овладения языком мате­матики.

И лишь через 50 лет наступило время посмотреть па поведение червей и крыс с иной точки зрения.

§ 2.2. «Маленькая зверушка»

Моделирование и объяснение эффекта Йеркса и Торндайка были получены в цикле исследований по моделированию простейших форм поведения, выпол­ненных в 60-х годах нашего века оригинальным и глубоким советским ученым, оказавшим заметное влияние на все развитие работ в области моделиро­вания поведения, Михаилом Львовичем Цетлиным. Он был одповременно и изобретательным инженером, и великолепным математиком. Активно и вовсе не дилетантски интересовался медициной и биологией.  Талант инженера, превосходная математическая интуиция и способность к точной, но одновременно весьма образной интерпретации фактов самых различных областей науки позволили ему объединить усилия специалистов в области математики, биологии, психологии, технических наук. Этот «незримый кол­ледж» сложился в своеобразное научное направление, подобного которому в то время, пожалуй, не было нигде в мире. В рамках этого научного коллектива были решены многие важные научные и прикладные проблемы (например, впервые в мире создан био­управляемый протез). Но нас интересует лишь одно направление в его работе. Направление, которое вылилось со временем в новую научную теорию — теорию коллективного поведения и управления.

В основе этой теории лежит гипотеза простоты, высказанная М. Л. Цетлиным. Суть ее сводится к тому, что любое достаточно сложное поведение слага­ется из совокупности про­стых поведенческих актов. Их совместная реализация и простейшее взаимодей­ствие приводят в резуль­тате к весьма сложным поведенческим   процессам. Отсюда возникла идея о том, что совместное функци­онирование простых «ма­леньких зверушек» в слож­ной среде способно обеспечить устойчивое существо­вание всего коллектива, который можно рассмат­ривать как некий «сверхорганизм». Клетки челове­ческого тела, пчелы улья или муравьи муравей­ника должны вызвать у читателя нужную ассо­циацию.

Вернемся к схеме опыта Торндайка. На рис. 2.2 показана некоторая интерпретация этой схемы. Ма­ленькая зверушка воспринимает из окружающей среды сигналы, которые являются оценками действий, совершенных ею перед этим. Эти оценки будут нами рассматриваться как двоичные: поощрение за вы­полненное действие (нештраф) и наказание за него (штраф). Зверушка может выбирать свои действия из некоторого заданного конечного набора D==[di, ds, ..., dn]. Значения оценок действия (будем их обозначать 1 и 0) формируются средой. Одна среда отличается от другой тем, как вырабатываются оцен­ки. Рассмотрим один важный частный случай, когда среда формирует эти оценки следующим образом. Если зверушка делает в некоторый момент действие di, то с вероятностью Pi среда выдает оценку «на­казание» (штраф) и с вероятностью 1—Pi —оценку «поощрение» (нештраф). Если с течением времени значения Pi остаются неизменными, то такая среда называется стационарной. Для полного определения стационарной среды достаточно задать вектор E=(P1,P2,...,Pn).

    Вернемся к опыту с крысой, описанному выше. В нем мы имеем дело со стационарной средой вида Е=(Рп,Рл), компоненты которой характеризуют вероятности наказаний (болевых раздражений) при выборе крысой правого или левого коридоров в Т-образном лабиринте. Эти выборы характеризуют множество действий крысы.

М. Л. Цетлин поставил перед собой вопрос: «Сколь сложным должна быть зверушка, которая подобно крысе в опытах Торндайка могла бы адаптировать свое поведение к стационарной среде так, чтобы всегда вести себя наиболее целесообразным образом?» Но прежде чем дать ответ на подобный вопрос, сле­дует уточнить само понятие целесообразности по­ведения.

    Заменим нашу зверушку механизмом случайного равновероятного выбора действий. На каждом шаге своего функционирования этот механизм, никак не учитывая приходящих на его вход сигналов штраф — нештраф, с одинаковой вероятностью, равной 1/п, выбирает любое из доступных ему действий. В опы­тах с крысами это соответствовало бы следующей ситуации. Перед началом левого и правого коридоров имеются запирающиеся дверцы. Когда крыса под­бегает к развилке, то всегда оказывается открытой лишь одна из них. Открывание их происходит равно­вероятно. Для этого экспериментатор может, например, подбрасывать монету и на основании вы­падения ее той или иной стороной открывать соот­ветствующую дверцу. В таких условиях крыса, ко­нечно, лишена возможности принимать какое-либо решение о выборе маршрута движения. Это решение «принимает» за нее механизм случайного равновероят­ного выбора. При бесконечном повторении опыта со зверушкой, устроенной как механизм равновероятного выбора действий, будет накоплен некоторый суммарный штраф. Его величина определяется как математиче­ское ожидание штрафа по формуле, хорошо извест­ной в теории вероятностей:

    Значение М* позволяет интерпретировать понятно целесоорбазного поведения следующим образом. Будем говорить, что зверушка ведет себя целесооб­разно, если накопленный ею суммарный штраф меньше, чем в случае механизма равновероятного выбора действий. А нецелесообразным будем считать такое поведение, при котором этот суммарны» штраф оказывается больше М*.

    Пусть, например, в Т-образном лабиринте Рп=0,9, а Рл = 0,4. Если бы крыса заранее знала эти вероят­ности, то она, конечно, всегда бы предпочитала бе­жать в левый коридор. Суть опытов Торнданка а том, что именно это предпочтение и сформируется у крысы после некоторого опыта предварительного обучения. Если при наших значениях вероятностей штрафов за действия крысу поставить в условия рав­новероятного выбора (ввести открывающиеся равно­вероятно дверцы), то суммарное значение штрафа для нее будет равно М == 0,5*0,9 + 0,5*0,4 == 0,65. Поведение крысы будет целесообразным, если сум­марный штраф, накопленный ею, будет меньше 0,65. А наилучшим ее поведением будет то, при кото­ром этот штраф достигнет своего минимума (при вы­боре только левого коридора). В этом случае М=0*0,9+1*0,4=0,4.

    Поставим перед собой следующую задачу: можно ли построить техническое устройство, которое вело бы себя аналогично нашей зверушке, обеспечивая целесообразное поведение в любой априорно неиз­вестной стационарной среде? И одним из удивитель­ных результатов теории коллективного поведения явилось создание конструкции ряда технических устройств, способных к этому.

§ 2.3. Линейная тактика — залог успеха

    Первой конструкцией такого типа был автомат с линейной тактикой, предложенный М. Л. Цетлиным. На рис. 2.3 показан принцип функционирования по­добного устройства. Число лепестков «ромашки» равно числу действий, доступных автомату. На ри­сунке для простоты показан случай, когда число таких действий равно трем. В каждом лепестке вы­делено четыре устойчивых состояния, в которых мо­жет находиться автомат. В любом из состояний, образующих лепесток ромашки, устройство выдает в среду сигнал действия, приписанного этому лепестку. Смена состояний происходит с учетом сигналов оце­нок за действия, поступающих от внешней среды. Как уже говорилось, эти сигналы двоичные. При поступлении сигнала нештраф наступает смена со­стояний, показанная на рис. 2.3 сплошными стрелка­ми. Автомат как бы переходит к внешнему краю лепестка, а когда достигает последнего состояния в лепестке, то остается в нем. Если же на вход авто­мата приходит сигнал штраф, то состояния сменяют­ся в соответствии с пунктирными стрелками на рисунке. Автомат идет в глубь лепестка, в какой-то момент под влиянием сигнала штраф переходит «а другой лепесток ромашки и происходит смена дей­ствий автомата. Смена лепестков, как видно из рисунка, происходит поочередно.

    Поясним теперь принцип работы устройства по­добного типа. Пусть оно взаимодействует со стаци­онарной средой, характеризуемой вектором вида Е = (0,9, 0,0001, 0,8). И пусть в начальный момент наше устройство находилось в состоянии, показанном на рис. 2.3 штриховкой. Понаблюдаем за его функ­ционированием. Находясь в заштрихованном состоя­нии, устройство выполнит действие d1. За это дей­ствие среда с вероятностью 0,9 оштрафует нашу зверушку и лишь с вероятностью 0,1 поощрит ее. Тогда устройство с вероятностью 0,9 перейдет из заштрихованного состояния в состояние 1 в том же лепестке, а с вероятностью 0,1 — в состояние 3 в том же лепестке. В любом случае оно снова произведет в среде действие d1. И опять неумолимая среда с вероятностью 0,9 выдаст сигнал штраф и лишь с ве­роятностью 0,1 поощрит устройство. Как следует из формул теории вероятностей для независимых собы­тий (а выработка сигналов средой на каждом шаге происходит независимо от других шагов), вероят­ность получения от среды двух сигналов штрафа подряд за действие d1 есть 0,9*0,9 == 0,81, вероят­ность получения двух поощрений подряд равна 0,1*0,1 = 0,01, а вероятность получить один штраф и одно поощрение — 0,9*0,1+0,1*0,9=0,18. Это означает, что после двух тактов взаимодействия со средой наше устройство с вероятностью 0,01 ока­жется в состоянии 4 группы состояний, соответствую­щих действию d1, с вероятностью 0,18 останется в заштрихованном состоянии и, наконец, с вероят­ностью 0,81 перейдет в состояние 1 той группы, ко­торой соответствует действие d3. С ростом числа взаимодействий качественная картина не изменится. Вероятность покинуть группу состояний, в которой совершается действие d1, неуклонно возрастает, а вероятность остаться в ней — падает.

    Что произойдет, когда устройство перейдет в состояние 1 того лепестка, который соответствует действию d3? После формирования этого действия среда с вероятностью 0,8 оштрафует устройство, и оно перейдет в состояние 1 того лепестка, которому соответствует действие d2. С вероятностью же 0,2 будет получен сигнал поощрения, который заставит наше устройство перейти в состояние 2 лепестка, соотносимого с действием d3. Но, как и в предшест­вующем случае, вероятность остаться в состояниях этого лепестка будет убывать с ростом числа взаимо­действий, и автомат в конце-концов покинет и этот лепесток, перейдя в группу состояний, соответствую­щих действию d2. Здесь наблюдается иная картина. Поскольку величина вероятности штрафа за действие d2 весьма мала, то с большой вероятностью автомат заберется в последнее состояние лепестка и почти не будет покидать его. Вероятность уйти на другие лепестки ничтожно мала. По порядку величин она равна 10*E-15. А это значит, что после некоторого периода обучения автомат, имитирующий поведение зверушки, будет вести себя почти самым наилучшим образом. «Почти» связано с тем, что существует не­нулевая, хотя и очень малая, вероятность ухода авто­мата из состояния, соответствующего действию d2. Тогда после очередного периода блуждания по ле­песткам действий d1 и d3 автомат вновь вернется на благоприятный лепесток действия d2 и вновь надолго останется в нем. Однако за это «отступничество» ему придется накопить некоторый дополнительный штраф, которого не было бы, если бы всегда выполнялось действие d2.

    На нашем рисунке в каждом лепестке ромашки по четыре состояния. Выбор этого числа состояний про­изволен. Каждый лепесток может содержать не четыре, а большее или меньшее число состояний. Обозначим это число через q. Оно называется глубиной памяти автомата. Смысл этого параметра заключается в следующем. Чем больше q, тем более инерционен автомат, ибо тем большая последова­тельность штрафов вынуждает его к смене действий. Интуитивно ясно, что, чем больше инерционность автомата, тем ближе он к тому, чтобы, выбрав на­илучшее в данной среде действие, продолжать вы­полнять только его.

    Читателю должно быть ясно, что с ростом глубины памяти растет при функционировании в стационарных средах и целесообразность поведения автомата. И, наоборот, при малом значении q функционирование автомата подвержено воздействию сигналов штрафа, часто выводящих автомат на лепестки с невыгодны­ми действиями.

    Конструкция автомата, рассмотренная нами, бы­ла названа М. Л. Цетлиным автоматом с линейной тактикой. И эта весьма простая в технической реа­лизации система (набор сдвигающих регистров, соот­носимых с лепестками и тривиальная логическая схема для организации сдвига единички в этих ре­гистрах и перехода с регистра на регистр) решает сложную задачу о целесообразном поведении в лю­бой заранее не фиксированной стационарной среде. Факт этот вызывает глубокое изумление. Сколь же просты оказываются конструкции, способные выпол­нять процедуры адаптации, представляющиеся на первый взгляд весьма сложными.

    Но оказывается, что целесообразное поведение это еще не все. Можно показать (и М. Л. Цетлин сде­лал это), что если minP, не превосходит 0,5, то при росте величины q мы получим последовательность автоматов с линейной тактикой со все увеличиваю­щейся глубиной памяти, которая является асим­птотически оптимальной. Это означает, что при q -->бесконечность имеет место M(q,E) —>М, где М—минималь­ный суммарный штраф, который можно получить в данной стационарной случайной среде. Таким об­разом, во многих таких средах конструкция, предло­женная М. Л. Цетлиным, обеспечивает при достаточ­но больших значениях q поведение, сколь угодно близкое к наилучшему. А это уже совсем фантастично.

После автоматов с линейной тактикой было най­дено еще много конструкций зверушек, которые мог­ли вести себя целесообразно, а зачастую асимптоти­чески оптимально в любых стационарных случайных средах. О них мы расскажем ниже.

§ 2.4. «Личные» качества автоматов

Автомат с линейной тактикой аккуратен и педан­тичен. Неторопливо движется он по состояниям ле­пестков, отсчитывая число поступивших на его вход наказаний и поощрений. Но возможны и другие авто­маты. Вот один из них, предложенный В. И. Кринским. Он похож на автомат с линейной тактикой и действует при поступлении сигнала штраф аналогич­но автомату с линейной тактикой. Но при сигнале поощрение его поведение резко отлично от педан­тизма автомата с линейной тактикой. В каком бысостоянии лепестка в этот момент не был автомат В. И. Кринского, он тут же меняет его на самое глу­бокое для данного лепестка состояние. Соответствую­щая картина показана на рис. 2.4 (пока не следует обращать внимание на штрихпунктирные линии). Такой автомат можно назвать «доверчивым». Он всегда «верит» в хорошее. И всякий положительный сигнал от среды приводит его в состояние «эйфории». Казалось бы, подобный способ поведения ничего кроме неприятностей автомату не сулит. Но мир ав­томатов оригинален и странен. Строго доказано, что доверчивые автоматы В. И. Кринского ведут себя целесообразно в любых стационарных случайных сре­дах, а последовательность подобных автоматов с рос­том их глубины памяти q образует асимптотически оптимальную последовательность.

Оказывается, что и автоматы, предложенные Г. Роббинсом, которые отличаются от доверчивых ав­томатов тем, что при переходе с лепестка на лепесток они переходят не в начальное состояние лепестка, а в конечное его состояние (на рис. 2.4 эти переходы по­казаны штрихпунктирными стрелками), также ведут себя целесообразно в любой стационарной случайной среде и при росте глубины памяти q образуют асим­птотически оптимальную последовательность автома­тов. Создается такое впечатление, что любые меры по повышению инерционности автомата, задержке его в группе состояний, принадлежащих одному лепестку, улучшат качество его функционирования в среде. Пояснить это можно следующим примером. Заядлый рыболов, обнаружив однажды место, где был хоро­ший клев, может ходить сюда довольно долго, хотя результаты могут быть нулевыми. И часто при дос­таточном терпении он бывает вознагражден сторицей за предшествующие неудачи. А, сменив место ловли и не поймав ни одной рыбешки, такой рыболов не отчаивается и еще много раз приходит сюда, чтобы попытать счастья. И окончательно разочаруется в об­любованном месте лишь тогда, когда довольно много раз уйдет отсюда без какой-либо добычи. И, как по­казывает жизненный опыт многих поколений любите­лей рыбной ловли, средний улов такого рыболова всегда выше, чем у его коллеги, придерживающегося тактики менять место ловли, как только при первой же рыбалке его улов оказывается незначительным.

Опишем еще одну конструкцию автомата, обеспе­чивающего целесообразное поведение в любой ста­ционарной среде и дающего возможность построить асимптотически оптимальную последовательность ав­томатов, позволяющую получать минимальный воз­можный штраф в данной среде с любой наперед заданной точностью. В отличие от ранее рассмотрен­ных конструкций этот автомат будет не детермини­рованным, а вероятностным. Устроен он подобно ав­томату с линейной тактикой. При поступлении сиг­нала нештраф смена состояний в нем происходит так, как показано на рис. 2.3. Но при сигнале штраф такой автомат не спешит менять состояние. Сначала он «подбрасывает монетку» и по результату подбрасы­вания либо переходит в состояние по пунктирной стрелке, показанной на рис. 2.3, либо сохраняет то состояние, в котором автомат получил сигнал штраф. Эта конструкция, предложенная В. Ю. Крыловым, может быть названа «осторожным» автоматом.

Интересен вопрос о том, насколько модели зве­рушек, построенные в рамках теории коллективного поведения, идентичны тем моделям, которые лежат в основе поведенческих актов, наблюдавшихся в опы­тах Торндайка, или в ситуациях альтернативного вы­бора, характерных для человека. М. А. Алексеев, М. С. Залкинд и В. М. Кушнарев провели серию экспериментов с людьми. Они проводили опыты в изолированной комнате, где ничего нет, кроме пуль­та с двумя кнопками, перед которым стоит стул. Ис­пытуемый садится на него и надевает наушники. Ес­ли нажать ту или иную кнопку, то с некоторой фик­сированной вероятностью, неизвестной испытуемым, в наушниках раздастся щелчок. Это сигнал поощре­ния. Отсутствие щелчка — аналог сигнала штраф. Цель испытуемого максимизировать сигналы нештра­фа путем правильного выбора нажимаемых кнопок. Внешне все выглядит так же, как в опытах Торн­дайка, т. е. альтернативный выбор из двух возмож­ностей и неизвестные заранее значения вероятностей поощрения и наказания. Как же ведут себя люди в этой экспериментальной ситуации? В простейших случаях, когда вероятность щелчка при нажатии одной из кнопок была равна единице, а при нажатии второй имелась ненулевая вероятность штрафа, люди быстро постигали ситуацию и нажимали лишь ту кнопку, которая гарантировала им стопроцентную удачу. Однако в более сложных случаях поведение испытуемых не было столь простым, как можно было бы предполагать.

Если стационарная среда задавалась, например, вектором Е == (0,2, 0,8), то, вместо того чтобы после некоторого периода обучения нажимать всегда пер­вую кнопку (здесь вероятность щелчка есть 0,8, так как вероятность штрафа для первой кнопки задана равной 0,2), человек нажимал то одну кнопку, то другую. На рис. 2.5 показан фрагмент действий ис­пытуемого. Верхняя цепь кружочков соответствует нажатию первой кнопки, а нижняя — второй кнопки. Зачерненные кружки соответствуют нажатию, при ко­тором испытуемый услышал щелчок, светлые — исхо­ду испытания со штрафом. Как видно из рисунка, испытуемый правильно считает, что надо нажимать на первую кнопку, но время от времени он пробует нажимать и на вторую. Появление штрафа при этом переходе с кнопки на кнопку (с лепестка на лепес­ток) приводит к возвращению к первой кнопке. Срав­нивая поведение людей с функционированием автома­тов с линейной тактикой, авторы эксперимента пришли к выводу, что людей можно уподобить таким ав­томатам с небольшой глубиной памяти (q = 1, 2, 3). Это приводит к тому, что люди решают задачу аль­тернативного выбора (особенно при близких значе­ниях вероятностей Pi друг к другу) хуже, чем авто­маты с линейной тактикой. И, конечно, хуже ос­тальных рассмотренных нами автоматов. Интересно, что И. Б. Мучник и О. Я. Кобринская показали, что крысы в условиях опыта Торндайка действуют с го­раздо большей глубиной памяти и превосходят в этом отношении человека. Но в средах с близкими значе­ниями вероятности штрафов за действия пальма пер­венства остается не за биологическими организмами, а за не знающими эмоций простейшими автоматными устройствами.

§ 2.5. Как жить в динамическом мире?

До сих пор мы рассматривали стационарную сре­ду. Этакий застывший и неизменный мир. Такой мир возможен только в эксперименте. А в жизни любое животное живет в постоянно меняющейся среде. И задача выживания в динамическом мире куда слож-нее, чем адаптация к застывшему навеки стационар­ному миру. Законы изменения параметров внешней среды могут быть самыми различными. Трудно даже перечислить их виды. Поэтому при описании дина­мической среды мы поступим следующим образом. Рассмотрим   k  различных   стационарных  сред E1, E2, ..., Ek. И будем считать, что каждая такая среда представляет собой как бы мгновенную фото­графию состояния динамической среды. Эти фотогра­фии, меняясь, как кадры кинофильма, воссоздадут нам динамическую среду. На рис. 2.6 показано вза­имодействие автомата с таким миром.

Коммутатор как бы подключает зверушку к той или иной стационарной среде. Как характеристики этих сред, так и законы работы коммутатора авто­мату заранее неизвестны. Адаптация состоит теперь не только в оценке значений Рi в степени m, где верхний индекс характеризует среду Ет, а и в определении законо­мерности смены сред коммутатором.

В' дальнейшем мы рассмотрим лишь один частный случай работы коммутатора. Связано это с тем, что в теории коллективного поведения именно он оказал­ся изученным наиболее глубоко. Остальные более сложные случаи еще ждут своего анализа. Предпо­ложим, что коммутатор производит подключение ста­ционарных сред на основании некоторой таблицы (матрицы), имеющей k строк и k столбцов. Элемент Pij, стоящий на пересечении i-й. строки этой таблицы и ее j-го столбца, есть вероятность того, что после среды Ei, воздействовавшей на вход автомата, к не­му будет подключена среда Ej. Элементы вида Рii характеризуют вероятность того, что на следую­щем шаге автомат будет взаимодействовать с той же средой ei, что и на предшествующем шаге. Подоб­ную динамическую среду можно назвать переключающейся. Если подбирать значения Рij надлежащим образом, то переключающаяся среда может достаточно хорошо описывать многие динамические среды.

Что же изменяется при переходе зверушки в пе­ременчивый мир переключающейся среды? Остаются ли верными те основные положения, которые мы смогли постулировать при описании поведения в зас­тывших стационарных мирах?

Рассмотрим сначала ситуацию, часто встречаю­щуюся в русских народных сказках. Иванушка-дура­чок встречает свадьбу. И он начинает громко при­читать и плакать. Такое неадекватное поведение вы­зывает мгновенную реакцию. Жестоко битый Ива­нушка через некоторое время встречает похорон­ную процессию. Помня о своей неудаче, он начинает весело смеяться и плясать. И снова жестокая кара постигает простодушного героя. Он снова бит. Если свадьбы и похороны чередуются в строгом по­рядке, а Иванушка-дура­чок имеет единичную глу­бину памяти, то, как пока­зывает схема на рис, 2.7, быть ему всегда битому. Ибо действует он в противофазе с работой коммутатора, переключающего среду Ei = (l, 0) на среду Е2 = (0, 1) так, что каждый раз действие Иванушки вызывает сигнал наказания С вероятностью, равной единице. Если бы коммута­тор переключал среды не жестко детерминированно, а с некоторыми вероятностями, то на долю Ива­нушки выпадали бы и счастливые минуты. Он причитал и плакал бы на похоронах, а смеялся и пля­сал на свадьбах, хотя и в этих условиях ему прихо­дилось бы попадать в глупое положение и быть бито­му. Первое, что приходит в голову при анализе тяже­лой судьбы Иванушки, это то, что он действует, как автомат с малой глубиной памяти. Он не обладает инерционностью, которая была благом для автоматов, действующих в случайных средах. Но правы ли мы были, если бы поторопились с таким заключением?

Ведь если в динамическом мире смена ситуаций про­исходит с большой частотой, то инерционность вряд ли может служить хорошим средством для существования в этом мире. Ведь в динамическом мире надо быстро, оперативно следить за возникающими изменениями среды. И для каждого динамического мира нужна своя наилучшая глубина памяти, выбранная в зави­симости от скорости изменения обстановки, а вовсе не по принципу «чем больше, тем лучше». Это озна­чает, что не приходится и мечтать о том, что рас­смотренные нами конст­рукции зверушек будут вести себя целесообразно во  всех динамических средах. И эксперименты неумолимо  свидетельст­вуют об этом. На рис. 2.8 можно увидеть результа­ты одного такого экспе­римента. Он проводился с помощью ЭВМ. Испы­тывались автоматы с ли­нейной тактикой, имею­щие различное число со­стояний в лепестках. Для простоты считалось, что автоматы могут выбирать

одно из двух действий. Переключающаяся среда была устроена тоже достаточно просто. Она состояла из двух стационарных сред, отличающихся друг от дру­га перестановкой вероятностей штрафов за действия (и этим она была похожа на пару сред в сказке об Иванушке-дурачке). В первой среде за первое действие вероятность штрафа была весьма велика, а за второе действие мала. В другой среде эти ве­роятности относились уже ко второму и первому действиям, т. е. ситуация была обратной. Обозначим через б вероятность смены сред (значения этого па­раметра надписаны над кривыми, показанными на рис. 2.8). По оси абсцисс отложена глубина памяти автомата, а по оси ординат — математическое ожи­дание накапливаемого штрафа.

Результаты эксперимента ясно показывают, что для каждого значения б существует своя оптимальная глубина памяти автомата с линейной тактикой, при которой накапливаемый штраф минимизируется. Аналогичную картину можно наблюдать и при ис­пользовании в переключающейся среде автоматов других конструкций, целесообразно ведущих себя в стационарных случайных средах.

Итак, в динамических средах найденные нами конструкции автоматов оказываются не самыми лучшими. И единственный выход из этого положе­ния — использовать какую-нибудь гибкую конструк­цию, которая изменяется вместе с тем миром, где она функционирует.

Ученики и продолжатели дела М. Л. Цетлина предложили несколько конструкций зверушек, спо­собных целесообразно функционировать в динами­ческих средах. Самой известной из них является предложенная одним из авторов этой книги модель автомата с переменной структурой.

Предположим, что вы на своей автомашине еже­дневно добираетесь из дома на работу. В вашем рас­поряжении есть два возможных маршрута, и вы вольны выбирать любой из них. Так как вы всегда выезжаете в одно и тоже время, то обстановка на каждом из маршрутов как бы стационарна. И, ана­лизируя эту обстановку, вы убедились, что один из маршрутов лучше другого: времени тратится мень­ше — движение здесь менее интенсивное, чем по другому маршруту, да и светофоров не так много. Но вот беда. Время от времени из-за каких-то стро­ительных работ движение здесь резко снижается, образуются пробки, и можно потерять много време­ни, пока они ликвидируются. В этих условиях данный маршрут становится намного хуже другого. Вы бы потеряли куда меньше времени и не опоздали бы на работу, выбрав в эти неудачные дни другой мар­шрут. Если нет никакой информации о частоте строительных работ на трассе первого маршрута, то при выезде из дома нет никаких шансов угадать, по какому маршруту лучше сегодня ехать. Однако день за днем вы накапливаете некоторую информа­цию. Учитесь на своем горьком опыте. Выясняется, что чаще всего пробки образуются в среду и пятни­цу и вероятность этих пробок достаточно велика. Тогда, выбирая в остальные дни недели первый маршрут, вы в среду и пятницу без колебаний вы­бираете менее хороший маршрут поездки.

Этот пример мы привели для того, чтобы у читателя возникли необходимые ассоциации с поведением автомата с переменной структурой в переключающейся среде. Опишем теперь его структуру и функционирование на более строгом уровне.

Вернемся снова к автомату с линейной тактикой показанному на рис. 2.3. Его структура может был задана в виде двух матриц, определяющих смену состояний при получении сигнала нештраф и при получении сигнала штраф. Каждая такая матрица содержит 12 строк и 12 столбцов по числу различных состояний автомата. И в каждой строке этих мат­риц имеется одна единица, показывающая, как осу­ществляется переход. Выписывание этих матриц слишком громоздко. По­этому вместо автомата с четырьмя   состояниями в каждом лепестке и тре­мя действиями рассмот­рим автомат с линейной тактикой с двумя состояниями в лепестке и двумя действиями (рис. 2.9) Для такого автомата матрицы имеют вид

Эти матрицы определяют детерминированную струк­туру нашего автомата. Если автомат вероятностный (как, например, упоминавшийся нами автомат В. И. Крылова), то вместо единиц и нулей в матри­цах П+ и П- будут стоять значения вероятностей смены состояний. Если, например, автомат с линей­ной тактикой, показанный на рис. 2.9, заменить ав­томатом В. И. Крылова, то соответствующие матрицы примут вид

В отличие от детерминированного и вероятностно­го автоматов, у которых матрицы П+ и П- в процес­се их функционирования остаются неизменными, для автомата с переменной структурой П+ и П- не постоянны. В зависимости от результатов функцио­нирования (наказаний или поощрений, получаемых от среды) автомат меняет свою структуру.

В начальном периоде своей работы такой автомат находится в «безразличном» состоянии, когда вероят­ности всех переходов между состояниями для него абсолютно одинаковы. Для условий, показанных на рис. 2.9, это соответствует тому, что начальный вид матриц смены состояний для автомата с переменной структурой задается следующим образом:

Пусть для определенности начальным состоянием автомата было состояние с номером 1 и автомат, вы­полнив действие d1, соответствующее этому состоя­нию (см. рис. 2.9), с помощью равновероятного вы­бора по матрице П+ перешел в состояние 4. И пусть после этого он получил сигнал штраф. Получение подобного сигнала заставляет автомат считать свой переход 1-->4 при нештрафе за действие d1 ошиб­кой. Эта информация фиксируется следующим обра­зом. Вероятность П14+ уменьшается на некоторую ве­личину А. Но сумма вероятностей в любой строке матрицы должна быть равна 1, и поэтому уменьше­ние П14+ на Дельту  должно привести к увеличению всех остальных вероятностей в этой строке, например, на величину Дельта/3, что позволит сохранить нормировку строк. Если взять Дельта== 0,03, то после этого шага мат­рица П- останется прежней, а матрица П+ примет вид

На очередном шаге автомат делает действие d2, соответствующее состоянию 4, и выбирает очередное состояние на основании матрицы П- (так как в те­кущем акте общения со средой он находится в ус­ловиях последнего сигнала от среды—штрафа). Пусть он выбрал переход 4—>4 и вновь получил штраф. Теперь уже меняется матрица П-, а матри­ца П+ остается неизменной. В матрице же П- четвертая строка приобретает вид (0,26 0,26 0,26 0,22). На очередном шаге взаимодействия автомат опять использует вероятностный переход по матрице П-, и в зависимости от оценочного сигнала меняют­ся значения вероятностей в четвертой строке матрицы и совершается очередной выбор либо по матрице П- (если последний пришедший оценочный сигнал был наказанием), либо по матрице П+.

Так постепенно происходит перестройка матриц П+ и П- в зависимости от сигналов, формируемых средой. Возникает вопрос: будут ли эти матрицы стремиться к какому-нибудь устойчивому значению, например к матрицам из нулей и единиц, соответст­вующих автомату с линейной тактикой, или какому-либо другому автомату, целесообразно ведущему себя в стационарных случайных средах? Если бы от­вет был положительным, то это означало бы, что из механизма случайного выбора мы могли бы. фор­мировать структуру зверушки, целесообразно функ­ционирующей в статических случайных средах. Ко­нечно, тот или иной ответ на поставленный нами вопрос зависит от тех законов изменения элемен­тов в П+ и П-, которые мы будем использовать.

Что же показали проведенные исследования? Ока­залось, что линейные законы изменения переходных вероятностей Пij в матрицах П+ и П-, описанных выше, не всегда приводят к оптимальным кон­струкциям, подобным автоматам В. И. Кринского или Г. Роббинса. Но если ввести нелинейное измене­ние элементов указанных матриц, то исходные «раз­мазанные» матрицы с одинаковыми значениями Пij сходятся к матрицам из нулей и единиц, соответствующих автоматам, наилучшим образом ведущих себя в стационарных случайных средах.

Но не это главное. В стационарных случайных средах нет нужды тратить время на обучение авто­мата с переменной структурой, ибо заранее известны конструкции, успешно решающие в этих средах поведенческие задачи. Главное — поведение в дина­мических и, в частности, в переключающихся средах. Что дает использование автоматов с переменной структурой здесь?

Вернемся к рис. 2.8. Как мы уже знаем, для авто--матов с линейной тактикой существует оптимальное значение глубины памяти, зависящее от скорости пе­реключения стационарных сред, при котором сум­марный штраф, накапливаемый автоматом, становит­ся минимальным. Но глубина памяти тесно связана с вероятностью пребывания автомата на том или ином лепестке и, следовательно, с вероятностью вы­полнения того или иного действия. Для автоматов с переменной структурой экспериментально (путем моделирования перестройки их структуры на ЭВМ) получен следующий фундаментальный результат: с течением времени функционирование автомата с переменной структурой в переключающихся средах, в которых автомат с линейной тактикой действует целесообразно, неограниченно приближается к фун­кционированию автомата с линейной тактикой, обла­дающему оптимальной глубиной памяти. Другими словами, автомат с переменной структурой сам на­ходит эту оптимальную глубину памяти. Это весьма важно, так как значение qопт, показанное на рис. 2.8, нельзя априорно определять аналитическим путем, а оно должно подбираться в процессе фун­кционирования в среде, на что автомат с линейной тактикой просто неспособен.

И еще одно. Вспомним наш пример с Иванушкой-дурачком. Нетрудно подобрать многочисленные при­меры переключающихся сред, в которых эффект непрерывного битья все время будет преследовать автомат с линейной тактикой. Только он подстро­ится под определенную среду, как среда уже изме­нилась, и битье продолжается. Для этого достаточно условия, что среда переключается быстрее, чем ав­томат покидает свой лепесток и переходит на другой. Если бы заяц менял окраску шкурки в противофазе со сменой зимы и лета, затрачивая на это время, соизмеримое с полугодом, то он давно бы исчез с лица земли. Для автомата с переменной структу­рой подобного положения не существует. Как было сказано в одной из первых работ по таким автома­там, «миниальный штраф выплачивается в том слу­чае, когда за вчерашние грехи сегодня награждают и в том случае, когда грехи остаются грехами».

В заключение этого параграфа приведем резуль­тат одного эксперимента с автоматом с переменной структурой, имеющим восемь состояний и моделирую­щим поведение в среде, в которой автомат с линей­ной тактикой имел бы оптимальную глубину памя­ти, равную двум. Этот результат приведен на рис. 2.10. По оси абсцисс на этом рисунке отложено число тактов взаимодействия автомата со средой, а по оси ординат — средняя величина штрафа в рас­чете на одно взаимодействие. Горизонтальная пунк­тирная прямая соответствует значению математи­ческого ожидания штрафа для автомата с линейной тактикой с глубиной памяти, равной двум. Как мы видим, автоматы с переменной структурой на началь­ном этапе весьма быстро приближаются к наилучше­му режиму работы автомата с линейной тактикой, а потом неуклонно асимптотически стремятся к этому оптимуму.

Такая явная связь между автоматами с линейной тактикой и с переменной структурой наводит на мысль о естественности этих конструкций, об их «эволю­ционной» связи.

И еще одно интересное наблюдение. Автомат с переменной структурой все время стремится уйти от штрафа, уйти в область благоприятных для себя действий. Это значит, что он чаще получает поощре­ния, а не наказания (если только среда не устроена так, что наказания в ней имеют значительно большую вероятность, чем поощрения). А это в свою очередь означает, что матрица П+ изменяется сильнее, чем П-. Автомат как бы настраивается на хорошее функционирование в благоприятных мирах. К фун­кционированию в таких условиях он лучше адаптирован.

Поведение автоматов в стационарных средах мы сравнивали с результатами экспериментов по альтер­нативному выбору решений людьми. Аналогичные эксперименты были проведены теми же авторами (М. А. Алексеев, М. С. Залкинд, В. М. Кушнарев) и в случае переключающихся сред. В процессе экспери­мента по нажатию кнопок без ведома испытуемого происходило переключение среды. Если в пред­шествующий период (75—100 нажатий  кнопок) имела место среда с E1==(0,8, 0,2), то на следую­щий период нажатий она сменялась на среду с Е2==(0,2, 0,8). Каков же результат этого экспе­римента? Вывод, к которому пришли эксперимента­торы, оказался парадоксальным. Человек в среднем лучше решает задачу адаптации к переключающейся среде, чем задачу для стационарной среды. Вернем­ся снова к рис. 2.5. При решении задачи в случае стационарной среды человек время от времени отка­зывается от хорошего выбора и как бы пробует, что получится, если сменить стратегию. И это характерно для любого испытуемого. Что кроется за этим фено­меном? Наиболее ярко он проявляется, когда пред­почтительность того или иного выбора близка к предельной. При близких вероятностях штрафа за выбор кнопки уходы с предпочтительной страте­гии более редки. А чем яснее и проще решение, тем менее устойчиво поступает человек. Какая особен­ность его психики скрывается за этим? Почему в стационарной среде с Е = (0,8, 0,2) процент по­ощрений равен 62%, а в переключающейся среде, где E2 =(0,2, 0,8), он равен 72%? И это только на 1% ниже того, что достигает в данной динамической среде автомат с линейной тактикой с оптимальной глуби­ной памяти. Ответов на поставленные вопросы пока нет. Это еще один аргумент в пользу того, что поведение человека зачастую не только не опти­мально, но и нецелесообразно. В сложном мире от зверушки до человека огромная качественная дис­танция.

§ 2.6. «Доживем до понедельника»

Так назывался известный фильм из школьной жизни. Но то, о чем мы хотим поговорить здесь, ничем кроме названия не ассоциируется с этим дав­ним фильмом. У нас речь пойдет о возможности ор­ганизации зверушкой такого управления внешней средой или приспособления к ней, которое обеспе­чивает ей максимальный срок «жизни». Однако прежде нам нужно дать содержательную постанов­ку задачи, а уже затем ее формальное описание.

Биологами хорошо исследована модель охоты летучих мышей, в частности, охота на ночных бабо­чек, способных воспринимать локационный ультра­звуковой сигнал летучих мышей. Экспериментальный материал, относящийся к этой ситуации, можно сум­мировать следующим образом.

Летучая мышь испускает с помощью своего голо­сового аппарата направленный ультразвуковой сиг­нал. Встретив препятствие, сигнал отражается от него. Летучая мышь способна улавливать отражен­ный сигнал и с большой скоростью и точностью различать и идентифицировать его, что позволяет отличать неподвижные цели от подвижных, отра­жения от поверхности земли от отражений от воз­душных целей, большие размеры от малых (на­пример, отраженные сигналы от летящих птиц и комаров). Кроме того, отраженный сигнал позволяет летучей мыши с весьма большой точностью опреде­лять направления и расстояния до потенциальных целей.

Ночные бабочки в свою очередь способны принять локационный сигнал летучей мыши, определить местоположение источника, из которого был послан сигнал, а также определить интенсивность последне­го. Поведение ночной бабочки различно в зависи­мости от того, как далеко от нее находится летучая мышь и сколь интенсивен сигнал. Если расстояние достаточно велико или интенсивность мала, то ноч­ная бабочка производит маневр, направленный на уход от летучей мыши. В экспериментальных ситуа­циях наблюдалось три способа выполнения такого маневра. Либо бабочка разворачивалась и двигалась в сторону, противоположную своему предшествую­щему движению, либо она использовала маневр в вертикальной плоскости, уходя со своего прежнего курса вверх или вниз. Если же расстояние до лету­чей мыши было мало или интенсивность локацион­ного сигнала была очень велика, то ночная бабочка переходила на хаотический полет. Это происходит потому, что органы слуха бабочки в таких условиях начинают работать в режиме насыщения, и бабочка уже не может определить положение летучей мыши и направление ее движения. Хаотический полет состо­ит из чередования пассивного падения со сложенны­ми крыльями, крутых поворотов, петель, пикирова­ния. Другими словами, бабочки переходили на такую траекторию полета, которая максимально затрудня­ла для нападающего предсказание последующей то­чки на этой траектории. Интересно, что, как показы­вают эксперименты, более чем в 70% случаев хаоти­ческое движение оказывалось для ночных бабочек спасительным.

Попробуем формализовать описанную ситуацию, несколько упростив ее. Это упрощение не является принципиальным. На основе той упрощенной модели, которую мы опишем, ряд исследователей построил совсем не игрушечные модели «преследуемый — преследователь», в том числе и для моделирования поведения ночной бабочки, спасающейся от летучей мыши.

Посмотрим на рис. 2.11. На нем изображен граф смены состояний некоторого вероятностного автома­та. Его особенность состоит в том, что для каждой группы состояний (на рисунке группы состояний оконтурены пунктирными линиями) имеется ненуле­вая вероятность перейти в особое состояние, в ко­тором автомат погибает (на рисунке оно заштрихо­вано). Состояния можно интерпретировать, например, следующим образом: 1 — летучая мышь производит поиск и с вероятностью 0,3 обнаруживает бабочку, а с вероятностью 0,7 пропускает ее (для первой группы состояний); 2—летучая мышь определяет направление своего движения и расстояние до жерт­вы, причем с вероятностью 0,8 цель при этом не теряется; 3 — летучая мышь настигает бабочку и уничтожает ее с вероятностью 0,95. Что же может противопоставить преследователю бабочка? В чем заключаются ее действия? Будем рассматривать каж­дую группу состояний автомата как определенную среду, задаваемую той стратегией бабочки, которой она придерживается. Трем группам состояний, пока­занных на рис. 2.11, можно, например, соотнести следующие стратегии: прямой полет (E1), пикирова­ние или кабрирование (E2) и хаотическое движе­ние (Ез). Действия бабочки сводятся к смене сред, переключению их. При этом бабочка может реали­зовать действие лишь в состояниях 2 и 3. На рис. 2.11 эти действия показаны двойными стрелками переходов. В остальных состояниях бабочка выдает в среду нейтральный сигнал (другими словами, не меняет своих действий). После ухода от летучей мыши бабочка опять возвращается к движению по горизонтальной траектории,  обеспечивающей  ей возможность выполнения ее жизненного назначе­ния — продолжения потомства. Эти переходы — действия на рисунке не показаны, чтобы не загромож­дать картину погони, которую мы анализируем.

В примере с ночной бабочкой и летучей мышью картина весьма прозрачна. Действия по переключе­нию сред, показанные на рис. 2.11, позволяют ба­бочке максимально увеличить вероятность своего спасения. Однако в общем случае выбор оптималь­ной последовательности переключении, максимизи­рующей время жизни автомата, далеко не тривиален. Пусть, например, как и в нашем примере, имеется три случайных среды, которые автомат может переключать своими действиями. И пусть имеется три обычных состояния и три поглощающих (летальных), в которых автомат погибает. Первые три мы, как и ранее, будем обозначать цифрами 1, 2, 3, а погло­щающие состояния — цифрами 4, 5, 6. Вместо рисун­ка, подобного рис. 2.11, зададим три матрицы переходов   автомата   в   трех   возможных   средах (табл 2.1)

 

Таблица 2.1

 

 

Состояния

Среда

Состояния

1

2

3

4

5

6

 

1

0,9

 

 

0,1

 

 

 

2

0,95

 

 

 

0,05

 

Е1

3
4

0,8

 

 


1

 

0,2

 

5

 

 

 

 

1

 

 

6

 

 

 

 

 

1

 

1

 

0,9

 

0,1

 

 

 

2

 

0,7

 

 

0,3

 

E2

3
4

 

0,95

 


1

 

0,05

 

5

 

 

 

 

1

 

 

6

 

 

 

 

 

1

 

1

 

 

0,9

0,1

 

 

 

2

 

 

0,92

 

0,08

 

E3

3
4

 

 

0,7


1

 

0,3

 

5

 

 

 

 

1

 

 

6

 

 

 

 

 

1


В табл. 2.1 указаны только ненулевые значения переходных вероятностей Пиij. Если начальное сос­тояние автомата есть i (i== 1, 2, 3), то время жизни автомата можно вычислить по формуле

Здесь М* — время жизни автомата с начальным сос­тоянием j при оптимальном переключении им сред, d(i) значение функции выхода автомата для сос­тояния с номером i, т. е. номер той среды, на кото­рую автомат переключает в этом состоянии текущую среду, Пиij(d(i)) переходные вероятности смены со­стояний в среде с номером d(i). Очевидно, что опти­мальное переключение d*(i) будет достигнуто тогда, когда будет получен maxМj для всех j (или max min Mj).

Мы не рассчитываем на то, что читатель будет в состоянии выдержать аналитические выкладки, лежа­щие в основе процедуры построения оптимального переключения. Отметим только, что такая процедура существует. И строго показано, что она позволяет автомату вероятностного типа осуществлять поиск оп­тимального способа переключения сред. Для подго­товленного читателя укажем лишь на то, что, по сути своей, эта процедура есть модификация схемы дина­мического программирования Беллмана. Для нашего примера оптимальное переключение задается сле­дующей функцией выхода:  d{1)=3, d(2)==3, d(3)=2.   При этом   M3*= 15,47;   М2*=15,23; M1*=13,92. Общее время жизни автомата, выполняю­щего переключение сред, в полтора раза больше времени его жизни в пассивном режиме. А, значит, ночная бабочка совсем не зря тратит усилия на сме­ну стратегии своего полета.

§ 2.7. От индивида к коллективу

Итак, мы познакомились с конструкциями зверу­шек, способных взаимодействовать с довольно слож­но организованными средами. Правда, модели, кото­рые мы обсудили, чрезвычайно упрощенно описывали это взаимодействие. Весьма бедным был ассортимент оценочных сигналов за действия, скудна информация, используемая для адаптации, примитивны средства организации взаимодействия со средой. Но к такому обеднению мы прибегли сознательно. Ибо нашей це­лью было показать, что, даже в условиях почти пол­ного отсутствия информации о структуре поведения и о структуре среды, автономные подсистемы могут до­стигать поставленных перед ними целей. В последую­щих разделах книги мы время от времени будем «обогащать» зверушек, наделяя их более широкими возможностями, чем в данной главе. Однако основная Ваша цель—не исследование способностей подобных устройств и эволюции их развития, а изучение пове­дения коллектива из таких устройств.

Нас будут интересовать проблемы взаимодей­ствия зверушек между собой, организация их в со­общество, способное достигать общих целей, согла­сование личных целей участника сообщества с целью всего коллектива, распределение функций и ресурсов между совместно функционирующими участ­никами общего дела.

Прежде чем перейти к решению этих проблем, остановимся на той концептуальной схеме, которая будет лежать в основе всех наших дальнейших рассуждений. Читатель легко соотнесет ее с моделями, которые обсуждались нами в гл. 1 нашей книги. Эта модель изображена на рис. 2.12. Коллектив из k автоматов взаимодействует со средой. Каждый из них делает это самостоятельно, не зная не только о действиях других членов коллектива, но и об их существовании. Для каждого автомата остальные участники коллектива как бы растворяются в среде, выступают по отношению к данному автомату как часть среды. Если в некотором такте взаимодействия автоматы зафиксировали свои действия, то среда воспринимает их как комбинированное воздействие, описываемое набором (di11, di22, ..., dikk), где верхний индекс указывает номер автомата в коллективе, а нижний — выбранное им действие. Среда может фор­мировать оценочные сигналы на автомат либо на основании действий некоторой части или всех автома­тов, либо на основании действий только данного ав­томата. Во втором случае коллектив разваливается и вся задача коллективного поведения сводится к рассмотрению k независимых друг от друга задач индивидуального поведения. Этот крайний случай не представляет интереса, и в дальнейшем мы его ис­следовать не будем. В первом же случае среда может как-то регулировать совместное воздействие автома­тов и он представляет для нас принципиальный ин­терес.

Иногда мы будем рассматривать модели коллек­тивного поведения, в которых, помимо среды, авто­маты непосредственно общаются между собой. На рис. 2.12 эта возможность отражена в наличии неко­торых специальных механизмов непосредственного обмена между автоматами, образующими коллектив.

И, наконец, вполне правомерно рассматривать все k автоматов и механизм непосредственного об­мена (если он существует) как подсистемы некоторо­го организма, взаимодействующего со средой. Та­кая трактовка в ряде конкретных моделей будет нами использована в последующих главах книги.

Авторы чувствуют, что у читателя готовы сорвать­ся с языка веские возражения против предлагаемой концептуальной модели взаимодействия в коллекти­ве. Ограничение на общение между участниками кол­лектива кажется весьма надуманным и резко сни­жающим эффективность функционирования всей системы. Но мы еще раз подчеркиваем принципиаль­ность этой схемы в рамках тех моделей, которым посвящена данная книга. В условиях невозможности полного обмена информацией о действиях, отсут­ствия центрального управляющего органа и резкого ограничения на время принятия решений по выбору действий предлагаемая модель все-таки оказывается, как будет видно из дальнейшего, вполне работоспо­собной.

 Глава 3 СОГЛАСОВАННОСТЬ БЕЗ ДОГОВОРЕННОСТИ

"В действительности все выглядит иначе, чем на самом деле".

Станислав Ежи. Лец

 

§ 3.1. История начиналась в Арбатове

«И вот, наконец, ранней весной 1928 года почти все известные дети лейтенанта Шмидта собрались в московском трактире, у Сухаревой башни. Кворум был  велик — у лейтенанта  Шмидта  оказалось тридцать сыновей в возрасте от восемнадцати до пятидесяти двух лет и четыре дочки, глупые, немо­лодые и некрасивые.

В краткой вступительной речи Балаганов выразил надежду, что братья найдут общий язык и вырабо­тают, наконец, конвенцию, необходимость которой диктует сама жизнь.

По проекту Балаганова весь Союз Республик сле­довало разбить на тридцать четыре эксплуата­ционных участка, по числу собравшихся. Каждый участок передается в долгосрочное пользование од­ного дитяти. Никто из членов корпорации не имеет права переходить границы и вторгаться на чужую Территорию с целью заработка.

Против новых принципов работы никто не воз­ражал, если не считать Паниковского, который уже тогда заявил, что проживет и без конвенции. Зато при разделе страны разыгрались безобразные сцены. Высокие договаривающиеся стороны переругались в первую же минуту и уже не обращались друг к другу иначе как с добавлением бранных эпите­тов.

Весь спор произошел из-за дележа участков.

Никто не хотел брать университетских центров. Никому не нужны были видавшие виды Москва, Ле­нинград и Харьков.

Очень плохой репутацией пользовались также далекие, погруженные в пески восточные области. Их обвиняли в невежестве и незнакомстве с лич­ностью лейтенанта Шмидта.

— Нашли дураков!— визгливо кричал Паниковский.— Вы мне дайте Среднерусскую возвышен­ность, тогда я подпишу конвенцию.

— Как? Всю возвышенность? — заявил Балага­нов.— А не дать ли тебе еще Мелитополь впридачу? Или Бобруйск?

При слове «Бобруйск» собрание болезненно за­стонало. Все соглашались ехать в Бобруйск хоть сейчас. Бобруйск считался прекрасным высококуль­турным местом.

— Ну, не всю возвышенность,— настаивал жад­ный Паниковский,—хотя бы половину. Я, наконец, семейный человек, у меня две семьи.

Но ему не дали и половины.

После долгих криков было решено делить участки по жребию. Были нарезаны тридцать четыре бумаж­ки, и на каждую из них нанесено географическое название. Плодородный Курск и сомнительный Херсон, мало разработанный Минусинск и почти безнадежный Ашхабад,   Киев,  Петрозаводск и Чита — все  республики,  все  области  лежали в чьей-то заячьей шапке с наушниками и ждали хозяев.

Веселые возгласы, глухие стоны и ругательства сопровождали жеребьевку.

Злая звезда Паниковского оказала свое влияние на исход дела. Ему досталось Поволжье. Он при­соединился к конвенции вне себя от злости.

—Я поеду,—кричал он,—но предупреждаю:

если плохо ко мне отнесутся, я конвенцию нарушу, я перейду границу!

Балаганов, которому достался золотой арбатовский участок, встревожился и тогда же заявил, что нарушения эксплуатационных норм не потерпит.

Так или иначе, дело было упорядочено, после чего тридцать сыновей и четыре дочери лейтенанта Шмидта выехали в свои районы на работу».

Каждый, читавший книгу «Золотой теленок» Ильфа и Петрова, помнит, что Паниковский все-таки нарушил конвенцию. Почему это произошло? И могло ли быть иначе? Может быть, Шура Балага­нов напрасно работал всю зиму над созывом конфе­ренции, напрасно переписывался со знакомыми конку­рентами и передавал незнакомым приглашения через внуков Маркса, может быть беда детей лейтенанта Шмидта заключалась в том, что Шура Балаганов не был знаком с теорией коллективного поведения?

Попытаемся формализовать ситуацию, которую мы будем интерпретировать, как игру К лиц. Участники игры алчны и эгоистичны — их поведение определяется только стремлением к личной наживе. Каждый участник в своем поведении обладает на­бором альтернатив, которые мы будем называть стратегиями — он может произвольно выбрать себе участок, на котором будет промышлять в качестве сына лейтенанта Шмидта. Число альтернатив (стра­тегий, участков) может быть больше числа участни­ков игры (детей лейтенанта Шмидта). Как мы уже видели, в приведенном отрывке из «Золотого телен­ка» участки неравноценны. Каждый участок харак­теризуется некоторым числом, которое мы будем на­зывать мощностью этой стратегии. В первой, простей­шей модели мы будем предполагать, что мощность стратегии, т. е. доход, который может быть извле­чем из участка в течение некоторого, заранее фикси­рованного времени, не зависит от числа промышляю­щих на нем детей лейтенанта Шмидта и делится между ними поровну.

Что означает указанное предположение? Оно оз­начает, что если, например, один сын лейтенанта Шмидта за месяц может извлечь из участка 100 руб­лей, то двое детей извлекут из этого участка по 50 рублей каждый.

Вообще говоря, такое предположение не всегда оправдано — более естественно предположение о том, что общий доход с эксплуатируемого участка возрастает с ростом числа участников эксплуатации, однако, доля, приходящаяся на каждого, уменьшает­ся с ростом числа участников. Например, когда вы собираете в лесу грибы, то для вас очевидно, что чем больше пароду будет в облюбованном вами мес­те, тем меньше грибов вы принесете домой. С другой стороны, общее число грибов, которое будет собра­но, безусловно превысит то количество, которое вы могли бы собрать в одиночку.

В некоторых случаях достигаемый эффект зави­сит от числа участников более сложным образом. На-пример, при охоте на лося или кабана размер охот­ничьего трофея, приходящийся на одного охотника, с ростом числа людей участвующих в охоте, сначала

растет — очень велика вероятность того, что в оди­ночку вы вообще ничего не добудете,— и лишь за­тем начинает резко падать. Начнем, однако, для простоты с первого предположения.

Рассмотрим пример. Пусть имеется 10 игроков и число стратегий (участков) достаточно велико, т. е. превышает число игроков. Пусть мощность первого участка 100 руб. в месяц, а всех остальных участ­ков—по 40 руб. в месяц. Допустим, что двое са­мых проворных игроков захватят первый участок и будут получать по 50 руб. в месяц, тогда как осталь­ные восемь, распределившись по одному на осталь­ных участках, будут получать по 40 руб. в месяц. В этой ситуации никому невыгодно менять свой участок. Действительно. Мы отбрасываем, как совер­шенно неразумное, желание прийти вторым на уча­сток с доходом в 40 руб., так как имеется доста­точно свободных участков такой мощности. Перейти с участка с доходом в 40 руб. на участок с доходом в 100 руб. также невыгодно, так как там уже есть два человека и, совершив такой переход, игрок сни­жает свой доход с 40 руб. до 33'/з рубля. Переход с участка с доходом в 100 руб., где участник полу­чает 50 руб., на участок с доходом в 40 руб., также невыгоден. Таким образом, в нашем примере, когда на «богатом» участке функционируют два человека, а остальные участники игры расположены по одному на более «бедных» участках, возникает устойчивая ситуация — никому из участников игры невыгодно в одиночку изменять участок.

Такая ситуация, в которой ни одному из участни­ков игры невыгодно одному изменять свою стратегию, в теории игр называется ситуацией равновесия по Нэшу. Для обозначения ситуации равновесия по Нэшу мы будем использовать термин — точка Нэша.

Здесь уместно заметить, что с точки зрения внеш­него наблюдателя абсолютно безразлично, какие два игрока захватят богатый участок (хотя, как нетруд­но понять, это совсем не безразлично для самих участников). Все ситуации, в которых два человека разрабатывают богатый участок, а остальные по одному распределились на более бедных, являются точками Нэша. Точек Наша в игре может быть мно-го. Действительно, пусть в нашем примере имеются один богатый и двенадцать бедных участков. Тогда существует 45 различных пар участников, которые могут захватить богатый участок, 495 различных способов выбора восьми бедных участков и 40320 спо­собов, которыми восемь участников могут рас­пределиться по этим участкам. Если все эти числа перемножить, то получится число эквивалентных то­чек Нэша в данной игре, равное 898 128 000. Все они характеризуются одним и тем же суммарным доходом и одним и тем же средним доходом, прихо­дящимся на одного участника. Последнее число будем называть ценой точки (или партии) Нэша.

Обратим внимание на следующее обстоятельство: хотя никому из участников невыгодно в одиночку изменять свою стратегию, доход, получаемый всеми участниками, и цена партии не являются максималь­но возможными в этой игре, т. е. их можно увели­чить. В точке Нэша. суммарный доход равен 100 руб. + 8*40 руб.= 420 руб. и цена партии Нэша равна 42 руб. Если же на самом богатом участке разрешить находиться только одному участ­нику, то доход всех участников возрастет на 40 руб. и средний доход каждого участника возрастет до 46 руб. в месяц. Теперь обратим внимание на возни­кающие здесь возможности. В точке Нэша двое участников получают по 50 руб., а остальные по 40 руб. Однако если бы игроки могли договориться, то у двоих доход уменьшился бы на 4 руб. в месяц, зато у восьмерых он возрос бы на 6 руб. в месяц у каждого. Именно в этом месте необходима кон­венция.

Но мы уже видели, что способ, предложенный Балагановым — случайным образом распределить де­тей лейтенанта Шмидта по участкам, не гарантиру­ет устойчивости, а устойчивое распределение приво­дит к потерям. Какие же существуют возможности договориться?

Ограничимся вначале двумя участниками — Балагановым и Паниковским. Балаганову достался участок с доходом 100 руб. в месяц, а Паниковскому — с доходом 40 руб. в месяц. В случае нарушения Паниковским конвенции и его появления в Арбатове доход Балаганова уменьшается до 50 руб. и до той же суммы возрастает доход Паниковского, и нет та­кой силы, которая могла бы удержать Паниковского в Поволжье. Ситуация, в которой и Паниковский и Балаганов занимаются попрошайничеством и вымо­гательством в Арбатове, устойчива — ни одному из них невыгодно перебраться в Поволжье. А между тем, договорившись, они могут существенно повысить свой доход, а путей договориться по меньшей мере три. Во-первых, Балаганов может платить Паниковскому 10 руб. отступного (получая тогда 90 руб), чтобы Паниковский продолжал грабить доверчивых администраторов и общественников Поволжья. Од­нако наглый и вздорный Паниковский вряд ли, даже зная, что без договоренности ему больше не полу­чить, ограничится такой суммой. Во-вторых, Балага­нов и Паниковский могут договориться и периоди­чески меняться участками, что принесет им в среднем по 70 руб. в месяц. Однако естественное недоверие Балаганова к Паниковскому делают мало пригодным и этот способ. В-третьих, Паниковский и Балаганов могли бы просто делить все получаемые деньги по­ровну — такой способ мы будем называть общей кассой. Общая касса, равно как и предыдущий способ, требует определенного уровня доверия участников друг к другу. Кроме того, организация общей кассы может сама по себе потребовать допол­нительных расходов; однако, как бы обременительны они не были, нетрудно видеть, что в случае игры с общей кассой ситуация с максимальным суммар­ным выигрышем устойчива по Нэшу. Все сказанное, естественно, распространяется и на случай с любым числом участников.

Таким образом, мы рассмотрели условия некой игры, которую далее будем называть игрой в размещения, и на примере рассмотрели возникающие в ней устойчивые ситуации. Обстоятельства, модели­руемые этой игрой, могут быть весьма разнообразными. Нас же в этой задаче будет интересовать за­висимость дохода участников игры от их поведения, т. е. от смены стратегии в зависимости от величины текущего дохода.

Для изучения зависимости доходов участников игры от их поведения необходимо формализовать это поведение, т. е. построить модель игрока. Что мы будем понимать под моделью?

Понятие модели достаточно широко и неопреде­ленно. Моделью Паниковского, выбрасываемого из кабинета   арбатовского   предисполкома,   может служить мешок с опилками, модель же Паниковского, принимающего решение нарушить конвенцию, тре­бует более развитых изобразительных средств.

Как мы уже говорили выше, наши игроки стре­мятся лишь к личному обогащению. Единственным критерием, определяющим для них предпочтитель­ность той или иной стратегии, является доход, и, следовательно, модель такого игрока должна быть моделью устройства, оптимизирующего свой выигрыш на дискретном множестве действий. Здесь уместно вспомнить об автоматах, обладающих целесообраз­ным поведением в случайных средах. Подобные авто­маты как раз и являются устройствами, выбирающи­ми свои действия так, чтобы увеличивать свой выиг­рыш. Но для того чтобы ввести в нашу игру такие автоматы, мы должны несколько изменить условия самой игры.

Действительно, наши игроки получают в зависи­мости от выбранной стратегии тот или иной доход (или убыток), а автоматы получают на выбранной стратегии всегда одинаковый выигрыш или проиг­рыш, но с различными вероятностями. Подобное изменение правил игры не связано с принципиаль­ными затруднениями, а в случае с детьми лейтенан­та Шмидта быть может даже более желательно — нахальные отпрыски легендарного героя просят всегда по максимуму, но в зависимости от эксплуати­руемого участка их просьбы удовлетворяются с раз­личной вероятностью. Бывают случаи, когда резуль­татом являются потери, причем не только моральные, но и материальные.

Мощность стратегии будет характеризовать сред­ний выигрыш на этой стратегии при фиксированном значении единичной платы (выигрыша или проигры­ша). Так, например, если в 75 % случаев на данной стратегии игрок получает 200 руб., а в 25 % случаев он выплачивает ту же сумму, то его средний выиг­рыш на этой стратегии равен 100 руб. Средний вы­игрыш, равный 40 руб., обеспечивается 60 % выигры­ша и 40 % проигрыша тех же 200 руб.

Нетрудно понять, что для каждой игры, заданной мощностями стратегий в абсолютных выигрышах и проигрышах, можно построить эквивалентную игру, где выигрыши и проигрыши имеют фиксированное значение, но каждый раз определяются с вероятностью, зависящей от выбранной стратегии. Таким образом, мы далее будем рассматривать игры со случайными единичными выигрышами и проигрыша­ми, в которых в качестве игроков выступают автома­ты, обладающие целесообразным поведением в слу­чайных средах. Тем самым, вместо исходной ситуации мы имеем ее формальную модель, в которой мож­но изменять параметры: характеристики стратегий и характеристики игроков, и в зависимости от значе­ний указанных параметров изучать протекание игры. Игра состоит в последовательном разыгрывании пар­тий.

При описании автоматов, обладающих целесооб­разным поведением в случайных средах, мы ввели их характеристику—глубину памяти. Глубина памя­ти автомата характеризует, с одной стороны, его конструктивную сложность, а с другой, его способ­ность к усреднению. Она проявляется в длитель­ности времени, за которое автомат способен учиты­вать свои выигрыши и проигрыши. Мы можем счи­тать, что в нашей модели глубина памяти автоматов есть некоторая характеристика способностей игроков к оценке текущей обстановки, так сказать, их интел­лектуального уровня.

Как же зависят результаты игры от интеллекту­альных возможностей участвующих в ней игроков? Здесь уместно еще раз заметить, что понятие интел­лектуального уровня весьма условно и относится только к способности усреднять свои выигрыши и проигрыши. Игроки располагают примитивной инфор­мацией об игре. Они не знают ни числа остальных участников игры, ни сложившейся в игре ситуации, ни даже того, в какую игру они играют. Ничего, кроме собственных выигрышей и проигрышей, на ос­новании которых игроки (автоматы) выбирают свои стратегии. Но именно этот примитивизм позволяет изучать возникающие в игре эффекты в чистом виде.

Поскольку для внешнего наблюдателя все игроки одинаковы, а при случайных выигрышах и проигры­шах автоматы, вообще говоря будут некоторым слу­чайным образом блуждать по стратегиям, то мы будем характеризовать результаты игры математи­ческим ожиданием среднего выигрыша автомата в игре, что эквивалентно математическому ожиданию суммарного выигрыша всех автоматов в игре.

Анализ поведения целесообразных автоматов в этой игре показывает, что с ростом глубины памяти, т. е. с ростом целесообразности поведения такого ав­томата в стационарной случайной среде, растет целе­сообразность его поведения в игре. Последнее озна­чает, что с ростом глубины памяти растет и средний выигрыш автоматов в игре, стремясь к цене партии Нэша так, как показано на рис. 3.1.

Как мы уже говорили, средний выигрыш в партии Нэша отличен от максимально возможного в иг­ре. Мы также видели, что введение процедуры общей кассы делает партию максимальной цены ус­тойчивой по Нэшу. Устойчивая по Нэшу партия мак­симальной цены называется точкой Мора или пар­тией Мора. На рис. 3.2 приведена зависимость сред­него выигрыша автоматов от глубины их памяти в игре с общей кассой. Внешне эта зависимость мало чем отличается от зависимости в игре без общей кассы. Действительно, и в том, и в другом случаях с ростом глубины памяти средний выигрыш возра­стает и стремится к цене партии Нэша. Разница за­ключается в том, что во втором случае цена партии Нэша выше и называется ценой партии Мора. Какой же полезный вывод можно сделать из приведенных рисунков? Какую интересную и полезную информацию можно извлечь из модели? На первый взгляд, очень небольшую.

Мы увидели, что для достижения точки Нэша необходимо обладать достаточно большой глубиной памяти. В противном случае игроки будут мешать друг другу, снижая тем самым средний выигрыш. Но даже при достаточной глубине памяти для дости­жения максимального выигрыша необходимо при­бегнуть к процедуре общей кассы, т. е. достичь сог­лашения. Постараемся, однако, более внимательно изучить результаты моделирования и совместим рис. 3.1 и рис. 3.2. При этом (рис. 3.3), сразу же обращает на себя внимание следующий факт: процедура общей кассы становится выгодной, лишь начиная с некоторого уровня сложности (!). Выиг­рыш автоматов в игре с общей кассой при глубине памяти ниже критической меньше, чем в игре без общей кассы.

М. Л. Цетлин называл этот эффект «вредом урав­ниловки при низкой сознательности». Вред, однако, зависит не столько от сознательности, сколько от способностей. Действительно, в игре с общей кассой от игрока требуется более тонкая оценка результа­тов своего поведения, чем в игре без общей кассы, где выигрыши и проигрыши более явно зависят от собственного поведения. Процедура общем кассы маскирует зависимость результата от индивидуаль­ного поведения.

Для пояснения сказанного на несколько минут отвлечемся от нашего изложения. Представьте себе молодую девушку, поступившую на химический завод. В ее обязанности входит наблюдение за показаниями приборов. Девушка, как, впрочем, и все ос­тальные работники цеха, получают премию, если качество продукции, выпускаемой цехом, находится в пределах допустимых норм. В течение первых двух месяцев работы девушка читала интересную книгу, от которой она не могла оторваться даже в рабочее время, и очень редко поглядывала на при­боры. На ее счастье в это время не происходило никаких неприятных отклонений процесса от нор­мы, и оба месяца она благополучно получала пре­мию. К началу третьего месяца книга кончилась, новой интересной книги не было и девушке не ос­тавалось ничего иного, как смотреть на приборы. Од­нако именно в этом месяце по причинам, никак не связанным с параметрами процесса, за которыми сле­дила наша героиня, цех дал большое количество брака и премии не было. Трудно предположить, что девушка не сделает вывода о независимости пре­мии от ее поведения. Если бы, с другой стороны, премия с оператора снималась только за незамечен­ные отклонения процесса от нормы, то для правиль­ного выбора линии поведения потребовалось бы го­раздо меньше сообразительности.

Вернемся, однако, к нашей модели. Уже такая простая модель позволяет сделать весьма важный вы­вод—работа по общему критерию становится выгод­ной только при достаточно развитых локальных сред­ствах принятия решений. Если эти средства не обла­дают достаточной сложностью, то, исходя из общего суммарного эффекта, выгоднее, когда каждый участник ориентируется на свой локальный критерий и стремится увеличить свой собственный доход.

На одной из международных конференций нам был задан вопрос: «Не означает ли приведенный вами результат, что при простых средствах управления выгоднее капитализм, а после достаточного раз­вития  средств управления становится выгоднее социализм?»

При всей примитивности постановки вопроса, здесь содержится зерно истины. Для полного ис­пользования всех преимуществ социалистического строя необходимы высокоэффективные средства уп­равления. Недаром Владимир Ильич Ленин говорил: «Социализм — это прежде всего учет». Именно по­этому партия и правительство придают такое большое значение совершенствованию управления.

В заключение разговора о модели «игры в раз­мещения» заметим, что система обладает определен­ного рода надежностью—при выходе из игры одного из участников остальные перераспределяются так. чтобы освободилась стратегия с наименьшей мощ­ностью. Именно про такую ситуацию говорят: «Когда в учреждении снимают директора, освобожда­ется вакансия уборщицы».

§ 3.2. Когда все одинаковые

Давайте теперь несколько усложним нашу модель. Чем вызвана необходимость ее изменения?

Во-первых, предположение о независимости дохо­да на данной стратегии от числа выбравших эту стра­тегию игроков, как мы уже отмечали в предыду­щем параграфе, не всегда соответствует действи­тельности.

Во-вторых, рассмотренная нами модель имеет содержательный смысл только тогда, когда число игроков меньше числа стратегий. В самом деле, мы оценивали результаты поведения игроков в игре по величине среднего выигрыша, приходящегося на од­ного игрока, или, что эквивалентно, по величине суммарного дохода, получаемого всеми игроками. Нетрудно видеть, что если выигрыш на стратегии не зависит от числа выбравших ее игроков, то любое распределение игроков по стратегиям, при котором на каждой из них имеется по крайней мере по одно­му игроку, обеспечивает максимальный суммарный доход. Более того, с ростом числа игроков будет рас­ти вероятность того, что случайное распределение игроков по стратегиям будет обеспечивать макси­мальный суммарный доход.

Содержательный смысл модели для большого числа участников восстанавливается, как только мы введем зависимость мощности стратегии от числа выбравших ее игроков. Рассмотрим, какими могут быть эти зависимости.

Прежде всего можно считать, что суммарный до­ход на любой стратегии ограничен некоторой величи­ной. Это означает, что каким бы не было ограничение, начиная с некоторого числа игроков, выбравших данную стратегию, доля, приходящаяся на одного иг­рока, с ростом их числа должна стремиться к нулю, т. е. монотонно убывать. Типичные зависимости тако­го рода приведены на рис. 3.4 и рис. 3.5.

Следует заметить, что модель тем привлекатель­нее, чем меньшее число параметров ее задает. Поэто­му постараемся обеспечить в модели возможность исключения такого параметра, как число игроков. Для этого введем зависимость общего дохода на стра­тегии не от числа участников, выбравших данную стратегию, а от их доли от общего числа игроков. Тогда одни и те же функции выигрыша будут опре­делять игру для любого числа участников. Для простоты дальнейшего изложения остановимся на случае двух стратегий.

Теперь игра задается двумя функциями — зависимостью дохода игроков, выбравших первую страте­гию, от их доли от общего числа игроков и зависимостью дохода игроков, выбравших вторую стратегию, от их доли от общего числа игроков. Нетрудно понять, что обе функции можно представить в виде зависимости от одной переменной — доли игроков, выбравших первую стратегию, так как, задав эту долю, мы автоматически определяем долю игроков, выбравших вторую стра­тегию,— это все осталь­ные игроки. Пример та­ких функций приведен на рис. 3.6.

Как мы уже отметили, выигрыш каждого игрока уменьшается с ростом чи­сла игроков, выбравших одинаковую с ним стра­тегию. С другой стороны, переход игрока, например,

со второй стратегии на первую увеличивает выигрыш игроков, оставшихся на второй стратегии. Какова же ситуация равновесия в такой игре, если игроки инте­ресуются только своими индивидуальными выиг­рышами?

Из рис. 3.6 видно, что правее точки а0 выигрыш каждого участника на второй стратегии выше, чем на первой, к смена первой стратегии на вторую выгодна для игрока. Однако переход игрока с первой страте­гии на вторую уменьшает долю игроков, выбравших первую стратегию, смещая ее к точке а0. Левее точки а0 выгоднее оказывается первая стратегия, и пе­реход игроков со второй стратегии на первую увели­чивает долю игроков на первой стратегии, смещая ее к точке а0. В точке же а0 выигрыши на обеих стра­тегиях одинаковы. Если в точке а0 игрок перейдет с первой стратегии на вторую, то доля игроков, выбрав­ших первую стратегию, уменьшится и соответственно уменьшится выигрыш на второй стратегии, что дела­ет такой переход невыгодным для игрока, осуществ­ляющего этот переход. Аналогично в точке а0 оказы­вается невыгодным для игрока переходить со второй стратегии на первую. Таким образом, распределение игроков по стратегиям, соответствующее точке а0, устойчиво, никому из игроков невыгодно изменять свою стратегию, т. е. точка а0 является в этой игре точкой Нэша.

Рассмотрим численный пример. Пусть имеются два лесозаготовительных участка и 100 рабочих, ко­торые могут свободно выбирать себе место работы. На каждом участке количество заготавливаемого леса растет с ростом числа работающих на участке, но производительность труда каждого рабочего, а следовательно, и его зарплата, уменьшаются с увеличением этого числа. Подобный эффект может определяться различными причинами, такими, как особенности организации труда, наличием техники, зависимостью размера премиального фонда от рас­ходования фонда зарплаты и т. п.

Обозначим через Х число рабочих на первом уча­стке, а через Y число рабочих на втором участке, и пусть количество леса, заготавливаемое на участках и измеренное в зарплате, выплачиваемой при этом рабочим, определяется функциями

для первого участка 400*Х—0,02*Х3,

для второго участка  280*Y— 0,4*Y2.

Тогда, если 80 рабочих будут работать на первом участке, то общая выработка на этом участке будет равна 21 760 руб., т. е. по 272 руб. на человека. На втором участке при этом будут работать 20 человек, которые обеспечат выработку 5440 руб., т. е. те же, что и на первом участке 272 руб. на одного рабочего. Суммарная выработка на обоих участках равна 27 200 руб., и ни одному из рабочих не выгодно изме­нять место своей работы. Действительно, например, переход рабочего со второго участка на первый уменьшает его заработок на 3 руб.

Однако обратим внимание и на другой процесс. Если рабочий перейдет с первого участка на второй, то его зарплата, равно как и зарплата двадцати ра­ботающих на этом участке рабочих, уменьшится на 40 коп. у каждого. При этом на первом участке у 79 оставшихся там рабочих зарплата возрастет на 3 руб. у каждого. Таким образом, общая выработка на двух участках возрастает за счет рабочих, рабо­тающих на первом участке, на 237 руб. и уменьшится на 8 руб. 40 коп. за счет работающих на втором уча­стке.

Из сказанного видно, что, с одной стороны, распределение рабочих по участкам, при котором 80 че­ловек работают на первом участке, а 20 на втором устойчиво по Нэшу, но, с другой стороны, переход рабочих с первого участка па второй приводит к уве­личению общей производительности. Общая выработ­ка достигает максимума, когда на первом участке остается 51 человек, а остальные 49 работают на вто­ром участке. При этом общая выработка на первом участке становится равной 17748 руб., при заработке каждого рабочего, равном 348 руб., а на втором уча­стке выработка достигает 12740 руб., при заработке каждого рабочего в 260 руб. Выработка на обоих участках при этом возрастает по сравнению с точ­кой Нэша на 12 % и достигает 30488 руб. Для боль­шей наглядности все данные сведены в табл. 3.1.

Таблица 3.1

 

 

Точка Нэша

Точка Мора

Зарплата на первом участке

272

348

Зарплата на втором участке

272

260

Средняя зарплата

272

304,88

Доход на первом участке

21 760

17748

Доход на втором участке

5 440

12740

Суммарный доход

27200

30488

Естественно, что при свободном выборе места ра­боты последнее распределение неустойчиво. Увели­чение заработка па 88 руб. в месяц оправдывает стремление рабочих к переходу со второго участка на первый. Как мы уже отмечали в предыдущем па­раграфе, устойчивость по Нэшу партии максималь­ной цены можно обеспечить введением процедуры об­щей кассы. В нашем примере это означает, что зар­плата рабочих не зависит от того, на каком участке они работают, и определяется суммарной выработкой на обоих участках. В этом случае в партии Мора, т. е. партии максимальной цены, устойчивый по Нэшу заработок каждого рабочего будет равен 304 руб. 88 коп., что превышает заработок в точке Наша. Но для обеспечения устойчивости такого распределения мы должны за разные результаты труда на втором участке платить существенно больше, чем на первом. Как это ни парадоксально, но такое неравенство оплаты за равные результаты труда оказывается вы­годным с учетом общих интересов. Так же выгодной с учетом общих интересов оказывается работа части рабочих с заниженной производительностью труда.

Здесь следует заметить, что, конечно, задача об оптимальном распределении рабочих по участкам может быть решена централизованно. Для этого доста­точно установить на обоих участках оптимальную штатную численность. Однако такое решение пробле­мы, во-первых, будет приводить к явному неудовольствию рабочих по поводу поддержания оптимального соотношения численностей на участках, не говоря уже о социальных проблемах, связанных с явным неравенством в оплате, и, во-вторых, потребует централи­зованного решения задачи об оптимальном распреде­лении трудовых ресурсов. С другой стороны, управле­ние способом оплаты обеспечивает децентрализован­ное решение проблемы распределения, порождаемое совместным (коллективным) поведением самого тру­дового ресурса.

Заметим также, что приведенная нами содержа­тельная интерпретация задачи не исчерпывает все моделируемые такой игрой ситуации. Ряд содержа­тельных примеров легко продолжить как в социаль­ных и производственных, так и в технических систе­мах.

Теперь вернемся к изучению поведения участни­ков рассмотренной игры, которую будем называть «игрой в распределения».

Во-первых, нам надо перейти от функций, опреде­ляющих величины выигрыша, к функциям, опреде­ляющим вероятности единичных выигрышей и проиг­рышей, и, как мы уже говорили, сделать эти функ­ции зависящими не от абсолютного числа игроков, выбравших ту или иную стратегию, а от их доли, С методикой первого перехода мы уже познакомились в предыдущем параграфе. Второй переход так­же не связан с какими-либо трудностями. Рассмот­рим числовые данные предыдущего примера.

Пусть а1 и а22=1—а1) — доли автоматов, вы­бравших в некоторой партии игры первую и вторую стратегии соответственно. Пусть P1 и P2 —вероятности единичного выигрыша, равного для нашего примера 400 руб., и, значит, (1—p1) и (1—p2)вероятности единичного проигрыша той же суммы. Тогда функции, задающие игру, определяют математическое ожидание единичного выигрыша при

p1==1—0,25а12  и p2==0,85—0,05а2.

При а1==0,8 и а2==0,2 автоматы, выбравшие первую стратегию, будут выигрывать с вероятностью 0,84 и проигрывать с вероятностью 0,16. Если, как мы пред­положили, единичные выигрыши и проигрыши равны :±400 руб., то математическое ожидание выигрыша на первой стратегии будет равно (0,84—0,16)*400=272 руб., что совпадает с выигрышем в точке Нэша.

Рассмотрим зависимость выигрыша автоматов, моделирующих игроков, от глубины их памяти. Пусть в игре участвуют простейшие автоматы, т. е. автома­ты, которые при выигрыше сохраняют свое действие, а при проигрыше немедленно его изменяют. Легко понять, что вероятность смены действия для такого автомата равна вероятности проигрыша при этом действии. Следовательно, при достаточно большом числе автоматов и при постоянной вероятности проигрыша, в силу закона больших чисел, в каждый мо­мент времени постоянное число автоматов будет по­кидать данную стратегию. Но сказанное справедливо для всех стратегий, и, следовательно, некоторое по­стоянное число автоматов будет в каждый момент приходить на данную стратегию. При этом возможна ситуация динамического равновесия, т. е. ситуация, в которой число покидающих стратегию автоматов рав­но числу выбирающих ее. Для нашего примера такая ситуация определяется уравнением баланса

(1 —p1)a1 = (1 —p2)a2  или 0,25а13 =(0,15+0,05а22.

Решением этого уравнения служит а1=0,63 и а2==0,37. При этом в каждый момент времени 0,63 всех автоматов будет изменять свою стратегию с пер­вой па вторую и столько же автоматов будет перехо-дить со второй стратегии на первую.

Ситуацию динамического равновесия, порождаемую поведением в игре простейших автоматов, т. е. таких автоматов, у которых вероятность смены дей­ствия равна вероятности штрафа, будем называть точкой Антоса. Увеличение глубины памяти автоматов уменьшает вероятность смены действия. Однако для каждой вероятности смены действия существует ситуация динамического равновесия, которая, как мы уже говорили выше, с ростом глубины памяти стремится к точке Нэша. Теперь средний выигрыш в игре зависит от взаимного расположения точек, со­ответствующих партиям игры. Обозначим через аA долю автоматов, выбравших первую стратегию в пар­тии Антоса, через aн долю автоматов, выбравших первую стратегию в партии Нэша, и через ам—долю автоматов, выбравших первую стратегию в партии максимальной цены.   Пусть   ан> >аАм, что, кста­ти, имеет место в нашем примере, где ан= =0,8, аА==0,63, ам= =0,51. Тогда с ростом глубины памяти рас­пределение автоматов по стратегиям будет удаляться от партии максимальной цены к партии Нэша и средний выигрыш автоматов будет падать. Действительно, в нашем примере средний выигрыш  автоматов  в   партии Антоса  равен 299,28 руб., а в партии Нэша — 272 руб. На рис. 3.7, 3.8, 3,9 приведены типы зависимости среднего выиг­рыша от глубины памяти автоматов при различных типах взаимного расположения точек, соответствую­щих партиям игры.

Рис. 3.7. демонстрирует нам класс игр, в которых наибольшего эффекта добиваются самые примитив­ные автоматы. Наиболее интересен класс игр, приве­денный на рис. 3.9. В этих играх точка максимальной цены находится между точкой Антоса и точкой Нэша. При этом существует промежуточная и, что наиболее важно, конечная глубина памяти, при которой без процедуры общей кассы достигается партия макси­мальной цены.

Последний факт наводит на размышления о воз­можности организации внешнего оптимизирующего управления, проявляющегося на фоне децентрализо­ванного поведения участников игры. Это управление может быть организовано путем такого искажения функций, определяющих выигрыш на стратегиях, что­бы партия максимальной цены переместилась в интервал между точкой Антоса и точкой Нэша. По­добную деформацию платежных функций можно орга­низовать, например, путем введения некоторого нало­га. Содержательный смысл его введения заключается в том, что прибавление и вычитание констант не из­меняет положения партии максимальной цены, сме­щая вместе с тем положение точек Антоса и Нэша. Более того, константу можно выбрать так, что точка Антоса совпадет с точкой, соответствующей партии максимальной цены, а это означает, что максималь­ного выигрыша в такой игре будут добиваться про­стейшие автоматы.

Возвратимся к нашему численному примеру. Если из суммарного заработка на первом участке изъять 2250 руб. и передать их на второй участок, то точка Антоса совпадет с точкой, отвечающей партии мак­симальной цены, и вероятности выигрыша будут равны

Для тех, кто знаком с теорией игр, должно быть ясно, что указанная процедура эквивалентна реализа­ции оптимальных смешанных стратегий. Заметим также, что для осуществления указанного механизма управления необходимо централизованное определе­ние величины постоянного налога.

Если в игру вводится процедура общей кассы, то выигрыш каждого игрока перестает зависеть от того, какую конкретно стратегию выбрал персонально дан­ный игрок—когда все заработки складываются в общий котел, то все получают одинаково. При этом, однако, величина заработка зависит от того, как иг­роки распределены по стратегиям.

Игра, в которой выигрыш игрока не зависит от того, какую стратегию он выбрал, а зависит лишь от распределения игроков по стратегиям и одинаков для всех участников игры, называется игрой Гура.

Поскольку в игре Гура выигрыши всех автоматов одинаковы, то одинаковы для всех автоматов и вероятности сменить действие и, следовательно, точка Антоса для такой игры независимо от вида платеж­ных функций есть партия, в которой автоматы рас­пределены по стратегиям поровну. Казалось бы, что ситуация в игре Гура не должна изменяться и с ростом глубины памяти участвующих в игре автома­тов — если глубина памяти у всех автоматов одина­кова, то одинаковы и вероятности смены действия, Здесь, однако, срабатывает другой механизм. С рос­том глубины памяти экспоненциально уменьшается вероятность смены действия. Время пребывания ав­томата на стратегии обратно пропорционально веро­ятности смены действия. Чем меньше вероятность проигрыша в некоторой партии игры, тем дольше автоматы пребывают в этой партии. Когда глубина памяти автоматов становится достаточно большой, то даже небольшая разница в вероятностях проигрыша приводит к весьма существенной разнице в вероят­ностях смены действия и, следовательно, в средних временах сохранения неизменности партии. Матема­тический анализ поведения автоматов в игре Гура показывает, что с ростом глубины памяти автоматы начинают преимущественно выбирать стратегии с максимальным временем сохранения неизменности партии, т. е. с максимальным выигрышем.

Заметим, однако, что хотя автоматы с достаточно большой глубиной памяти достигают выигрыша, до­статочно близкого к оптимальному, так как резко увеличиваются времена сохранения неизменности партий, выход на партию максимальной цены с ро­стом глубины памяти требует экспоненциально рас­тущего времени. Последнее соображение полезно по двум причинам.

Во-первых, оно показывает, что выводы, которые делаются на основании рассмотрения средних вели­чин, не всегда справедливы — при таком анализе средних величин в игре Гура автоматы всегда долж­ны разыгрывать партию Антоса.

Во-вторых, игра Гура достаточно хорошо демон­стрирует одну из основных трудностей оптимиза­ции — за достижение оптимума подчас приходится платить так дорого, что оно становится бессмыслен­ным.

Типичным примером являются, например, неко­торые блоки оптимизации в операционных системах вычислительных машин. Если такой блок за 2 ч ра­боты на 5 % увеличивает пропускную способность вычислительной машины, то даже при ее круглосу­точной работе действительная производительность машины не возрастает, а падает на 3 %.

Особенно важно помнить об этом, имея дело с за­дачами оперативного управления — время выхода на оптимальный режим может оказаться таким боль­шим, что к моменту окончания переходного процесса мы окажемся в совершенно новой ситуации, где все надо начинать сначала. С подобной ситуацией мы уже сталкивались, когда говорили о переключаемых случайных средах. Для задачи оперативного управ­ления особенно важны механизмы, которые обеспечи­вают выход на оптимальные режимы при высоко ла­бильных участках, т. е. на нашем модельном уровне, при автоматах с небольшой глубиной памяти.

В заключение данного параграфа заметим, что если в игре Гура средний выигрыш возрастает с ростом глубины памяти, то он уменьшается с ростом числа участников игры. Это и понятно — чем большее число игроков участвуют в игре, тем труднее при про­цедуре общей кассы понять характер зависимости ин­дивидуального выигрыша от индивидуального пове­дения. С этой точки зрения, если метод бригадной оплаты, т. е. общая касса для малой группы, имеет смысл, то реализация того же принципа для большо­го коллектива, например для цеха, выше человече­ских возможностей.

§ 3.3. Распределение ограниченного ресурса

Каждый раз, говоря о коллективном поведении, мы имеем ввиду коллективное поведение объектов в некой системе. При организации такого поведения нас интересует, безусловно, достижение определенных си­стемных целей, удовлетворение общесистемных кри­териев  качества  функционирования.  При этом (и здесь основной смысл организации децентрализо­ванного управления) отдельный объект не имеет ин­формации об общих целях системы. Объект знает только свои локальные цели, локальные критерии, локальные функции предпочтения. Управление систе­мой организуется путем формирования таких локаль­ных условий и, быть может, таких правил локального взаимодействия, при которых удовлетворение локаль­ных интересов отдельных объектов, составляющих систему, приводило бы к удовлетворению общеси­стемных целей.  И здесь возникает естествен­ный вопрос о том, что же является тем объ­ектом в системе, локальное поведение которого мы организуем.

В предыдущих параграфах данной главы мы рас­смотрели две игры — игру в размещения и игру в распределения (игру Гура). В обеих играх эффек­тивность функционирования системы зависела от рас­пределения ограниченного числа участников игры по стратегиям. В качестве примера мы говорили о рас­пределении трудового ресурса по местам работы. Ресурсом в этих задачах могли служить объекты са­мой различной природы, например, задания, вы­полняемые в многопроцессорной вычислительной система. Существенным здесь было то, что мы «персонифицировали» типы ресурса- и занимались организацией их коллективного поведения.

Вместе с тем, в качестве объектов, составляющих систему, можно рассматривать и потребителей ресурса. Тогда нас будет интересовать проблема организа­ции их совместного поведения, обеспечивающего оп­тимизацию общесистемного эффекта использования ресурса.

Задача об оптимальном распределении ресурса между потребителями имеет смысл только тогда, когда этот ресурс ограничен. В качестве ресурса мо­гут выступать самые различные объекты: деньги, энергия, сырье, машины ч т. п. Существенно здесь то обстоятельство, что каждый потребитель, используя некоторое количество ресурса, добивается определен­ного эффекта. Для того чтобы задача о распределе­нии ресурса имела смысл, необходимо также, чтобы в пределах всей системы эти эффекты были соизме­римы. Поиск такой общей меры является самостоя­тельной задачей и в ряде случаев (если не в боль­шинстве), не привносится в систему «сверху», а так­же порождается совмест­ным    функционированием подсистем. Здесь, однако, мы будем предполагать, что такая мера существует.

Рассмотрим   несколько примеров. Пусть у нас име­ется система, состоящая из k объектов и одного обслу­живающего устройства (рис. 3.10). Обслуживающее ус­тройство  периодически  с периодом длительности Т через коммутатор подклю­чается к каждому обслу­живаемому объекту и работает с ним в течение времени tk. При этом очевидно, что Сумма( tk )=Т. Дли­тельность периода Т выступает здесь в качестве огра­ниченного ресурса, распределяемого между объекта­ми обслуживания. На каждом объекте в результате обслуживания его в течение времени tk достигается эффект, равный Фиk(tk). Заметим опять, что все эф­фекты соизмеримы, т. е. измерены в одних и тех же единицах. При этом могут существовать различные системные критерии качества функционирования.

Предположим, что в качестве объектов выступают следящие устройства с импульсным регулированием через один и тот же регулятор (обслуживающее устройство). Качество функционирования каждого сле­дящего устройства, зависящее при заданном периоде от скважности сигналов регулятора, определяется, например, среднеквадратичным отклонением от от­слеживаемой величины. Поведение системы опреде­ляется среднеквадратичным отклонением наихудшего устройства. В этом случае наилучшее поведение си­стемы получается при достижении min max Фиk(tk). Нетрудно понять, что этот критерий удовлетворяется в том случае, когда среднеквадратичные ошибки во всех устройствах одинаковы. Действительно, если при определенном распределении времен обслужива­ния в течение периода в одном из каналов слежения ошибка больше, чем в других, то имеет смысл увели­чить время обслуживания этого следящего устрой­ства путем некоторого увеличения ошибки в других каналах. Здесь мы исключаем из рассмотрения такие экзотические случаи, когда распределение времен об­служивания, обеспечивающее равные ошибки во всех следящих устройствах, вообще недостижимо. Для это­го. достаточно предположить, что ошибки в этих уст­ройствах монотонно уменьшаются при уменьшении скважности регулирования. Оптимальное распределе­ние ресурса в таком случае определяется решением системы уравнений

Фиk(tk) - Лямбда = 0,  (k=1, k);   Сумма (tk) = T.

В качестве общесистемного критерия может выступать и просто арифметическая сумма эффектов, которые возникают у потребителей ресурса, как, на­пример, было с лесозаготовительными участками в приведенном выше примере (см. § 3.2). В системе, структура которой изображена на рис. 3.10, такой эффект функционирования системы может опреде­ляться суммарным достигаемым эффектом и поведени­ем системы, обеспечивающем приближение к Сумма[Фиk(tk)]. В этом случае, как следует из теории нелинейного программирования, оптимальное распределение до­стигается в ситуации,. определяемой решением системы уравнений

,

где К имеет смысл цены на единицу используемого ресурса. В дальнейшем мы ограничимся ука­занными двумя типами задачи о распределении ресурса, хотя могут рассматриваться весьма разнооб­разные ее постановки. Например, имеет самостоятель­ный интерес задача о минимизации общего количе­ства используемого ресурса при фиксированной сум­ме эффектов, достигаемых потребителями ресурса.

Как мы уже говорили, нас в задаче о распределе­нии ресурса интересует организация коллективного поведения в условиях децентрализации, обеспечиваю­щая решение, состоящее в удовлетворении общеси­стемного критерия функционирования. В этом пара­графе мы займемся рассмотрением организации кол­лективного поведения потребителей ресурса.

При такой организации поведения мы, однако, не можем исключить из рассмотрения еще одного участ­ника — владельца ресурса. О какой же децентрализа­ции может идти речь при наличии центрального объекта, который располагает ресурсом и раздает его потребителям?

Заметим, что мы рассматриваем децентрализацию. поведения при оптимизации и, следовательно, ресур-содержатель не должен решать никаких оптимизаци­онных задач. Более того, мы будем стремиться к то­му, чтобы обмен информацией в системе был доста­точно простым, например, сводился бы к тому, чтобы потребители ресурса посылали в центр заявку на же­лательное количество ресурса, а центр достаточно простым способом на основании полученных заявок делил бы его между потребителями. Наиболее про­стой способ такого распределения—распределение всего ресурса пропорционально поступившим заяв­кам. Тогда, если хk — количество указанного в заяв­ке k-го потребителя ресурса, то количество выделяе­мого ему ресурса равно

Теперь возникает естественный вопрос — существуют ли локальные правила формирования заявок на ресурс при описанном способе его распределения, обеспечивающие оптимизацию поведения системы по общесистемному критерию?

Рассмотрим задачу с минимаксным критерием. Допустим вначале, что центральное устройство на­значает величину л и сообщает ее всем потребителям ресурса, а потребители ресурса указывают свои за­явки на ресурс так, чтобы сделать получаемый ло­кальный эффект равным Лямбда. Тогда, если у потребителя эффект меньше Лямбда, он увеличивает заявку, а если больше — уменьшает ее. Если все потребители уменьшают свои заявки, то это означает, что Лямбда мень­ше, чем необходимо, а если увеличивают, то Лямбда боль­ше, чем необходимо. В связи с этим центр ведет себя следующим образом: уменьшает Лямбда, если сумма заявок меньше наличного количества ресурса, и увеличива­ет Лямюда, если наличное количество ресурса меньше сум­мы заявок на него. В ситуации, когда все эффекты равны Лямбда и сумма запрошенного ресурса равна налич­ному его количеству, система находится в устойчивом равновесии. Заметим, однако, что мы нарушили анон­сированный выше принцип — центральное устройство занимается регулированием значения Лямбда. Кроме того, центральное устройство должно сообщать потреби­телям текущее значение Лямбда. С другой стороны, если весь ресурс распределяется пропорционально подан­ным заявкам, то количество выделяемого потребите­лю ресурса несет информацию о соотношении суммы запросов и наличного запаса ресурса. Этой информа­цией можно воспользоваться и находить свои запро­сы на шаге (Тау + 1) следующим образом:          

При этом ситуацией равновесия будет ситуация, в ко­торой весь ресурс распределяется между потребите­лями и достигаемые эффекты у всех потребителей одинаковы и равны

Коэффициент Альфа определяет «чувствительность» потребителя, т. е. степень его инерционности. В этом смысле он некоторым образом аналогичен глубине Памяти автоматов в рассмотренных выше моделях поведения. Точность достижения оптимума растет с уменьшением Альфа, но при этом падает способность опе­ративно реагировать на изменение условий функцио­нирования.

Мы уже отмечали выше, что в случае максимиза­ции суммарного эффекта от распределения ресурса, Лямбда имеет содержательный смысл цены единицы ресур­са и условие системного максимума выполняется то­гда, когда достигают максимума локальные функции пользы, представляющие собой разность между эф­фектом от использования ресурса и стоимостью по­следнего. При этом количество запрашиваемого ре­сурса мы можем интерпретировать, как некую сумму денег, направляемую в центр для его приобретения. Осуществив распределение ресурса между потребите­лями пропорционально присланным деньгам, центр тем самым устанавливает и цену единицы ресурса, равную отношению общей суммы присланных денег к числу распределенных единиц ресурса. Таким обра­зом, количество запрашиваемого ресурса выражается в стоимости полученного ресурса. Тогда общесистем­ный критерий удовлетворяется, если каждый потре­битель формирует свой запрос так, чтобы максими­зировать разность между достигнутым от использо­вания ресурса эффектом и посылаемой заявкой на ресурс. При этом в принципе безразлично, какие алго­ритмы и какие вычислительные средства применяет потребитель для поиска своего локального экстрему­ма. Важно, что мы сформулировали простые и одно­значные правила поведения центра и локальные кри­терии, следование которым обеспечивает децентрали­зованный поиск общесистемного экстремума.

Демонстрация таких возможностей и была целью настоящего параграфа.

§ 3.4. Что дает случайное взаимодействие

Во всех рассмотренных в данной главе моделях участник игры воспринимал результат поведения ос­тальных участников только как реакцию на его по­ведение некоторой более или менее сложно организо­ванной внешней среды. Никакой информацией не только о поведении, но даже о наличии других участ­ников автомат (или игрок) не располагал. Как было показано выше, в ряде ситуаций в дополнительной информации не было никакой необходимости, так как и без нее автоматы добивались целесообразного и даже оптимального поведения. Вместе с тем мы стал­кивались и с рядом не очень приятных характери­стик   поведения — требования    роста   сложно­сти процедуры принятия решений (глубины памяти автоматов), весьма быстрого роста времени достиже­ния оптимального поведения и т. п. И вообще термин «коллективное поведение» мало подходил к описы­ваемым ситуациям — речь скорее всего шла о моделях совокупного поведения, о поведении некоторого «автоматного газа». Когда мы произносим слово «коллектив», мы обычно подразумеваем некоторую структуру отношений, наличие обмена информацией, организацию взаимодействия между членами коллектива. Можно надеяться, что учет указанных свойств в рассматриваемых нами совокупностях автоматов может, с одной стороны, улучшить характеристики поведения и, с другой, оценить возможности и эффек­тивность различных типов организации взаимодей­ствия.

При попытках построить модели поведения со взаимодействием следует постоянно помнить, что только достаточно простые модели, зависящие от не­большого числа параметров, позволяет разобраться в эффектах, возникающих в этих моделях и моделируе­мых ими ситуациях.

Какие же типы взаимодействия мы можем отне­сти к простейшим? К таким типам с нашей точки зрения следует отнести случайное парное взаимодей­ствие и однородное взаимодействие с ограниченным числом соседей.

Случайное парное взаимодействие состоит в том, что в каждый момент времени (в каждой партии иг­ры) весь коллектив, вся совокупность автоматов случайным образом разбивается на пары. Б каждой паре может быть реализован акт обмена информацией, в результате которого происходит изменение действия или внутреннего состояния автомата. На следующем такте разбиение коллектива на пары происходит за­ново, также случайным и независимым от предыду­щего разбиения способом.

При взаимодействии с ограниченным числом сосе­дей для каждого члена коллектива указывается его окрестность — список участников игры, называемых соседями данного автомата по игре, с которыми он может осуществлять взаимодействие. Взаимодействие это может быть односторонним — автомат восприни­мает информацию от своих соседей ко игре или его выигрыш зависит от поведения его соседей по игре, но обратное в общем случае может быть неверным. Однородность ограниченного взаимодействия заклю­чается в том, что размеры окрестности для всех автоматов одинаковы. Таким образом, однородное взаимодействие задается однородным ориентирован­ным графом отношений.

Начнем изучение возможностей взаимодействия со случайных парных встреч.

При рассмотрении игры в размещения мы уже отмечали, что для обеспечения возможности догово­риться и, тем самым, обеспечить максимально возможный выигрыш можно организовать общую кассу, а можно, распределившись по одному на самых вы­годных участках, например циклически меняться ме­стами. Аналогичного эффекта нетрудно добиться, если повторять жеребьевку, например, каждый месяц. Однако трудности организации ежемесячных встреч не привыкших к дисциплине детей лейтенанта Шмид­та отчетливо демонстрируют все сложности такого способа централизованного управления. Столь же большие трудности (если не большие) встречаются на пути заочной жеребьевки и организации общей кассы. Однако эффект, эквивалентный эффекту вве­дения общей кассы, мог бы быть достигнут, если бы в конвенцию был включен пункт, обязывающий от­прысков героя при любой случайной встрече обмени­ваться участками. Если такие парные встречи дейст­вительно случайны и равновероятны, то механизм подобного взаимодействия обеспечивает каждому уча­стнику (естественно, при достаточном времени) пре­бывание в среднем одинаковое время на каждом уча­стке, т. е. выравнивает доходы всех участников игры. Для максимизации выигрыша при этом достаточно обеспечить первоначальное распределение всех игро­ков по одному на наиболее выгодных стратегиях и реализовать процедуру случайного парного обмена стратегиями.

Нетрудно видеть, что и в игре в распределения, если мы зададим некоторое начальное распределение игроков по стратегиям и организуем случайный пар­ный обмен стратегиями (первый тип взаимодействия), то начальное  распределение  будет  поддерживаться сколь угодно долго, так как при парном обме­не, порожденным любым механизмом разбиения на пары, число игроков, покидающих стратегию, будет равно числу игроков, выбирающих ее. С другой сто­роны, если разбиение на нары случайно и равнове­роятно, то средний выигрыш у игроков выравнивает­ся. Указанные соображения позволяют предположить, что таким образом организованная процедура взаимо­действия должна приводить к эффектам, эквивалент­ным введению общей кассы. Здесь, однако, представ­ляет интерес зависимость поведения автоматов в эк­вивалентной игре от глубины их памяти.

Обратимся снова к игре в распределения. Если автоматы, участвующие в игре, имеют минимальную глубину памяти, то указанное взаимодействие не из­меняет их поведения и, следовательно, автоматы ра­зыгрывают партию Антоса. С ростом глубины памя­ти таких автоматов их поведение стремится к пове­дению в игре с общей кассой, а разыгрываемая пар­тия — к партии Мора. Наиболее существенный эф­фект, возникающий здесь, как показывает анализ и моделирование поведения, состоит в том, что при данном типе взаимодействия и при любой глубине памяти средний выигрыш автоматов не меньше, чем максимальный выигрыш для данной глубины памяти в обычной игре и игре с общей кассой.

Первый тип взаимодействия, улучшая результаты поведения автоматов в игре и реализуя процедуру общей кассы без специального центрального устрой­ства, собирающего все выигрыши и делящего их по­ровну между игроками, не улучшает между тем ди­намики поведения коллектива. Сходимость к точке Мора остается столь же медленной.

Мы уже говорили выше, что в игре Гура чрезвы­чайно медленная сходимость объясняется тем, что при любой глубине памяти точкой динамического рав­новесия является точка, при которой автоматы рав­номерно распределены по стратегиям. Более того, в любой другой партии опять-таки при любой глубине памяти математическое ожидание изменения распре­деления автоматов по стратегиям направлено в сто­рону точки равномерного распределения. Можно предложить сравнительно простую процедуру случай­ного парного взаимодействия (взаимодействие второго типа), которая делает все партии игры Гура пар­тиями безразличного равновесия по математическому ожиданию смены распределения автоматов по стра­тегиям. Тогда опять средний выигрыш будет опреде­ляться временами выбора автоматом данной страте­гии.

Подобное взаимодействие, обеспечивающее опи­санный выше эффект, состоит в том, что когда авто­мат должен изменить свое действие в качестве ново­го выбирается действие, которое осуществляет парт­нер по паре. Если же в силу логики своей работы, автомат не должен изменять свое действие, то он не обращает никакого внимания на своего партнера по паре.

Эффект, достигаемый при этом типе случайного парного взаимодействия, оказывается замечательным. Если участвующие в игре автоматы имеют глубину памяти, равную п, то их средний выигрыш будет ра­вен выигрышу автоматов, имеющих глубину памяти 2n, в игре Гура без случайного парного взаимодей­ствия, а скорость сходимости к стационарному выиг­рышу будет такой же, как у автоматов с памятью п в обычной игре Гура. Заметим, что два связанных друг с другом автомата, каждый из которых имеет п состояний, образуют систему с n2 состояниями. Учитывая, что такая пара автоматов имеет четыре, а не две комбинации выигрыша и проигрыша, мы можем утверждать, что образование постоянных каолиций из автоматов дает степенное улучшение качества функционирования, тогда как случайное парное взаи­модействие обеспечивает экспоненциальное улучше­ние.

Совместное использование обоих типов случайного парного взаимодействия в игре в распределения обеспечивает проявление обоих указанных выше эф­фектов при достаточно большой глубине памяти. Од­нако введение второго типа случайного парного взаимодействия изменяет характер поведения в этой игре простейших автоматов.

Рассмотрим следующую ситуацию, моделируемую игрой в распределения. Пусть имеется несколько курортов. Привлекательность каждого курорта для отдыхающего там человека зависит от числа людей, выбирающих этот курорт одновременно с ним. Обыч­но в среднем привлекательность курорта падает по мере роста числа находящихся там курортников. Падение привлекательности курорта приводит к тому, что возрастает вероятность в будущем году поехать в новое место. Каждый из нас знает, как мучитель­на смена привычного места и сколь случайна процеду­ра выбора нового. Однако, как правило, мы не бро­саем монету и не тычем с закрытыми глазами пальцем в карту СССР, а начинаем интересоваться, где отдыхают другие люди. Окончательное решение приходит, когда жена сообщает вам, что Эльвира Евсеевна прекрасно провела лето под Мариуполем. Самое удивительное при этом, что, в общем, с учетом са­мых различных факторов, удовлетворенность провес денным отпуском в среднем во всех местах одинако­ва. Это наводит на мысль, что указанная процедура обеспечивает выход на точку Нзша, а способ выбора нового места весьма напоминает последний способ организации случайного парного взаимодействия.

Действительно, если читатель согласен не забивать себе голову аналитическими выкладками и готов поверить нам на слово, то оказывается, что в «игре в распределения» случайное парное взаимодействие, состоящее в том, что в случае смены действия в каче­стве нового действия выбирается действие партнера по паре, обеспечивает выход простейших автоматов на партию Нэша. Этот факт также замечателен, тах как без взаимодействия для обеспечения выхода на точку Нэша необходимы автоматы с бесконечно боль­шой глубиной памяти. Резкое снижение требуемого объема памяти играющих автоматов столь же суще­ственно снижает время, необходимое для выхода на стационарное распределение, и значительно улучшает характеристики поведения в случае изменения внеш­них условий. На рис. 3.11, 3.12 и 3.13 (на них 1 — случайное парное взаимодействие, 2—общая касса, 3—обычная игра) приведены зависимости среднего выигрыша автоматов от глубины их памяти при ком­бинированном способе случайного парного взаимодей­ствия для игр, рассмотренных на рис. 3.7, 3.8 и 3.9.

В структурированных коллективах, т. е. в коллек­тивах, для которых определена структура взаимодей­ствия, эффективность функционирования   каждого участника зависит от того, что он делает сам и что делают его непосредственные соседи по игре. Подоб­ная ситуация возникает, например, тогда, когда чле­ны коллектива располагаются в узлах некоторой сети связи или сети распределения некоторого ресурса, Примерами подобных ситуаций могут слу­жить сети связи или сети   вычислительных машин, где мы хотим организовать децентра­лизованное поведение, оптимизирующее неко­торые параметры си­стемы. В качестве та­ких параметров могут выступать производи­тельность или пропуск­ная способность, ре­активность    системы или   среднее   время ожидания,   стоимость и т. п. Децентрализо­ванное поведение при решении задач такого рода мы будем рас­сматривать в следую­щей главе. Здесь же нас будут интересовать не­которые эффекты, свя­занные собственно со взаимодействием,   по­рождаемым структурой связей в системе. Вве­денные выше требо­вания ограниченности взаимодействия и его однородности   вызва­ны следующими при­чинами:    ограничен­ность связана с тем, что в большинстве ре­альных технических сетей узлы сети имеют ог­раниченное число связей друг с другом, а однород­ность (так же, как и ограниченность) существенно упрощает изучение моделей.

В качестве примеров управляющих систем с сетевой структурой могут выступать также системы управления энергетическими или газораспределитель­ными сетями.

Мы будем говорить, что на однородном графе за­дана однородная игра с ограниченным взаимодейст­вием, если задана функция, определяющая доход иг­рока в зависимости от того, какое действие выбрал он сам и какие действия выбрали его соседи по игре. Естественно, что эта функция может зависеть и от внешних неконтролируемых участниками игры пара­метров. В силу однородности графа взаимодействия для задания игры достаточно задать всего одну та­кую функцию.

Рассмотрим некоторую условную ситуацию. Пусть у нас имеется водопроводная сеть, состоящая из рас­пределительных станций, соединенных между собой водоводами. Станция регулирует отпуск воды потре­бителям. Ее доход, с одной стороны, растет с увели­чением общего объема отпускаемой потребителям воды, но, с другой стороны, увеличение этого объема может привести к падению давления в магистралях, что вызовет определенные убытки и, следовательно, снижение дохода. При этом указанные зависимости определяются не только поведением самой станции, но и отбором воды из системы, осуществляемым бли­жайшими соседями станции. Аналогичные отношения возникают и в оросительных системах.

Приведенная содержательная интерпретация мо­дели игры с ограниченным взаимодействием весьма и весьма приблизительно описывает реальную ситуа­цию в подобных системах, но авторы надеются на снисходительность читателя. В принципе функции выигрыша могут учитывать все сложности оценки эффективности функционирования узла. Например, отказ станции включать насосы, обеспечивающий экономию электроэнергии. Существенно здесь лишь то обстоятельство, что доход каждого участника оп­ределяется только поведением его самого и его соседей из ближайшей окрестности.                   

В такой игре существуют устойчивые по Нэшу ситуации, когда никому из участников игры невыгод­но в одиночку изменять свое поведение. Аналогично рассмотренным выше играм, доход в точке Нэша всей системы может быть весьма далек от возможно­го максимума. Для достижения партии максимальной цены можно организовать общую кассу, однако нетрудно понять, что в достаточно больших сетях ее введение практически лишает участников оператив­ной информации о реакции системы на их собствен­ное поведение. Вместе с тем, именно с ростом сети возрастают сложности централизованного управле­ния и увеличивается привлека­тельность   децентрализованных систем.

Рассмотрим простенький чис­ленный пример. Пусть участни­ки игры имеют по два соседа каждый, т. е. их графом взаимо­действия является окружность (рис; 3.14). Выигрыш каждого участника определяется его дей­ствием и действиями его правого и левого соседей. Каждый уча­стник может делать одно из двух действий, которые мы обозначим через А и Б. Величины выигрыша автомата в зависимости от дей­ствий его правого и левого соседей приведены ниже

Ситуация Выигрыш

ААА

— 2

БАА 2

АБА 0

ББА
10

ААБ 10

БАБ 0

АББ 2

БББ —2

Отсюда видно, что среднему игроку выгодно изме­нять свое действие на другое, если он находится в си­туациях ААА, БАА, АББ и БББ, и невыгодно в ос­тальных ситуациях. Рассмотрим ситуацию ББАА, в которой третьему игроку выгодно изменить свое дей­ствие, что приводит нас к конфигурации БББА, в ко­торой становится выгодным изменить свое действие второму игроку. Ситуацией равновесия по Нэшу здесь является партия АБАБАБ ... АБ. Средний выигрыш в партии Нэша для этой игры равен 0. С другой сто­роны, партия ААББААББ ... ААББ обеспечивает средний выигрыш, равный 6, но, как мы видели, она неустойчива.

Обратим внимание на следующий факт: если один из участников игры изменяет свое действие, то это приводит к изменению только его выигрыша и выиг­рыша его ближайших соседей, но не затрагивает ос­тальных участников игры. Следовательно, если мы организуем общие кассы между соседями по игре, то изменение своего действия, приводящее к уменьшению суммарного выигрыша в своей окрестности, а, значит, и во всем коллективе, становится для участ­ника невыгодным. Тогда и партия максимальной цены становится устойчивой по Нэшу, т. е. становится партией Мора. Проиллюстрируем сказанное на нашем примере. Обратимся к табл. 3.2. В ней в первом столбце приведены фрагменты партии максимальной цены,  во втором столбце — выигрыш среднего во фрагменте игрока при наличии локальной общей кас­сы, в третьем столбце—фрагмент, образующийся при смене действия средним игроком, и, в четвер­том — выигрыш среднего во фрагменте игрока при наличии локальной общей кассы в новой ситуации.

Таблица 3.2

Фрагмент партии Мора

Выигрыш

Фрагмент новой партии

Выигрыш

ААББА

22/3

АААБА

8/3

АББАА

14/3

АБААА

0

ББААБ

22/3

БББАБ

8/3

БААББ

14/3

БАБББ

0

Из табл. 3.2 видно, что ни одному из участников игры при использовании процедуры локальной общей кассы в партии максимальной цены невыгодно изме­нять свое действие.

Организация локальной общей кассы сводится к равномерному распределению дохода в узле между всеми узлами его окрестности и, с одной стороны, не требует сложных организационных мероприятий, а с другой, в силу небольшого числа соседей слабо мас­кирует зависимость получаемого дохода от результатов собственной деятельности. Еще раз подчеркнем, что указанный эффект достигается на сети независи­мо от ее размеров.

§ 3.5. «Он думает, что я думаю...»

  У английского поэта Ковентри Патмора есть та­кие стихи:

— Он целовал Вас, кажется?
— Боюсь, что это так!
— Но как же Вы позволили?
Ax, он такой чудак!
    Он думал, что уснула я
    И все во сне стерплю.
    Иль думал, что я думала,
    Что думал он: я сплю!

(перевод С. Маршака)

Эти стихи демонстрируют широко распространенную человеческую способность к рефлексии — рас-суждениям, при которых рассуждающий ставит себя на место другого человека и проводит рассуждения с его точки зрения. Рефлексивные рассуждения обла­дают свойством рекурсивности, т. е. как бы вклады­ваются друг в друга, как матрешки. Например, можно рассуждать о том, как некто рассуждает о вас или моделирует ваши рассуждения о нем. Ковентри Пат-мор в своем стихотворении прекрасно иллюстрирует эту рекурсивность рефлексивных рассуждении.

Зачем нам нужны рассуждения подобного типа? Мы их используем тогда, когда делаем выбор, успех и неуспех которого предопределяется не только на­шим собственным решением, но и решениями других людей, связанных с нами какими-то связями. Пример подобной ситуации—игра в размещения, в которой выигрыш каждого участника коллектива определяет­ся не только его индивидуальным действием, но и действиями остальных участников коллектива. По­этому использование в коллективном поведении ме­ханизмов, имитирующих рефлексивные рассуждения, может оказаться полезным. В данном параграфе мы постараемся показать это.

Введем сначала важное для нас понятие ранга рефлексии. Это понятие мы введем индуктивным пу­тем. Будем говорить, что индивид или автомат име­ет нулевой ранг рефлексии, если при выборе своего действия он никак не учитывает наличия других уча­стников коллектива. Выбор при нулевом ранге реф­лексии определяется только той информацией, кото­рая поступила на вход принимающего решение от среды. Индивид (или автомат) имеет первый ранг рефлексии, если он считает, что остальные участники коллектива имеют нулевой ранг рефлексии и он сам может выбирать действия за них. Отметим, что нали­чие первого ранга рефлексии связано с требованием наличия информации по крайней мере о некоторых участниках коллектива и сигналах от среды; поступивших на их вход. Определение последующих ран­гов рефлексии происходит аналогичным образом. Ин­дивид или автомат имеет k-й ранг рефлексии, если он считает, что все остальные известные ему участ­ники коллектива имеют ранг рефлексии, равный k—1, и он может провести за них соответствующие рассуждения.

Такое определение ранга рефлексии связано лишь с мерой информированности системы, делающей вы­бор, о сигналах, поступивших на входы других си­стем. У человека же рефлексивные рассуждения в подавляющем большинстве случаев опираются на не­которые знания, хранящиеся в его «модели мира». Это знания о закономерностях поведения в данном обществе, человеческих возможностях в том или ином состоянии, нормах и ограничениях и т. п. Но даже в столь обедненном виде рефлексивные рас­суждения оказываются полез­ными в ряде моделей коллек­тивного поведения.

Рассмотрим следующую за­дачу. В дачном кооперативе пробурена скважина для по­дачи воды. На каждом участ­ке имеется свой собственный насос, способный подать воду из скважины в кольцевой коллектор, охватывающий все участки (рис. 3.15). Но мощ­ности этих насосов таковы. что создаваемый ими напор в   коллекторе  позволяет  производить  поливку трех  соседних  участков,  если  включены  два насоса. Другими словами, если на участках 2 и 3 насосы включены, то можно полить и посадки на участке 4. Каждый хозяин участка имеет индивиду­альную цель — обеспечить свой участок водой. Но имеется еще дачный трест — владелец всех n участ­ков, И у него есть собственная цель — экономия электроэнергии. При обеспечении поливки всех уча­стков для дачного треста невыгодно, чтобы работали все n насосов. Наилучшим для него является случай, когда работает только n/2 насосов (если п—четное), или (n+1)/2 насосов (если п—нечетное). Достаточно, например, включить насосы лишь на участках с четными (пли нечетными) номерами и весь полив будет обеспечен.

Конечно, дачный трест мог бы добиться этого какими-либо принудительными мерами, например централизованным управлением насосами из цент­ральной диспетчерской. Но владельцы участков это­му противятся, считая, что дачный трест вмешивает­ся в их личные дела. И тогда трест пытается орга­низовать экономию электроэнергии путем денежных штрафов за ненужный расход электроэнергии коллек­тивом владельцев участков.

Прежде чем пояснить, как это делается, отметим некоторую искусственность нашей задачи. Ее содер­жательная интерпретация нужна была нам лишь для того, чтобы вызвать у читателя некоторые образные ассоциации, а не подсовывать ему неизвестно откуда взятую модель, на которой будет показана полез­ность рефлексивных рассуждении.

Перейдем теперь к описанию самой модели. Име­ется кольцо, состоящее из п автоматов (будем для определенности считать п четным). Каждый автомат может находиться в двух состояниях — рабочем и выключенном. Эти состояния мы для краткости бу­дем обозначать соответственно 1 и 0. Каждый авто­мат имеет информацию о своем состоянии и состоя­нии двух своих соседей. Число действий каждого ав­томата также равно двум. Эти действия есть просто сообщения о том, в каком состоянии находится в данный момент автомат. На каждом такте функцио­нирования автоматы получают на вход сигналы поощ­рения и наказания. При поощрении автомат сохраня­ет свое состояние, при наказании — меняет его. Взаимодействие автомата в кольце со средой (дач­ным трестом) определяется табл. 3.3.

Таблица 3.3

 

 

Состояние

 

 

Вероятность наказания

собственное

левого соседа

правого соседа

 

 

0

0

0

1

0

0

1

0,5

0

1

0

0,5

0

1

1

0

1

0

0

0

1

0

1

0,5

1

1

0

0,5

1

1

1

1

Если автомат при выборе своего очередного со­стояния будет руководствоваться только этой табли­цей, то мы будем считать его обладающим нулевым рангом рефлексии. Если все автоматы кольца имеют нулевой ранг рефлексии, то дачный трест может по­пасть в ситуацию, когда достижение его цели окажет­ся невозможным. Если, например, в начальный мо­мент все автоматы находятся в рабочем состоянии, то все они, согласно последней строке таблицы, по­лучат сигнал наказания и перейдут в нерабочие состояния. Но в этом состоянии весь коллектив опять получит сигнал наказания, все автоматы перейдут в рабочее состояние, и цикл замкнется. Насосы на участках будут либо все включаться одновременно, либо бездействовать», а цель дачного треста так и не будет достигнута.

Введем теперь различные ранги рефлексии. Пусть, например, некоторый автомат имеет первый ранг реф­лексии. Тогда он делает свой выбор следующим обра­зом. Он анализирует переход, который должны совер­шить его соседи (а для этого, он должен иметь ин­формацию о соседях своих соседей), считая, что они обладают нулевым рангом рефлексии, т. е. при своем выборе руководствуются приведенной выше таблицей, а затем совершает переход на основании своего рас­суждения. При этом вероятность наказания для него задается уже не средой, а определяется им самим. Другими словами, кроме информации о состояниях, в которых находятся его непосредственные соседи и соседи его соседей, автомат с первым рангом рефлексии должен еще звать правый столбец табл. 3.3, Только при наличии этой дополнительной информа­ции он сможет провести правильное рефлексивное рассуждение. Для иллюстрации его рассмотрим си­туацию, показанную на рис. 3.16. Сначала наш авто­мат проводит рассуждения за левого соседа. Как сле­дует из таблицы, определяющей функционирование автомата с нулевым рангом рефлексии, левый сосед не может получить сигнал наказания и останется в своем состоянии 0. Правый же сосед с вероятностью 0,5 сменит свое состояние и с такой же вероятностью сохранит его. Что делать нашему автомату в подобной ситуации? Если правый сосед сменит свое состояние, то, сохранив свое состояние, наш автомат окажется в благоприятном положении. Если же этого на произойдет, то вероятность наказания, которая нависнет над ним, будет равна 0,5. Если же наш автомат сменит свое состояние, то либо он получит сигнал наказания с вероятнос­тью 1 (если правый сосед изменит свое состояние), либо с вероятностью 0,5 (если правый сосед со­хранит свое состояние). В любом случае автомату с первым рангом рефлексии лучше сохранить свое текущее состояние.

Если бы автомат имел второй ранг рефлексии, то, согласно нашему определению, он считал бы своих соседей автоматами с первым рангом рефлексии, а, значит, проводя рассуждения за них, привлекал бы информацию не только о своих соседях и соседях этих соседей, но и о соседях соседей соседей. На рис. 3.17 показано, как расширяется множество ав­томатов, относительно которых необходимо иметь информацию об их текущих состояниях при росте значения ранга рефлексии.

Отметим, что если некоторый автомат имеет определенный ранг рефлексии, то это вовсе не означает, что он правильно предсказывает реакцию анализируемого множества автоматов. Он может и ошибать­ся. Имея, например, первый ранг рефлексии, автомат предполагает, что его соседи делают свои выборы как автоматы с нулевым рангом рефлексии. Но впол­не может оказаться, что его соседи сами являются автоматами с рангом рефлексии выше нулевого. В этом случае прогноз их поведения не будет соответ­ствовать тому, что они на самом деле будут делать.

Можно поставить следующий вопрос: существуют ли такие распределения значений рангов рефлексии по коллективу автоматов, которые позволяли бы дач­ному тресту надеяться, что со временем коллектив придет к благоприятным состояниям (чередованию состояний 1—0—1—0 и т. д.). Моделирование этой задачи на ЭВМ показало, что коллектив выходит на этот глобальный оптимум не всегда, а лишь при оп­ределенных распределениях рангов рефлексии. Опти­мум по коллективу, например, всегда достигается, когда на кольце чередуются автоматы с нулевым и первым рангами рефлексии. Но он же достигается и не при столь регулярном их чередовании.

В конце § 3.4 мы рассмотрели модель, весьма близкую к той, которую мы сейчас проанализировали. В ней ситуацией равновесия оказывалась партия вида 1010 ... 10 (в обозначениях § 3.4 партия АБАБ ... АБ). Это та партия, которая устраивает нас в задаче включения насосов. Но в ранее рассмотренной мо­дели выход игроков в эту точку обеспечивался за­данной на стр. 94 системой выигрышей. В нашем же случае такой системы выигрышей нет. И коллек­тив автоматов не обладает в этой партии точкой рав­новесия.

Ее возникновение порождается неоднородностью в коллективе автоматов, вносимой различными ранга­ми рефлексии. И эта неоднородность позволяет нам решить задачу оптимизации, которую не способен ре­шить однородный коллектив, если не принять каких-либо дополнительных мер.

§ 3.6. Оптимисты и пессимисты в мире автоматов

Рассмотрим еще один способ введения неоднород­ности в коллектив автоматов, решающий некоторую задачу. Как всегда, начнем с некоторой содержатель­ной интерпретации задачи.

Пусть некто решил жениться. Но поскольку же­нитьба — шаг серьезный, то жених намеревается принять решение только после того, как он будет иметь некоторую информацию о своей будущей спут­нице жизни. Пусть для него жизненно важны две вещи: наличие квартиры у его избранницы и умение ее готовить вкусные обеды. Такой меркантилизм не должен смущать читателя. Авторы книги вовсе не идеализируют героя этой истории, а может быть, и осуждают его за невнимание к вещам куда более серьезным, чем жилплощадь и пища. Но что подела­ешь. Иногда для наглядности приходится мириться с некоторыми недостатками героя примера. Степень информированности жениха об интересующих его предметах будем выражать следующим образом. Если квартира у избранницы есть, то Х1 = 1, в про­тивном случае Х1 = 0. Если же жених пока не обла­дает сведениями о наличии у своей избранницы от­дельной квартиры, то полагаем X1 = 0,5. Аналогично считаем, что умение готовить обеды приводит к Х2 = 1, неумение — к Х2 = 0, а значение Х2 = 0,5 свидетельствует об отсутствии у жениха необходимой информации. Введем еще переменную Y, которая бу­дет отражать решение жениха. Если он твердо решил жениться, то Y=1. Значение Y = 0 свидетельствует об его отказе от избранницы, а Y = 0,5, означает, что жених колеблется, не зная, что ему делать.

Составим отражающую эту ситуацию табл. 3.4. Она задает пять функций троичной логики, завися­щих от двух аргументов X1 и Х2. Наиболее проста из них  функция   Y1   Как  видно   из   таблицы, Y1=min(X1,X2). В логике такую функцию принято называть конъюнкцией. Если жених использует для принятия своих решений эту функцию, то он согла­шается на брак только при условии выполнения двух своих требований: наличия квартиры и умения гото­вить вкусные обеды. Если хотя бы одно из этих усло­вий не выполнено, то он отказывается от брака. При наличии неопределенности в условиях, когда осталь­ные требования выполнены, или в условиях полной неопределенности (X1 = 0,5; X2 = 0,5) жених медлит с решением и не говорит ни да, ни нет. По-видимому, он ждет новой порции информации. Такое поведение жениха можно назвать объективным или бесстраст­ным.

Таблица 3.4

                   X1

                    X2

                    Y1

                    Y2

                     Y3

                    Y4

                   Y5

0

0

0

0

0

0

0

0

0,5

0

0

0

0

0

0

1

0

0

0

0

0

0,5

0

0

0

0

0

0

0,5

0,5

0,5

0

0

0,5

1

0,5

1

0,5

0

0,5

1

1

1

0

0

0

0

0

0

1

0,5

0,5

0

0,5

1

1

1

1

1

1

1

1

1

Остальные функции в нашей таблице описывают способ принятия решений несколько иного типа. Функции Y2 и Yз отражают пессимистическую точку зрения. Жених такого типа всегда предполагает, что мир устроен не лучшим образом и всегда надо ждать от него подвоха. Поэтому он склонен интепретировать незнание как отрицательную оценку. Такой же­них — пример явного пессимиста. При этом, если он руководствуется функцией Y2, то его пессимизм до­стигает крайней степени. При наличии любой неопре­деленности происходит отказ от дальнейшего накоп­ления информации, и общение жениха с невестой прекращается. В случае функции Yз пессимизм не столь категоричен. Лишь в случае полной неопреде­ленности жених прекращает свои попытки устроить свою личную жизнь. При частичной неопределенно­сти он стремится продолжить сбор интересующей его информации.

Оставшиеся две функции характеризуют противопо­ложный взгляд на мир. Это взгляд оптимиста, всегда надеющегося, что природа принесет ему неожидан­ную удачу. Оптимист, руководствующийся в своем выборе функцией Y5, представляет собой случай крайнего (пожалуй, даже «оголтелого») оптимиста, ибо в своих рассуждениях он заменяет все оценки 0,5 оценками, равными 1. Функция Y4 характеризует более осторожного оптимиста, который склонен заме­нять единицей не более одной оценки 0,5.

Таким образом, подобно рангам рефлексии можно ввести ранги пессимизма — оптимизма. Будем счи­тать, что бесстрастный жених имеет ранг, равный нулю. Жених, заменяющий т и более оценок 0,5 на 0, имеет ранг пессимизма п—m+1, где п—число, учитываемых условий, а жених, заменяющий т и ме­нее оценок 0,5 на 1,—ранг оптимизма т. В случае двух аргументов, который отражен в нашей таблице, возможны ранги пессимизма и оптимизма 1 и 2. Число возможных рангов растет линейно с ростом числа аргументов n.

При принятии своего решения о браке жених мо­жет руководствоваться и несколько иными соображе­ниями, чем было описано выше. Весьма возможно, что он не такой уж и экстремист и готов жениться и в том случае, когда у его избранницы есть либо квартира, либо она относится к числу хозяек, готовя­щих весьма вкусные обеды. Наличие того и другого одновременно рассматривается таким претендентом на ее руку как редкая удача. Описание процесса принятия решений о браке таким женихом можно представить в виде табл. 3.5.

Таблица 3.5

X1

X2

Z1

Z2

Z3

Z4

Z5

0

0

0

0

0

0

0

0

0,5

0,5

0

0,5

1

1

0

1

1

1

1

1

1

0,5

0

0,5

0

0,5

1

1

0,5

0,5

0,5

0

0,5

0,5

1

0,5

1

1

1

1

1

1

1

0

1

1

1

1

1

1

0,5

1

1

1

1

1

1

1

1

1

1

1

1

 Функция Z1=max(X1,Х2) в логике называется дизъюнкцией. Она определяет бесстрастный выбор жениха, согласного на выполнение хотя бы одного своего требования. Функции Z2 и Z3, отражают пес­симистическую точку зрения, a Z4 и Z5 оптимисти­ческую точку зрения при дизъюнктивном выборе. По­добно тому как при конъюнктивном выборе мы ввели в рассмотрение ранги пессимизма —оптимизма, их можно ввести и при дизъюнктивном выборе. Введен­ные нами функции, кроме Y1 и Z1, можно соответственно называть пессимистическими или оптимистиче­скими квазиконъюнкциями и квазидизъюнкциями тех или иных рангов пессимизма — оптимизма.

Для иллюстрации воздействия введенных нами ха­рактеристик на коллективное поведение автома­тов рассмотрим модель, являющуюся, известным обобщением модели игры в размещения, которая обсуждалась для однородного коллектива автоматов в начале данной главы.

Каждое утро пастух, выгоняющий стадо на выпас, решает довольно сложную оптимизационную задачу:

куда гнать стадо? Он знает п участков, пригодных для выпаса. Но и другие пастухи, пасущие свои стада в том же районе, осведомлены о них не хуже его. И вполне может случиться, что, пригнав свое стадо в прекрасную долину недалеко от деревни, он увидит, что кто-то уже опередил его еще накануне и вся пища уже уничтожена. А в более высокогорной котловине травы может быть совсем немного, ибо дожди в по­следнее время были редки и трава, по всей видимости, не набрала там силу. Есть, правда еще одно прекрасное место, но там почти наверное придется де­лить его с соседями и животным его стада придется съесть меньше, чем они бы смогли.

Как же пастуху добиться своей цели: увеличить живой вес своего стада? Говорят, что в соседнем рай­оне пастухи договорились между собой и составили план выпаса. Но в их районе об этом только погова­ривают. И о чем только думает районное начальство, которое должно заботиться о суммарном весе всего поголовья животных в стадах района?

Оставим на время пастуха с его нелегкими раз­думьями. Формализуем постановку задачи о поиске наиболее благоприятного места для выпаса стада. Вместо пастуха с его стадом будем рассматривать некий автомат, который имеет п различных действий, смысл которых сводится к выбору одного из п участ­ков для выпаса. Каждый такой участок автомат ап­риорно оценивает двумя оценками: оценкой вероят­ности наличия в этом месте достаточного количества пищи для того, чтобы животные не голодали X1i (i здесь номер участка), и оценкой посещаемости уча­стка, отражающей прогноз о среднем числе автома­тов, которые могут одновременно с ним оказаться на участке с номером i(X2i). Эти две оценки могут фор­мироваться за счет накопления некоторого предше­ствующего опыта, знания о характере участков и по­годных условий или на основании «голого эмпириз-ма». Несколько огрубляя задачу, будем считать, что все оценки имеют троичный характер. Тогда X1i=1 означает, что на участке i имеется достаточно пищи для прокорма стада, X1i=" 0 — что пищи на участке i явно мало, a X1i==0,5 — что у автомата нет информации о вероятности нахождения на участке i достаточ­ного количества пищи. Вторые оценки имеют следующий смысл: X2i== 1 — на участке с номером i предполагается такое количество одновременно пасущихся автоматов, которое при равном распределении ресур­сов (пропорционально числу пасущихся автоматов, пришедших на этот участок) обеспечивает нашему автомату необходимое количество пищи; X2i==0 озна­чает, что пищи при дележе с соседями по участку будет явно недостаточно, а X2i==0,5 свидетельствует об отсутствии информации по этому вопросу.

Таким образом, при принятии решения о выборе участка автомат может действовать как наш гипоте­тический жених, принимающий решение о браке. Что же показали результаты моделирования на ЭВМ? Коллектив автоматов выходил на оптимум с точки зрения районного начальства лишь при определенных распределениях рангов пессимизма — оптимизма. При этом, если в модели допускалось «вымирание» автоматов — т. е. они в течение некоторого числа тактов распределений по участкам не набирали по­рогового значения количества пищи, то с течением времени моделирования в коллективе возрастал про­цент умеренных пессимистов, которые оказывались более жизнеспособными, чем оптимисты всех рангов. Процентный состав пессимистов и оптимистов в кол­лективе, распределение их по рангам во многом за­висят от истинных параметров среды. Но в любом случае крайние пессимисты и оптимисты приносят мало пользы коллективу и при наличии вымирания быстро из него исчезают. Наиболее устойчивыми в среднем оказываются совокупности, в которых около 40 % бесстрастных автоматов, около 40 % умеренных пессимистов и 20 % умеренных оптимистов.

Этот феномен связан с тем, что в однородных кол­лективах без организации какого-либо взаимодей­ствия между автоматами (например, общей кассы или  случайного  парного  взаимодействия)   все автоматы кучно переходят от одного выбора к дру­гому. Если же в коллективе имеются различные автоматы, то пессимисты и оптимисты выбирают те участки, которые не выбрали бы бесстрастные автоматы, что приводит к «размазыванию» коллектива автоматов по участкам. Тот же эффект, как было показано, достигается введением общей кассы в од­нородном коллективе автоматов, решающем задачу размещения.

В рассмотренной нами модели «игроки» оперировали не с самими значениями тех или иных параметров среды, а с их оценками. В одном из эксперимен­тов, например, предлагалось, что X1i==1, если вероят­ность наличия нужного количества пищи на участке с номером i больше 0,75. Если она была меньше 0,25, то полагалось, что X1i=0. В остальных случаях принималось, что X1i=0,5. Для второго параметра X2i=1> если на i-м участке было менее 1/4 всех стад, имеющихся в районе. А когда это количество увеличивалось до 3/4 или превосходило это число, полагалось, что X2i=0. В остальных случаях оценка второго параметра была равна 0,5. Субъективизм. этих границ очевиден. Люди в своей практике при­нятия решения в конфликтных ситуациях используют многие виды таких субъективных оценок.

На рис. 3.18 показаны кривые, характеризующие отношения игрока-человека к получаемым им в про­цессе игры выигрышам. По оси абсцисс на графиках отложены величины выигрыша — проигрыша игроков, а по оси ординат—субъективные оценки этих значений игроком. Названия, приведенные на рисун­ке, говорят сами за себя. Дж. Кемени и Дж. Томпсон, проанализировав эти функции оценок, показали, что в коллективе из игроков с различной психологи­ческой доминантой решения, принимаемые ими в одних и тех же условиях, могут быть весьма различными. Приведем одну из моделей, предложенную ими.

Пусть некто устраивает лотерею. Он выбирает такую стоимость одного лотерейного билета s, при­обретя который участник лотереи может с вероят­ностью g выиграть некоторую сумму l. Математиче­ское ожидание проигрыша для устроителя лотерея равно g{-l)+(l-g)s. Конечно, он не захочет про­игрывать и сделает так, чтобы выполнялось неравен­ство            0<g<s/(l+s)

Величина g мала, так как l велико по сравнению с s. Пусть человек, купивший лотерейный билет, оцени­вает свои выигрыши и проигрыши с помощью одной из тех оценочных функций f, которые показаны на рис. 3.18. Тогда он оценивает математическое ожидание полезности покупки лотерейного билета как  

Естественно считать, что человек покупает лоте-рейный билет только в том случае, когда эта оценка положительна. Тогда разные типы игроков примут различные решения. Легко представить себе, что при определенных значениях s, l и g их решения распре­делятся следующим образом: решение играть примут азартный игрок и бедняк; заурядный игрок будет играть в лотерею лишь при малых значениях l, а от­чаянный при l, большем, чем абсцисса точки раз­рыва; объективный, осторожный, выигрывающий и богач откажутся от участия в лотерее; заурядный откажется при больших значениях l, а отчаянный — если l меньше абсциссы точки разрыва на графике его оценочной функции.

Материал двух последних параграфов свидетель­ствует о том, что в моделях коллективного поведения введение неоднородности служит тем же целям, что и дополнительные механизмы по целенаправленному воздействию среды на участников коллектива. Поэто­му можно считать, что разнородность, столь часто встречающаяся в природе и технических системах, не является чем-то случайным, «нарушающем гармо­нию», а отражает фундаментальную идею о лучшем функционировании разнородных коллективов, решаю­щих общую задачу в условиях децентрализации, по сравнению с однородными коллективами, решающи­ми ту же задачу.

 § 3.7. Еще три простые модели

D животном мире и мире растений неоднород­ность помогает регулировать соотношение тех или иных видов в биоценозах и фитоценозах. В качестве иллюстрации приведем две простенькие модели, хо­рошо известные в экологии.

На рис. 3.19,а показана ситуация, сложившаяся в среде, где живут бактерии, изображенные в виде овалов. В некоторые из них проникли частицы, назы­ваемые плазмидами. Эти органические образования стоят на грани живого и неживого. Плазмиды самовоспроизводятся и имеют обмен с внешней для них средой. Этой средой служат для них тела бактерий. В условиях неперенаселенности, когда бактерии име­ют достаточное количество пищи, плазмиды выделя­ют в окружающую их среду вещество, называемое иммунопротеином. На рис. 3.19, а плазмиды показаны зачерненными кружками, а иммунопротеин — точка­ми. Но вот количество бактерий увеличилось на столько, что они начинают испытывать голод. Голодают и плазмиды. Это приводит к тому, что плазмиды, оказавшиеся за граничным значением голодания, начинают вырабатывать не иммунопротеин, безвредный для бактерии-хозяина, а комицин. На рис. 3.19,6 показана такая ситуация, когда одна из плазмид начинает вырабатывать комицин (зачерненные квад­ратики в теле бактерии). Комицин убивает бактерию и плазмиду. Но комицин, попадая во внешнюю сре­ду, убивает в определенной окрестности все бактерии, не содержащие в  своем теле иммунопротеин (рис. 3.19, б), после чего в среде остается уже мень­шее число бактерий (рис. 3.19,г), Если их все еще слишком много, то найдется такая плазмида, кото­рая опустится ниже «порога жизни" и начнет сра­батывать комицин, что приведет к дальнейшему со­кращению популяции бактерий. Плазмиды же де­лятся вместе с бактериями только тогда,  когда пищи становится «слишком много", выше некоторого порога, превышение которого вызывает деление у «чистых» бактерий.

Эту реальную модель саморегулирования численности организмов можно представить и в виде неод­нородного коллектива автоматов, живущего в некоторой среде, в которой поддерживается постоянный уровень пищи. Вся пища делится поровну между чле­нами коллектива. Автоматы - плазмидоносители делят­ся в том случае, когда количество поглощаемой ими пищи превышает некоторый порог Q1. Остальные автоматы производят деление при более низком по­роге Q2. Когда автомат - плазмидоноситель получает пищи меньше, чем Q3 < Q2, то он погибает и унич­тожает все обычные автоматы, которые находятся от него на определенном расстоянии (например, на торе в клетках, отстоящих от данной на расстоянии, не превышающем 5-кратного размера клетки). Для того чтобы одновременно не погибли все автоматы - плазмидоносители в модели, случайным образом выби­рается один из них. Если после этого уровень пищи все еще не превосходит Q3, то случайным образом выбирается еще один автомат, способный уменьшить величину популяции. Моделирование такого процесса на ЭВМ показало почти точное совпадение процесса регулирования с тем, что происходит в природе у бактерий.

Вторая модель регулирования численности чуть-­чуть сложнее. Пусть члены коллектива могут исполь­зовать друг относительно друга при столкновениях (например, при случайных парных взаимодействиях) две стратегии: агрессивную и угрожающую. Если оба члены коллектива применяют агрессивную стратегию, то это напоминает драку двух петухов или схватку оленей. Оба противника наращивают усилия и не же­лают уступать друг другу. И лишь гибель или позор­ное бегство одного из них выявляет победителя. Если один из членов коллектива применяет агрессивную стратегию, а другой лишь угрожающую, то при дости­жении определенного уровня агрессивности тот, кто придерживался угрожающей стратегии, спасается бег­ством. Встреча собаки и кошки — яркий пример этой ситуации. Собака сначала всегда придерживается аг­рессивной стратегии, а кошка отвечает ей угрожаю­щей (выгибает спину, издает шипение и т. д.). Если собака пугается и переходит на угрожающую стратегию, то после взаимных угрожающих поз животные расходятся. Если же собака продолжает наращивать усилия в рамках агрессивной стратегии, то кошка спасается бегством.

Противники с самого начала могут оба придержи­ваться угрожающих стратегий. Они принимают раз­личные ритуальные угрожающие позы, и этот про­цесс продолжается до тех пор, пока один из них не признает себя побежденным (для этого он, как пра­вило, принимает специальную ритуальную позу под­чинения). Подобное соперничество можно наблюдать у собак, серых гусей, тетеревов и многих других животных.

Рассмотрим модель подобного соперничества. Агрессивную и угрожающую стратегии будем обо­значать соответственно буквами А и У. Составим таблицу, в которой оценены все возможные комбина­ции парного соперничества (табл. 3.6).

Таблица 3.6

 

 

                Второй

 

 

А

У

Первый

А

(-5, -5)

(+10, 0)

 

У

(0, +10)

(+2, +2)

На пересечении строк и столбцов таблицы стоят пары чисел. Это условные оценки выигрышей — про­игрышей соперников при выборе той или иной стра­тегии поведения. Если, например, один из них (пер­вый) выбрал стратегию А, а второй — стратегию У, то первый получает выигрыш, равный 10 условным единицам, а второй остается при «своем интересе». Поясним теперь, как возникли эти оценки. Сначала мы условно оцениваем победу при соперничестве как выигрыш, равный +10, серьезное повреждение или гибель, которые могут произойти при наращивании усилий в стратегиях А, оцениваем как (—20). По­скольку при встрече двух агрессоров исход поединка мы считаем равновероятным, то математические ожидания поощрения — наказания при паре страте­гий (А,А) есть 0,5*10+0,5*(—20)= --5. Аналогич­но для встречи со стратегиями (У,У) это ожидание  вычисляется как 0,5*10+(—3)=2. Здесь оценка (—3) есть плата за нервное напряжение в длитель­ном конфликте при стратегии У. Эта стратегия приводит к значительному расходу нервных и других ре­сурсов животного. Таким образом, таб. 3,6 задает платежную матрицу некоторой игры.

Рассмотрим организм, который может по своему желанию менять свою стратегию в зависимости от обстоятельств. Этот организм можно смоделировать в виде автомата с двумя состояниями, соответствую­щими стратегиям А и У, использование которых оп­ределяется вероятностями РA и Ру. При этом, ко­нечно, РA+Ру=1. Рассмотрим коллектив, состоя­щий из подобных автоматов, и предположим, что он неоднороден, причем неоднородность задается раз­личными значениями РA. В частности, при РA==1 автомат является чистым агрессором. Он во всех случаях жизни придерживается стратегии А. При РA==0 автомат всегда придерживается стратегии У.

Как и в предшествующей модели, зададим неко­торые пороги Q1 и Q2. Если автомат накапливает выигрыш, превышающий Q1, то он «размножается». Вместо него появляются два автомата с тем же зна­чением РA у каждого. Если же накопленное нака­зание становится по абсолютной величине больше Q2, то автомат «вымирает». Возникает вопрос об оптимальном значении РA при случайном парном взаимодействии автоматов в коллективе. При моде­лировании на ЭВМ было показано, что коллектив из достаточно большого количества описанных автома­тов, в котором значения РA имели распределение, близкое к равномерному, эволюционирует в сторону однородного коллектива, для которого РA прибли­жается к значению 8/13. Из теории игр следует, что смешанная стратегия, при которой стратегии А и У выбираются с вероятностями 8/13 и 5/13, является для игрока в определенном смысле наилучшей. Она обеспечивает игроку максимально возможный гаран­тированный выигрыш (при самых наихудших для него действиях противника). Интересно было бы по­лучить экспериментальные данные из наблюдений за животными (например, кошками), которые давали бы оценки частоты выбора ими стратегий А и У при встрече с противником, равным по силе. К сожале­нию, такими данными мы не располагаем.

Вернемся к тому, с чего мы начали настоящую главу. События в Арбатове побудили нас рассмотреть ряд моделей коллективного взаимодействия и согла­шений. Эти модели, будь дети лейтенанта Шмидта образованными в области децентрализованного уп­равления, позволили бы им извлекать из участков куда больший доход, чем тот, которого они достигли. И в этом сила моделей, с которыми мы познако­мились.

В заключение укажем еще на одну модель рас­пределения участков, которой можно было бы вос­пользоваться при экспансии детей лейтенанта Шмид­та на территориях, на которых они никогда не быва­ли и сведений о которых у них нет. Такие участки кажутся равноценными, и распределение их вряд ли кого-нибудь взволнует. Жеребьевка их чисто фор­мальна. Но вот участники дележа разъехались на места и начали «работу». Через некоторое время они уже могут оценить средний доход с доставшегося им участка. Повторный съезд участников конвенции должен восстановить справедливость (например, за счет отступных или общей кассы). Но владельцам богатых участков этого не хочется. Они не альтруис­ты. Тогда можно использовать механизм направлен­ной лжи. При вопросе о среднем доходе с участка спрашиваемый говорит истинную цифру лишь тем, чей доход выше, или тем, кому невыгодно переходить на его участок. Остальным он врет, снижая истин­ный доход до того уровня, когда переход для спра­шивающего становится невыгодным. В этой модели участники должны располагать различной информа­цией о реальных доходах других участников.

При этом увеличение объема информация способ­ствует улучшению условий функционирования дан­ного автомата. Обратим внимание читателей на это важное свойство обсуждаемой модели. В модели рефлексивного поведения такая прямая зависимость не наблюдается.

Все модели, которые мы предложили в данной главе, обладают одной особенностью. Если рассмат­ривать коллектив автоматов как прообраз некоторой биологической, социальной или технической системы, то эта система функционирует в параллельном режи­ме, все ее подсистемы   действуют независимо друг от друга и им не приходится ждать каких-либо результатов работы других подсистем. Такое положение дел встречается не столь уж часто. В сложных системах работа подсистем часто взаимоувязана, су­ществуют определенные временные зависимости, отражающие порядок срабатывания подсистем. Эти зависимости могут носить как вероятностный, так и детерминированный характер. Поэтому в последую­щих двух главах мы рассмотрим децентрализованное управление, осуществляемое при таких дополнитель­ных ограничениях.

 Г л а в а 4 КОГДА "ВСЕ ПО СПРАВЕДЛИВОСТИ"

 «Мы холодны душой к нелепым чудесам.
И лишь возможное всегда по вкусу нам».

 Буало

 § 4.1. Прав ли был Остап Бендер?

«..у окошечка администратора господствовало оживление. Там стояла цветная очередь. Молодые люди, в фасонных пиджаках и брюках того покроя, который провинциалу может только присниться, уверенно размахивали записочками от знакомых режиссеров, артистов, редакций, театрального костю­мера, начальника района милиции и прочих, тесно связанных с театром лиц, как то: членов ассоциации теа- и киноработников, общества «Слезы бедных ма­терей», школьного совета «Мастерской циркового эксперимента»  и  какого-то  «Фортинбраса  при УМСЛОПОГАСЕ». Человек восемь стояли с записка­ми от Эспера Эклеровича.

Остап врезался в очередь, растолкал фортинбрасовцев и, крича:—«Мне только справку, вы же ви­дите, что я даже калош не снял!», пробился к око­шечку и заглянул внутрь».

Прав ли был герой романа «Двенадцать стульев», когда считал, что с коротким делом можно проры­ваться без очереди, или великий комбинатор за­блуждался? Как должна была вести себя очередь? И как себя должен был вести администратор?

Очередь! Очередь становится таким же спутником нашего быта, как еда, сон, развлечения. Впрочем, как не вспомнить здесь очередь за едой в столовой, оче­редь за сном в гостинице, очередь за развлечением в театральной кассе. Временами нам кажется, что очередь является порождением чьей-то злой воли, ре­зультатом деятельности враждебных сил. Однако в действительности, возникновение очередей — такая же закономерность, как выпадение снега зимой и дождя летом. Плохая, неразумная организация не порождает очередь, а лишь увеличивает ее длину.

Понятие очереди безусловно предполагает нали­чие тех, кто в ней стоит. Заметим, что в очереди мо­гут стоять не только люди, а, например, коровы, ожидающие, когда их будут доить. Не только оду­шевленные предметы, а, например, радиоприемники, ожидающие починки, или месторождения полезных ископаемых, ожидающие, когда их разведают, а раз­веданные — когда их освоят. Очередь могут образо­вывать и объекты не материальной природы, напри­мер научные идеи, ожидающие, когда их разработа­ют и внедрят.

Объекты, стоящие в очереди, независимо от их природы, мы будем называть клиентами. При этом очередью мы будем именовать не всякую совокуп­ность клиентов, а лишь совокупность клиентов, свя­занных общей целью. Такой целью является стрем­ление быть обслуженным.

Обслуживание не обязательно должно быть ак­тивным. Например, без двух минут восемь вы вста­ли в очередь, чтобы расписаться в книге прихода на работу. Вы расписались, но «с точки зрения» очере­ди, эта книга обслужила вас

Весь комплекс обслуживающих средств: место обслуживания, обслуживающий персонал и т. п. в со­вокупности с правилами обслуживания мы будем на­зывать каналом обслуживания*).

*) Для читателей, знакомых с терминологией теории массо­вого обслуживания, отметим, что введенное нами понятие «канал обслуживания» для классических моделей этой теории эквива­лентно понятию «обслуживающий прибор». Но наше понимание моделей обслуживания шире, чем в  рамках упомянутой теории.

Совокупность клиентов, каналов обслуживания и правил взаимодействия между клиентами и канала­ми, клиентов между собой и каналов между со­бой мы будем называть системой обслуживания.

Для изучения системы обслуживания мы должны знать, каким способом клиенты попадают в систему или каковы механизмы, или модели механизмов, по­рождающие у клиентов потребность в обслуживании. Должны знать, каковы характеристики процесса об­служивания. Должны знать, как организовано или как может быть организовано поведение клиентов в очереди и их взаимодействие друг с другом. Как клиенты попадают из очереди в канал обслуживания и как каналы обслуживания получают клиентов.

И, наконец, мы должны представлять себе возможные механизмы взаимодействия каналов обслужива­ния друг с другом как в процессе получения клиен­тов, так и в процессе их обслуживания.

У внимательного читателя может возникнуть сом­нение в логичности наших определений. С одной сто­роны, мы включаем клиентов в качестве элементов в систему обслуживания, а, с другой стороны, гово­рим, о том, что клиенты попадают откуда-то в эту систему. Но противоречие это чисто внешнее. Клиен­ты действительно попадают в систему обслуживания извне, но затем становятся ее элементами. И дрова в отопительной системе могут проиллюстрировать эту мысль.

Для организации управления в системе обслужи­вания мы, кроме правил поведения системы, с по­мощью которых можно осуществлять управление, должны также уметь оценивать качество функцио­нирования этой системы. Нетрудно понять, что здесь могут существовать явно противоречивые критерии, Как правило, в системах обслуживания критерий по­вышения рентабельности обслуживания вступает в противоречие с критериями качества обслуживания. Повышение рентабельности функционирования город­ского транспорта путем повышения загрузки транс­портных средств вряд ли будет встречено с понима­нием пассажирами. Именно противоречивость оценок качества функционирования делает системы обслу­живания наиболее интересными с точки зрения ор­ганизации в них оптимального управления.

Как клиенты поступают в систему? Самый простой способ — поступление клиентов через равные промежутки времени. Если время обслуживания меньше этого промежутка или равно ему, то очередь возникать не будет. Если же время обслуживания превышает интервал между появлениями клиентов, то очередь будет неограниченно возрастать.

Максимальное число клиентов, которое может об­служить канал за фиксированный отрезок времени, будем называть пропускной способностью канала. Доля времени, в течение которой система занята обслуживанием, будет определять нагрузку канала. При постоянном интервале поступления клиентов, или, как мы иногда будем говорить, поступлением заявок на обслуживание, и постоянном времени обслуживания очередь не возникает, если нагрузка не превышает пропускной способности канала.

Если темп поступления клиентов или длитель­ность обслуживания подвергаются случайным коле­баниям, то очередь будет возникать всегда! Даже если пропускная способность системы больше, чем нагрузка. Очередь будет тем больше, чем больше разброс длительности интервала между поступления­ми клиентов и чем больше разброс длительности обслуживания. Очередь также возрастает по мере приближения нагрузки к пропускной способности системы. При приближении нагрузки к пропускной способности очередь начинает расти неограниченно. Зная, как характеристики очереди зависят от параметров системы, мы можем искать пути их измене­ния, приводящие, например, к уменьшению очереди.

Работая над гл. 3, мы в один из дней решили посмотреть кинофильм и начали звонить в ближай­ший кинотеатр, чтобы узнать репертуар и время на­чала сеансов. Телефон кинотеатра, как всегда, был непрерывно занят. Непрерывно набирая номер в те­чение 20 мин, мы наконец услышали:

— «Здравствуйте! Вам отвечает автоответчик кинотеатра «Прометей». Сегодня смотрите в нашем кинотеатре: на детском утреннике в 9 ч утра кино­фильм «Внимание, черепаха!». На сеансах 11 и 13 ч новая кинокомедия «Мимино». Новый художествен­ный фильм «Приезжая» на сеансах 15 ч, 16 ч 40 мин, 18 ч 30 мин, 20 ч 20 мин и 22 ч 10 мин. Приглашаем посетить наш кинотеатр. Наш адрес: проспект Про­свещения, д. 20». На часах было 16 ч, и нам каза­лось, что половину сообщения, которое мы прослу­шали, можно было бы опустить — нас мало интере­совало, что показывали в кинотеатре до 16 ч. Нам казалось, что можно было опустить также две пер­вых и предпоследнюю фразы — сокращение времени, необходимого для того, чтобы дозвониться до кино­театра, с лихвой компенсировало бы некоторое отсут­ствие избыточной вежливости в ответе. Мы взялись за карандаши.

Оказалось, что сокращение длительности текста, приводящее к увеличению пропускной способности, так изменяет отношение пропускной способности к нагрузке, что среднее время ожидания уменьшается почти в 5 раз. Нам, чтобы дозвониться до кинотеатpa, потребовалось бы 4 мин вместо 20 мин. Этот вы­игрыш оправдывает затраты на смену пленки в ав­тоответчике после начала каждого сеанса. Ведь если нам просто не повезло и среднее время, которое не­обходимо затратить, чтобы дозвониться в справочное бюро кинотеатра, равно не 20, а только 10 мин., то и в этом случае уменьшение вдвое времени обслужи­вания дает в час экономию около десяти человеко-часов, проведенных у телефона. Трудности ликвида­ции такого положения заключаются в том, что тысячи человеко-часов в месяц, затрачиваемые у теле­фонов в бесплодных попытках дозвониться в спра­вочные службы кинотеатров, дополнительные нагруз­ки на каналы телефонной связи и коммутационное оборудование телефонных станций ни в коей мере не влияют на оценку эффективности функционирования кинотеатров и их справочных служб. Аналогичные выводы, кстати, можно сделать о большинстве теле­фонных систем обслуживания, куда чрезвычайно сложно дозвониться.

Моральный и материальный ущерб, приносимый очередями людям, очевиден. Но, быть может, он не столь уж важен, если речь идет о неодушевленных предметах? К чему в этом случае сводится ущерб, приносимый очередью?

Во-первых, и это относится ко всем очередям не­зависимо от того, кто или что является клиентом, очередь должна где-то располагаться. Чем больше очередь, тем большего размера хранилища для кли­ентов следует создавать. Причем мы не можем ори­ентироваться на среднюю длину очереди — грубо го­воря, в половине случаев действительная очередь бу­дет больше средней. Создание помещений для рас­положения очереди (складов для хранения, стоящих в очереди изделии, буферной памяти для стоящих в очереди на обработку информационных массивов и т. п.) существенно удорожает системы обслуживания. В ряде случаев снижение объема хранилищ для оче­реди оправдывает расходы на введение дополнитель­ных каналов обслуживания.

Во-вторых, клиенты, стоящие в очереди, изъяты из употребления. Люди, стоящие в очереди в мага­зине, в это время не работают, не читают книги, не воспитывают своих детей. Автомобили, стоящие в очереди на ремонт, не перевозят грузы. Стоимость всего, что стоит в очереди, входит в стоимость системы обслуживания. Если большой магистральный неф­тепровод заполнен нефтью, то эта нефть изъята из употребления и является составной частью нефтепровода, ее стоимость входит в стоимость нефтепровода, Так же и в системе обслуживания. Детали, стоящие в очереди на обработку, изъяты из употребления и в размере, равном средней длине очереди, входят в определение стоимости системы обработки. Среднее число автомашин, ожидающих своей очереди на ре­монт, является составной частью системы автосер­виса, и их стоимость входит в стоимость системы автосервиса.

Из сказанного ясно, что задача снижения средней длины очереди имеет явный экономический смысл.

Выше мы уже видели на примере, что среднюю длину очереди можно снизить, если уменьшить вре­мя обслуживания или, что эквивалентно, увеличить пропускную способность системы. Однако очень час­то мы не в состоянии влиять на этот параметр. Можем ли мы вместе с тем уменьшить среднюю длину очереди?

Выше уже говорилось, что система обслуживания, кроме всего прочего, характеризуется взаимодей­ствием клиентов в очереди, иначе говоря, договорен­ностью об их взаимном поведении в очереди. Такую договоренность мы будем называть дисциплиной об­служивания. Какие существуют дисциплины обслу­живания?

Самая привычная для нас дисциплина носит на­звание «первым пришел — первым обслужен». Это обычная, так называемая живая очередь. Существуют и экзотические дисциплины. Например,— последним пришел — первым обслужен. Смысл использования такой дисциплины может определяться различными соображениями, например конструкцией помещения для очереди. Порождающие указанную дисциплину хранилища для очереди называются мага­зином по аналогии с магазином для патронов в пис­толете. Отсюда и название «магазинная память» в вычислительных устройствах. Дисциплина «послед­ним пришел — первым обслужен» часто используется в системах противовоздушной обороны. Клиент (са­молет), появившийся последним в зоне обслужива­ния, имеет большую вероятность быть обслуженным (сбитым), так как он дольше других клиентов (са­молетов) будет находиться в зоне обслуживания.

Дисциплины обслуживания предусматривают на­личие различных приоритетов, что разрешает клиен­ту нарушить основную дисциплину очереди. Типич­ный пример установленного приоритета — табличка: «Инвалиды Отечественной войны обслуживаются без очереди». Приоритетные правила чрезвычайно раз­нообразны и каждый раз связаны с конкретными условиями функционирования системы. Если мы не можем изменять нагрузку на систему и характери­стики каналов обслуживания, т. е. их пропускную способность, то приоритетные правила остаются един­ственной возможностью вмешиваться в функциони­рование системы, т. е. управлять ее поведением. При этом возникают следующие вопросы. Существуют ли способы улучшить качество функционирования сис­темы за счет введения приоритетов? Если существу­ют, то какие характеристики системы могут быть улучшены и за счет каких приоритетов? Существуют ли способы организации коллективного поведения клиентов или каналов обслуживания, обеспечива­ющие выработку системы приоритетов, оптимизиру­ющей качество функционирования системы?

На все эти вопросы мы попытаемся ответить в следующих параграфах данной главы.

§ 4.2. Дилемма парикмахера и приоритеты

В очереди в магазине стоят пять человек, делаю­щих приблизительно равными покупки. При этом их обслуживание продавцом занимает приблизительно равное время, скажем 6 мин на каждого. Дверь в торговый зал открывается, и входит молодой человек, пришедший купить сигареты. Его обслуживание за­нимает 30 с. Молодой человек, пришедший за сига­ретами, становится в общую очередь. Посмотрим, как развертываются события, начиная с этого момен­та. Продавец начинает обслуживание первого стоя­щего в очереди клиента, и время его ожидания рав­но нулю. Второй клиент ждет 6 мин, третий— 12 мин, четвертый—18 мин, пятый—24 мин, и молодой человек,   пришедший   за   сигаретами,— полчаса. Суммарное время, которое все покупатели провели в очереди, равно полутора часам, В среднем по 15 мин на человека. Запомним эту цифру. Теперь предположим, что молодой человек купил свои сига­реты без очереди. Тогда он, вместо получасового стояния в очереди, не затратил никакого времени на ожидание. А последовательность времен ожидания людей, стоявших до его прихода в очереди, имеет вид 0,5; 6,5; 12,5; 18,5; 24,5 мин. При этом полное время ожидания равно 62,5 мин, а среднее время ожидания равно 10,4 мин, т. е. уменьшилось почти в полтора раза. Средняя длина очереди за рассмат­риваемый отрезок времени изменилась с 2,4 до 2.

Конечно, приведенное рассуждение лишь прибли­зительно отражает картину, так как в нашем приме­ре поступление клиентов прекратилось с момента прихода молодого человека за сигаретами. Однако наш пример поясняет механизм, который обеспечи­вает снижение средней длины очереди и среднего времени ожидания обслуживания в том случае, когда быстро обслуживаемым клиентам в очереди назначается приоритет. Оказывается, что Остап Бендер был прав, требуя чтобы его пропустили без оче­реди, так как ему «только справку».

Заметим, однако, и это знает каждый, стоявший в очереди, что нет такой силы, которая может заста­вить человека, стоящего в очереди, захотеть пропус­тить без очереди другого, т. е. увеличить свое соб­ственное время ожидания, даже, если он твердо знает, что это улучшит общие характеристики систе­мы обслуживания.

Если трудно представить себе побудительные мо­тивы, которые могли бы сформировать систему при­оритетов в очереди, то следует подумать, как такую систему могут навязать очереди каналы обслужива­ния. Для этого, однако, необходимо внести в правила взаимодействия клиентов и каналов право каналов назначать приоритеты или, что равнозначно, право выбирать из очереди клиентов га обслуживание.

Теперь из магазина мы перейдем в парик­махерскую, в которой работают несколько равноцен­ных мастеров (система с несколькими равноценными каналами обслуживания). В парикмахерскую прихо­дит несколько категорий клиентов, отличающихся друг от друга временем обслуживания — клиенты, желающие только побриться, клиенты, желающий сделать простую или фасонную стрижку, клиенты, желающие постричься, побриться и сделать массаж лица и т. п. Как мы уже отметили, для уменьшения средней длины очереди имеет смысл пропустить без очереди тех, кто обслуживается быстро. Если времена обслуживания клиентов известны заранее, то на этом основании в парикмахерской может быть вы­вешен список приоритетов, составленный по принципу «короче обслуживаешься — раньше обслужива­ешься». В этой ситуации опять же заявление Остапа «мне только справку» может служить достаточным основанием для нарушения очереди (дополнитель­ное заявление о не снятых калошах находится вне нашей модели). Список приоритетов может быть достаточно простым. Например, «бреем без очереди!»

Сложнее обстоит дело, когда времена обслужи­вания заранее неизвестны, могут быть случайными величинами и, вообще говоря, могут изменяться во времени. В этом случае мы должны формировать так называемые динамические приоритеты в процес­се функционирования системы. В рамках интересую­щего нас подхода система приоритетов должна по­рождаться коллективным поведением каналов об­служивания.

Для организации коллективного поведения нам необходимо так сформулировать в этой задаче ин­дивидуальные предпочтения, чтобы, добиваясь мак­симального удовлетворения индивидуальных потреб­ностей для совокупности клиентов, достигать и тре­буемый общесистемный эффект. Как мы уже от­мечали, трудно предложить правдоподобные крите­рии, делающие для клиента предпочтительным уве­личение времени пребывания в очереди. А вот для канала обслуживания такие критерии можно пред­ложить сравнительно легко.

Допустим (и это допущение достаточно естествен­но) , что парикмахер стремится к максимизации сво­его заработка. Тогда, если с точки зрения парик­махера клиент, обслуживаемый быстро, будет выгод­нее клиента, обслуживаемого долго, то парикмахер будет изыскивать способы протащить такого клиента без очереди. Ситуация, в которой освободившийся парикмахер берет из очереди своего постоянного клиента, если последний ему достаточно выгоден, знакома многим. В ряде случаев такое дейст­вие вызывает возмущение очереди, но мы уже выше договорились узаконить право парикмахера иметь "любимчиков". Перед обращением за очередным кли­ентом парикмахер может объявить, например, что сту­дентов он обслуживает вне очереди. Но, как мы уже отметили, клиент, обслуживаемый быстро, должен быть выгоден для парикмахера. Этого можно добить­ся, введя постоянную плату за обслуживание. Вооб­ще говоря, постоянная плата за обслуживание может привести к росту времени обслуживания — «Раз уж я заплатил деньги, то почему бы не обслужиться по полному кругу»: поэтому можно, как в такси, ввести «плату за посадку», не зависящую от времени об­служивания.

Мы начали с того, что в качестве системы обслу­живания могут выступать системы самой различной природы, а не только системы, в которых клиентами и каналами служат люди. В' качестве системы обслу­живания могут выступать самые разнообразные тех­нические системы: системы связи, вычислительные машины, транспортные системы (например, система транспортерных лент, питающих углем бункеры ТЭЦ) и многое другое. Поэтому, изучая поведение каналов и клиентов в таких системах, мы будем стремиться формализовать их поведение. Формализо­вать так, чтобы его можно было реализовать доста­точно простыми техническими средствами. Такой подход, кроме всего прочего, поможет нам строить и изучать модели организации коллективного поведе­ния в системах обслуживания. Если же в реальном мире локальные задачи будут решаться более тон­кими и «разумными» средствами, то тем лучше для системы. Однако для наглядности изложения мы на некоторое время сохраним терминологию парик­махерской.

Разделим всех клиентов на несколько типов. Каждый тип клиентов требует времени обслужива­ния, лежащего в некотором своем интервале. Каждо­му типу клиентов присвоим номер, одинаковый для всех клиентов данного типа, и назовем его номером клиента. Все клиенты, независимо от их номера, вносят до поступления в канал обслуживания одну и ту же плату. Пусть эта плата состоит из К одина­ковых монет, которые парикмахер кладет в копилку. После обслуживания, длившегося Т единиц времени, парикмахер вынимает из копилки Т монет. Если К=<Т, то в копилке ничего не остается и клиент не фиксируется. Если же К > Т, то в копилке остается (К—Т) монет и парикмахер вешает на копилку номер клиента. Клиент, номер которого висит на ко­пилке, в следующий раз имеет право на обслужива­ние без очереди. Если К равно среднему по всей системе времени обслуживания, то приоритет полу­чат клиенты, длительность обслуживания которых меньше, чем среднее в системе. Если имеющий прио­ритет клиент вновь придет на обслуживание, внесен­ная им плата добавится к остатку, находящемуся в обозначенной его номером копилке. Таким образом, за достаточный для этого отрезок времени, все кли­енты, время обслуживания которых меньше среднего, будут упорядочены по значениям содержимого копи­лок, т. е. по средним временам обслуживания, отне­сенным к частотам обслуживания клиентов. Действи­тельно, если клиенты типа А дают доход 1 руб и приходят 10 раз в день, то они безусловно выгод­нее клиентов типа Б, дающих доход 100 руб., но приходящих 1 раз в месяц. Если все типы клиентов упорядочены и имеют свои номера приоритетов, то для оптимизации длины очереди клиенты типа Б все равно должны иметь приоритет ниже, чем у кли­ентов типа А, хотя эффект от такого упорядочивания и невелик.

Приведенный способ формирования приоритетов мало чем отличается от набора в процессе функцио­нирования статистической информации о характери­стиках клиентов и решения на этом основании зада­чи об оптимальной системе приоритетов. Нас такое решение задачи не должно удовлетворять. Во-пер­вых, техническая сложность системы начинает зави­сеть от количества типов клиентов. Чем их больше, тем больше надо иметь копилок. Во-вторых, при та­кой постановке задача организации децентрализован­ного управления теряет содержательный смысл — на каждом канале обслуживания решается полная задача об оптимальной системе приоритетов. Попы­таемся упростить систему и, быть может, тем самым выявить некоторые новые привлекательные черты ее поведения.

Ограничим число приоритетов на каждом канале. Пусть каждый парикмахер может иметь лишь ограниченное, весьма небольшое количество «любимчиков». В простейшем случае—двух. Теперь парикмахе­ру достаточно иметь всего две копилки. Но тогда двое первых оказавшихся выгодными клиентов захватят приоритет на этом канале и, следовательно, формирование системы приоритетов прекратится.  Для того чтобы избежать возможности попадания в такие тупиковые состояния, организуем конкуренцию клиентов на канале. Если на обслуживание по­ступает клиент, не имеющий приоритета по этому каналу, содержимое копилок сравнивается между , собой и копилка, имеющая меньший запас, очищается и начинается работа с новым клиентом. Здесь естественно возникает вопрос о необходимом числе копилок. Их, как видно, должно быть не менее двух, но и не более числа типов клиентов. Исследование поведения таких систем показало, что увеличение числа копилок сверх двух приводит к незначительным изменениям качества функционирования, несоизмеримым с затратами на усложнение системы управления.

При построении такой системы возникает еще один вопрос. Если копилка захвачена клиентом, име­ющим сравнительно небольшое, но явно не минимальное среднее время обслуживания, и этот клиент сумеет накопить достаточно большую сумму в своей копилке, то очень мала вероятность того, что другие клиенты, используя оставшиеся копилки, сумеют превзойти его, хоть и медленно, но постоянно растущий запас. Если же, начиная с некоторого момента, клиент вообще перестал посещать парикмахерскую, то очень велика вероятность того, что на канале бу­дет удерживаться приоритет несуществующего клиента и опять-таки функционирование системы будет блокировано. Конечно, все эти трудности можно устранить повышением «интеллектуального уровня» правил формирования приоритетов. Но это уже назы­вается «пускаться во все тяжкие», а нас интересуют возможности формирования простейших правил взаи­модействия и алгоритмов оптимизации. Отсюда не следует, что если нам встретился умный парикмахер, то он должен зарыть свой талант в землю. Простей­шим выходом из создавшегося положения является ограничение объема копилки. Если копилка перепол­нится, то избыточные деньги сдаются в кассу. Оказывается, что введение такого ограничения улучшает поведение системы в случае, когда характеристики клиентов изменяются во времени и что для каждой степени нестационарности системы, т. е. для каждого среднего времени между изменениями характеристик клиентов, существует оптимальная емкость копилки, при которой средняя длина очереди минимальна. При этом, чем чаще изменяются характеристики, тем меньше должна быть емкость копилки.

Здесь уместно вспомнить о существовании опти­мальной глубины памяти целесообразных автоматов при их поведении в переключающихся случайных средах. Аналогия здесь полная. Действительно, чем меньше емкость копилок, тем выше способность сис­темы к переучиванию, тем она подвижнее, лабильнее. Однако, чем меньше емкость копилок, тем труднее системе различать между собой выгодных клиентов, тем грубее она работает. Оптимальная емкость как раз и соответствует компромиссу между качеством решения и временем, необходимым для его нахож­дения.

Выработка приоритетов для каналов (причем разных для разных каналов) улучшает еще одно ка­чество системы — количество переключении. Пере­ключением мы называем переход от обслуживания клиентов одного типа к обслуживанию клиентов другого типа. Если подряд обслуживаются два кли­ента одного типа, то переключения не происходит. Легко понять, что если данный канал, и только он предоставляет приоритет некоторому типу клиентов, то подавляющее большинство клиентов такого типа поступает на обслуживание именно на этот канал, что уменьшает разнообразие типов клиентов на ка­нале и, как следствие, снижает частоту переключении.

Что дает системе снижение числа переключении? Во-первых, переключение всегда связано с потерями. Это либо расходы на переналадку оборудования, либо, как в случае систем связи, источник дополни­тельных помех, либо дополнительная потеря времени.

Во-вторых, снижение числа переключении приво­дит к специализации канала обслуживания, что, как правило, приводит к снижению времени обслужива­ния приоритетных клиентов.

Здесь мы коснулись вопроса, который несколько расширяет нашу модель. Очевидны случаи, когда один и тот же клиент на разных каналах имеет разное время обслуживания и различные времена обслуживания имеют разные клиенты на одном и том же канале. В этом случае перераспределение клиен­тов по каналам будет изменять не только среднюю длину очереди, но и пропускную способность системы.

§ 4.3. Как мастер распределяет наряды

Рассмотрим производственный участок, состоящий из нескольких полностью взаимозаменяемых рабочих мест. На каждом рабочем месте выполняется не­сколько операций, составляющих цикл выполнения наряда. Независимо от того, кем выполняется работа, рабочим нли бригадой рабочих, мы будем называть совокупность рабочего места и исполнителя (канал обслуживания) рабочим.

Процесс выполнения наряда (обслуживания кли­ента) состоит из последовательности разнотипных работ. Например, наряд определяет работу но изго­товлению приспособления в инструментальном цехе. В последовательность работ входит фрезеровка, свер­ление, шлифовка, шабровка, сборка и т. п. Наряд характеризуется трудоемкостью каждой операции и ее сложностью. Трудоемкость операции определяется установленной для нее нормой времени, сложность — требуемым уровнем квалификации. На основании трудоемкости и сложности устанавливается расцен­ка—плата за изготовление приспособления, т. е. за выполнение наряда.

Каждый рабочий имеет различные уровни квали­фикации для работ разных видов. Квалификация рабочего на данном виде работ характеризуется ко­эффициентом перевыполнения нормы по этому виду работ.

Нетрудно понять, что время выполнения всех работ но данному наряду различно для различных рабочих. Оно зависит, с одной стороны, от набора норм времени на различные операции и, с другой стороны, от набора коэффициентов перевыполнения норм на этих операциях. Очевидно также, что сред­няя производительность труда на участке зависит от распределения нарядов между рабочими. Она тем выше, чем больше относительная трудоемкость от­дельных операций, выполняемых каждым рабочим, соответствует его индивидуальным возможностям.

Одна из задач мастера участка как раз и заклю­чается в том, чтобы, зная индивидуальные особенности каждого рабочего и характеристики нарядов, со­ставляющих плановое задание участку, организовать процесс производства, т. е. распределить наряды между рабочими. Опытный мастер, хорошо знакомый с возможностями рабочих своего участка, а также с возможностями и требованиями производства, успешно справляется с такого рода задачей.

Однако даже у самых опытных мастеров бывают ошибки. Они вызываются тем, что мастер в силу субъективных причин может недооценивать или переоценивать способности того или иного рабочего. Ему может быть свойствен определенный консерва­тизм, не позволяющий вовремя заметить рост квали­фикации у одного и ее падение у другого. Кроме того, единоличное принятие мастером решения может привести к трениям, связанным с появлением привилегированных и обиженных рабочих. Особенно это относится к случаям, когда в связи с несовершен­ством технического нормирования, отсутствием норм равной напряженности, недостатками в системе оплаты и т. д., существуют понятия «выгодной» и «невыгодной» работ. Так, например, из данных, взятых на реальном предприятии, с которыми мы стал­кивались при изучении этой модели, следует, что один и тот же рабочий, работая над самыми «выгод­ными» деталями, может заработать за день 11,5руб., а занимаясь «невыгодной» работой—всего 1,5 руб. в день.

Снова заметим, что возникающая ситуация харак­терна для огромного числа чисто технических систем, однако рассмотрение «одушевленного» примера не­сколько упрощает и изложение, и чтение.

При рассмотрении систем оперативного внутри­цехового управления можно поставить вопрос об ис­ключении мастера из процедуры распределения ра­бот и замене ее процедурой коллективного выбора работ рабочими. При этом с самого начала ясно, что решения типа организации аукциона работ или, что еще хуже, новгородского вече, неприемлемы для производственных условий по целому ряду причин.

Вообще говоря, если все параметры плана и ква­лификации рабочих известны заранее и не меняются в течение планового периода, то задачу об оптимальном распределении работ между рабочими можно было бы решить известными математическими мето­дами и заранее назначить исполнителей для всех нарядов. Трудности использования такого решения заключаются в том, что в течение планового периода наряды поступают на участок неравномерно. На про­цесс поступления нарядов влияет много неконтроли­руемых факторов. Производительность труда рабо­чего подвергается случайным колебаниям, зависящим от его настроения, состояния здоровья, усталости и т. п. Плановые задания могут изменяться внутри планового периода. В связи с этим предварительное жесткое распределение может привести к простою одних рабочих при наличии очереди к другим. Пре­одоление этих трудностей достигается за счет орга­низации оперативного управления распределением потока нарядов по рабочим, что, в частности, может быть реализовано путем выработки системы динами­ческих приоритетов при наличии общей очереди на­рядов на выполнение работ.

На основании модели, рассмотренной в предыду­щем параграфе, можно предложить правила взаимо­действия рабочих, обеспечивающие децентрализован­ное распределение нарядов между ними.

Все наряды на выполнение работ разбиваются на группы. В каждую группу попадают работы, сходные по относительной трудоемкости на разных типах работ. Каждый рабочий с определенной периодич­ностью, например каждый день утром или каждый понедельник утром, может назвать один или два типа работ, которые он хотел бы выполнять. Такое объявление может быть и не периодическим, а де­латься после выполнения очередного наряда. При обращении рабочего за очередным нарядом он полу­чает объявленную им предпочтительную для него работу, если такой наряд имеется. Все наряды обра­зуют очередь, в которой существует своя структура, определяемая важностью работ, критическими сро­ками их исполнения и т. п. Если в очереди нет объявленной рабочим работы, то он получает первый стоящий в очереди наряд.

Технические средства для реализации такой сис­темы на участке состоят из ящика, в который скла­дываются наряды по мере их поступления, и челове­ка, который упорядочивает их в зависимости от имеющихся требований и выдает рабочим в соответ­ствии с описанным выше алгоритмом. Для улучше­ния качества функционирования системы обычно оказывается полезной некая дополнительная инфор­мация, для записи которой можно использовать обычную доску, где рабочие вывешивают для всеоб­щего обозрения номера своих приоритетных групп нарядов.

Естественно предположить, что в основу выбора приоритетных номеров ляжет предпочтительность соответствующих работ для каждого конкретного ра­бочего. Можно также допустить, что основой для формирования представлений о предпочтительности будет «выгодность» или «невыгодность» для данного рабочего тех или иных типов работ. Следует также предположить, что рост суммарной заработной пла­ты в этом случае соответствует росту производитель­ности труда.

При функционировании такой системы возникает опасность, что все рабочие назовут в качестве прио­ритетной одну и ту же самую «выгодную» работу и система приоритетов не даст ожидаемого эффекта. Заметим, однако, что чем большее число рабочих будет считать приоритетной одну и ту же работу, тем меньше будет ее средняя «выгодность» для каж­дого рабочего, так как тем реже она будет попадать к нему. Легко понять, что разумнее иметь каждый день лишние 2 руб., чем один раз в месяц 20 руб. Можно надеяться, что эту истину достаточно быстро поймут участники распределения. Можно надеяться, что в качестве приоритетных будут закрепляться не просто самые выгодные при единичном исполнении работы, а работы, наибольшая выгодность которых обеспечивается также и частотой их поступления к данному рабочему.

Приоритетное закрепление типов работ за рабо­чими, как и в модели приведенной в § 4.2, должно приводить к специализации рабочих на некоторых типах работ, что в свою очередь должно приводить к повышению производительности труда и пропуск­ной способности участка, а также к увеличению пред­почтительности приоритетных работ.

Внедрение такой системы организации оператив­ного распределения работ, как нетрудно понять, сопряжено с большим числом (в том числе психологических) трудностей. Эксперимент в реальной про­изводственной системе до сих пор не проведен, хотя подготовка к нему проводилась в ряде мест, в том числе и на таллинском Электротехническом заводе им. М. И. Калинина. В ходе подготовки к экспери­менту проводилось исследование системы распределе­ния на модели.

Как была организована такая модель? В каче­стве исходных использовались данные по двум участ­кам завода «Красный Пролетарий» (Москва) и заво­да «Пневматика» (Ленинград). (22 детали и 3 ра­бочих, 47 деталей и 5 рабочих, 25 деталей и 12 ра­бочих.) На ЭВМ программным путем моделировался процесс поступления деталей и их обработки. Каж­дый раз, когда возникала необходимость выдачи но­вого наряда, машина через терминал обращалась с вопросом к оператору, располагавшему полной ин­формацией о характеристиках нарядов и рабочих и имевшему опыт в распределении работ. Этот человек представлял в модели беспристрастного и хорошо ин­формированного мастера. Таким образом было про­моделировано и изучено функционирование участка в течение 500 ч. Затем процедура распределения была реализована как результат коллективного пове­дения. Каждый рабочий при этом моделировался двумя копилками типа, описанного в § 4.2. В резуль­тате моделирования 10 000 ч работы участка оказа­лось, что введение приоритетов увеличивает пропуск­ную способность участка по сравнению с дисципли­ной «первый пришел — первый обслужен» для реаль­ных данных от 3 % до 7 % на различных участках. Заметим, что хорошо информированный беспри­страстный мастер добивается в наших ситуациях практически тех же результатов, что и коллектив рабочих,   моделируемый   весьма   примитивными локальными средствами принятия решений.

§ 4.4. Проблема нескольких арен

Цирк, наверное, самое древнее в мире искусство. Во всяком случае, одно из древнейших. И за тыся­челетия своего существования цирк, конечно, изме­нился. Но со времен появления в нем круглой арены диаметр ее во всех цирках мира стандартен. Все цирковые номера рассчитаны на его величину, изменение ее может привести к трагическому исходу опасного номера (а какие номера в цирке не опас­ны?). Поэтому возникло острое противоречие между размером арены и стремлением сделать помещение цирка более вместительным. Но если арена не может быть увеличена, то как увеличить размер зрительного зала? Сидящим вдали от арены мало удастся уви­деть, и уж тем более они не смогут испытать того «эффекта присутствия», которым так славится цирк.

Выход из этого положения был найден в том, что вместо одной арены в современных цирках их стало несколько. Теперь цирковые номера могли идти в параллель, а при необходимости последовательно дублироваться на различных аренах. Увеличилась «пропускная способность» цирка. Зритель получил возможность за один вечер увидеть куда больше, чем в старом цирке. Исчезла необходимость длительных перерывов между номерами, связанных с подготов­кой арены и артистов.

Но возникла новая задача. Как планировать но­мера на имеющихся аренах? В хорошо отработанной программе, когда время на подготовку каждого но­мера и исполнение его известно с большой точностью, эта проблема стоит не столь остро. Но в сборных программах-ревю, особенно с участием иностранных артистов, трудно заранее точно предсказать ту по­следовательность номеров на каждой из арен, кото­рая позволит провести всю программу в минималь­ное время.

Эта задача — пример известного класса задач о составлении оптимальных расписаний обслужива­ния при наличии времени, требуемого для перена­ладки оборудования. Классической моделью этой задачи является задача о расписании обработки сложных деталей на станках, требующих при пере­ходе от выполнения одной операции к другой некото­рого времени для переналадки. Мы просто, как часто делается в нашей книге, привели пример такого со­держания, чтобы возбудить у читателя рой нужных нам ассоциаций.

А на деле мы в дальнейшем рассмотрим куда бо­лее сложную и серьезную модель обслуживания, чем та, которой пользуется режиссер цирковой програм­мы. Но метод, который мы обсудим, вполне пригоден и для решения задачи об использовании нескольких арен цирка. И если среди читателей нашей книги неожиданно найдется деятель циркового искусства, любящий читать научно-популярную литературу, то он может смело применять тот метод, который мы укажем.

Среди систем вычислительных машин, решающих различные хозяйственные, информационные или на­учные задачи, можно выделить группу систем с по­стоянным набором программ, хранящихся в их па­мяти. Такие системы предназначены для решения ко­нечного набора задач N1, N2, ... , Nk. Число машин, входящих в систему, равно l, и имеет место неравен­ство l>k. Обозначим программы для решения тех или иных задач через M1, M2, .... Mk; с их по­мощью решаются нужные потребителям задачи. За­явки на выполнение программ поступают на вход си­стемы в случайном порядке, и система не знает апри­ори никаких характеристик этого потока.

Каждая машина системы может быть настроена на выполнение некоторой определенной программы Mi (i = 1, 2, ..., k). Это означает, что в оперативной памяти машины хранится сама программа для реше­ния задачи Ni и необходимые для этого исходные данные. Подобно арене, приготовленной для выступ­ления определенной группы артистов, такая вычис­лительная машина подготовлена для выполнения вполне определенной программы. Настройку системы машин будем производить децентрализованно. Для этого придадим каждой ЭВМ автомат, имеющий k со­стоянии. Пусть pij есть вероятность смены состояния с номером i на состояние с номером j (перенастрой­ка ЭВМ с программы Мi на программу Мj). Как всегда Сумма (pij)=l.  Если автомат Am  (т — номер ЭВМ в системе и т=1,2,..,l) настроен на вы­полнение программы Mi и свободен, а на вход сис­темы поступает заявка на ее выполнение, то Am бе­рет эту заявку на обслуживание и получает сигнал поощрения. Автомат Am есть автомат с переменной структурой, о котором мы рассказывали в гл. 2. Поэтому, получив сигнал поощрения, он увеличивает вероятность рii и пропорционально уменьшает осталь­ные вероятности pij для i не равное j. Если автомат при по­ступлении требования на решение задачи Ni был настроен на нее, но уже выполняет другое, ранее поступившее требование на решение тон же задачи, то он также получает сигнал поощрения и меняет вероятности переходов, как и автомат, принимающий к исполнению вновь поступившую заявку.

Пусть автомат Am настроен на выполнение про­граммы Mi и свободен, а вновь пришедшая заявка требует выполнения программы mj при j  i; тогда поощрение и наказание Am зависят от той ситуации, которая сложилась в данный момент в вычислитель­ной системе. Если среди свободных автоматов имеются такие, которые настроены на М,, то они берут заявку на обслуживание, а на вход Am ника­кого сигнала не поступает. Он продолжает ждать «свою законную» заявку. Если же таких автоматов в системе нет, то они отказываются от обслужива­ния, а все свободные автоматы (в том числе и Am), получают сигнал наказания. Этот сигнал заставляет Am уменьшить значение рii и увеличить пропорцио­нально все остальные значения рij при i не равном j.

Что может дать такая модель настройки? Не­трудно видеть, что вычислительные машины системы с помощью настраиваемых автоматов будут выбирать из входного потока требований на обслуживание прежде всего те, которые чаще всего в этом потоке встречаются. Вспомнив о парикмахерской, мы можем сказать, что мастера всегда готовы обслужить кли­ентов, регулярно появляющихся в парикмахерской, а случайный приезжий, как правило, получит у них отказ со ссылкой на то, что часть мастеров заняты, а остальные ждут своих клиентов, которые «вот-вот должны подойти».

Для управления бытового обслуживания населе­ния, которому подчиняется эта парикмахерская, дело обстоит не слишком хорошо. Мастера простаивают, а клиенты получают отказ. Для тех, кто проектиро­вал вычислительную систему, ситуация аналогична. Простои ЭВМ не приносят ничего, кроме убытка. Штраф же, которым облагаются простаивающие ЭВМ, берется, в конце концов, из того же кармана.

Из этого положения можно найти, например, сле­дующий выход. Пусть сначала к потоку требований на обслуживание адаптируется только одна ЭВМ. Когда она начнет работать с полной загрузкой, оставшийся поток требований можно использовать для обучения следующей ЭВМ и т. д. На долю какой-то ЭВМ останется «тощий поток», содержащий лишь редко встречающиеся заявки. И специально для этой ЭВМ можно сделать буферную память, в которой редкие заявки будут ждать своей очереди на обслуживание (небольшой очереди, так как эти заявки поступают нечасто), а не будут получать обидный отказ. В парикмахерской роль такой осо­бой ЭВМ может выполнять молодой мастер-практикант, к которому образуется очередь из случайных для данной парикмахерской клиентов. Читатели, по­сещающие модные парикмахерские салоны в круп­ных городах, конечно, видели реализацию этой про­цедуры на практике.

Разницу в предложенных двух способах адапта­ции автоматов можно проиллюстрировать на кон­кретном примере, полученном путем моделирования на  вычислительной  машине.  Будем  оценивать качество функционирования системы отношением Н=L*/Lt, где L*число выполненных заявок за некоторый фиксированный интервал времени, a Lt — число всех поступивших за это время заявок. Пусть вычислительная система состоит из двух ЭВМ, на­строенных на выполнение одной из четырех про­грамм M1, М2, М3 и M4 соответственно автоматами А1 и А2. На вход системы обслуживания поступает поток требований на выполнение указанных про­грамм. Характеристики этого потока, неизвестные для A1 и A2 в описываемом эксперименте, были за­даны следующими вероятностями появления заявки определенного типа: P1=0,15, P2=0,30, Рз=0,45, Р4=0,10. До обучения системы Н=0,5. После обу­чения по первому способу Н=0,54. Таким образом, первый способ обучения оказывается не слишком эффективным. Если же второй автомат обучается на потоке, остающемся после отбора из него заявок первым автоматом, который так адаптировался, что он настраивается на выполнение только одной программы, то при втором способе обучения Н=0,57 после обучения первого автомата, а после обучения автомата А2. значение Н стало равно 0,63. Если же второй автомат заявок не теряет, то при определенном периоде наблюдения Н= 0,85.

Рассмотренная нами задача о распределении ЭВМ вычислительной системы по заявкам на обслуживание, поступающим случайным и заранее неизвестным образом, является прообразом многих тех­нических задач, возникающих при управлении слож­ными системами. Управление коммутацией каналов на узле связи, включение насосов в большой водо­проводной сети, работ сортировочной горки на желез­ной дороге и многое другое может быть организовано по принципу, который был изложен в трех последних параграфах.

§ 4.5. Задача о жилищной комиссии и родственные ей задачи

До сих пор, говоря о децентрализованном управ­лении и коллективном поведении, мы имели ввиду поведение, целью которого является удовлетворение тем или иными критериям пользы. Однако очень часто при организации совокупного поведения целью систе­мы является достижение согласованного поведения объектов, образующих систему. Организуя поведение системы, мы должны уметь обеспечить возможность для ее составных частей договориться между собой.

В предыдущей главе мы уже рассматривали возможные варианты договоров. Такими договорами, или соглашениями, были процедура общей кассы и правила случайного парного взаимодействия. С дру­гой стороны, указанные соглашения сами по себе могут являться целью поведения, направленного на ее достижение. Поведение, направленное па достиже­ние подобных целей, образует в некотором смысле более высокий, чем рассмотренные ранее, уровень управления. Децентрализация здесь означает, что соглашения не навязываются свыше, а порождаются взаимодействием объектов. Формулировка правил такого взаимодействия есть задача следующего уров­ня иерархии управления.

Если считать, что бога нет, то на самом верхнем уровне иерархии, порождающем правила поведения для более низкого уровня, эти правила должны быть весьма просты и не могут порождаться никаким другим механизмом, кроме случайного перебора. Пусть ограниченного, направленного, но перебора.

Задача о достижении договоренности обычно усложняется противоречивостью интересов договари­вающихся сторон. Если два человека любят друг друга, то достижение договоренности о вступлении в брак обычно не связано с существенными трудно­стями. Но попытка достичь соглашения о раздела имущества при разводе подчас оказывается нереальной без вмешательства суда. Централизованное ре­шение задачи через суд снижает размер получаемого каждым имущества на величину судебных издержек.

Рассмотрим несколько ситуаций, в которых дости­жение соглашения связано с преодолением противо­речивых интересов, и обсудим возможные процедуры взаимодействия, обеспечивающие достижение такого соглашения.

Очень часто принятие тех или иных решений до­стигается путем голосования. Сначала отбирается некоторое количество, обычно существенно ограни­ченное, альтернативных соглашений или решений. Затем проводится голосование и в соответствии с соглашением, достигнутым на более высоком уровне иерархии, отбирается решение, получившее боль­шинство голосов. Таким образом функционируют многочисленные советы, комиссии, парламенты и международные организации. Функции голосования формируются и в некоторых технических системах, например в системах повышенной надежности. Однако использование механизма голосования не всегда приводит к желаемым результатам, а при некоторых соглашениях о процедуре голосования, принятие решения оказывается невозможным. Вспом­ните, например, о праве вето в Совете Безопасности.

Представьте себе Технический совет крупной само­летостроительной фирмы. В этот совет входят спе­циалисты самого различного профиля — специалисты по прочности и электронике, специалисты по двига­телям и аэродинамике, специалисты по системам пожаротушения и дизайнеры. Если в таком совете решения принимаются голосованием, то для подав­ляющего большинства членов совета многие из рас­сматриваемых вопросов весьма далеки от области их профессиональных интересов. В таком случае любое решение принимается непрофессиональным боль­шинством.

Можно ли в этой ситуации улучшить качество принимаемых решений? Можно. За счет введения очень простого правила участия в голосовании. Каж­дый член совета в течение, например, года может голосовать ограниченное число раз. Тогда в каждом голосовании будут принимать участие только заинтересованные в результате голосования члены совета.

Компетентность принимаемых решений в этом случае возрастает. Для каждого члена совета возникнет необходимость решать две задачи: принимать или не принимать участие в голосовании и, если принимать, то как голосовать. Приведенный пример интересен еще и тем, что он иллюстрирует ситуацию, в которой ограничение па ресурс, используемый в системе (число участии в го­лосовании), улучшает качество ее функционирования.

Выше мы же заметили, что процедура голосова­ния не всегда обеспечивает принятие решения. Реше­ние может оказаться невозможным, если для его принятия требуется 2/3 голосов или если решение должно быть принято абсолютным большинством, а число возможных решений превышает два. Известно несколько процедур, устраняющих такие тупиковые ситуации. Голосование проводится в несколько туров. Если в очередном туре не удалось выработать реше­ние, то может быть снижено число решений, участ­вующих в следующем туре, или отброшены решения, получившие наименьшее число голосов, или, как это имеет место на президентских выборах во Франции, изменено соглашение о принятии решения, и в по­следнем туре оно принимается относительным боль­шинством. Однако при таком механизме все вынуж­дены согласиться с принятым решением, но боль­шинство голосовавших с ним не согласно. С другой стороны, наличие права вето, казалось бы, полностью зачеркивает возможность эффективного применения процедуры голосования для принятия решений.

Попытаемся все-таки подумать, каким же обра­зом можно добиваться принятия решений при нали­чии права вето и явно противоречивых интересах участвующих в голосовании. Для этого обратимся к сформулированной М. Л. Цетлиным «Задаче о жилищной комиссии». В лекции, прочитанной им на заседании секции Физиологического общества в Москве 23 февраля 1965 г., он говорил: «...в несколь­ких словах я хочу пояснить, в чем состоит трудность распределения жилплощади и какое отношение име­ет она к автоматам. Имеется сколько-то квартир, вообще говоря, не очень много, гораздо меньше, чем число нуждающихся. Если бы их было много, то никакой проблемы, никакой жилищной комиссии не было бы, ей просто нечего было бы делать. Все квар­тиры мы будем считать одинаковыми, скажем, двух­комнатными. Если будут разные квартиры, то будет просто несколько разных задач: как распределить двухкомнатные квартиры, как распределить одно­комнатные квартиры и т. д.

Имеется N нуждающихся в квартирах, и имеется т членов комиссии, т не очень большое. Давайте теперь представим себе, как фактически работает комиссия. Каждый человек берет в руки список нуждающихся и смотрит, кто из них нуждается боль­ше всех, кто следующий и т. д., т. е. каждый состав­ляет некоторую очередь из нуждающихся. Вот, на­пример, первый из них пишет так (я буду людей обозначать буквами, если можно):

                        a1,a2,a3,a4, ... , an

а где-то он еще проведет черту, скажем, после a3 (квартиры кончились). Заметьте, что, составляя спи­сок, он будет очень тщательно выбирать тех, кто попадет левее черты. Так же поступит второй член комиссии, третий и т. д. Эти свои мнения они друг другу сообщат. Например, можно считать, что они выпишут их на доске. Ну и дальше, говоря формаль­но, останется только разводить руками. Ничего здесь решить голосованием нельзя и вот почему. Потому, что у нас квартир меньше, чем нуждающихся, и, как правило, эти списки не будут ни у кого совпадать. Но если я составил список и один из моих людей не попал, то я за такое решение голосовать отказываюсь. Поэтому я буду голосовать только за свой список. До тех пор, пока я не буду уверен, что мне удастся провести своих людей, я голосовать «за» не буду. А если буду, то зря меня выбирали в жилищную комиссию. Смотрите, что будет получаться. На дос­ке написаны мнения всех членов комиссии. Если ока-жется, что у большинства эти мнения совпадают, тогда можно решить вопрос голосованием. Давайте разберемся, вероятно ли это? Нет, совершенно не­вероятно потому, что на самом деле имеется N! раз­ных мнений, где N — число нуждающихся, и вероят­ность того, что мнения совпадут очень невелика. Поэтому первое, что увидят члены жилищной комис­сии: прийти к общему мнению невозможно. Кстати, во всякой разумно устроенной жилищной комиссии решение не принимается голосованием: начинают голосовать лишь тогда, когда есть уверенность, что это решение единогласно. Ясно, почему это делается. Если я остаюсь при своем особом мнении и меня не сумели бы убедить, что решение правильно, то жи­лищная комиссия заседала бы все это время на­прасно. Я пойду в местком, и разбирательство начнет­ся сначала. Как правило, решение жилищной комис­сии должен утверждать местком, и если кто-нибудь из членов комиссии обоснованно возражает, то мест­ком ничего не утвердит, а пошлет жилищную комис­сию утрясать между собой мнения. Значит, решать при помощи голосования все-таки нельзя. Может быть, здесь стоит сказать, когда можно решать го­лосованием. Если мы, здесь собравшиеся, будем вы­бирать председателя из трех возможных кандидатов, то мы вполне можем решить такую задачу голосо­ванием, потому что возможных мнений здесь гораздо меньше, чем число собравшихся, и только в таких случаях и можно решать голосованием. В нашем случае решать голосованием нельзя. Значит, члены комиссии должны прийти к какому-то разумному компромиссу, договариваясь между собой без голо­сования. Как они могут между собой договариваться? Прежде всего, никому не возбраняется изменять свои мнения. Во-вторых, и мы всегда об этом всерьез думаем (хотя, я думаю, это не очень верно), мы можем пытаться друг друга уговаривать. На самом деле, по любому вопросу, вероятно, здравого чело­века можно в чем-то как-то убедить... Оказывается, что эта задача может быть сформулирована в тер­минах игр автоматов...»

М. Л. Цейтлин хорошо представлял себе описан­ную ситуацию, так как, кроме того, что он был за­мечательным ученым, в течение многих лет он был членом жилищной комиссии Института прикладной математики АН СССР.

Рассмотрим ситуацию с несколько менее жесткими, чем в жилищной комиссии, противоречиями в интересах. Рассмотрим конкурсную комиссию, отби­рающую научные работы для премирования на кон­курсе. Если конкурс проводится в научном учрежде­нии достаточно широкого научного профиля, то представители отделов, как правило, убеждены, что работа, выполненная в их отделе, которую они хоро­шо понимают, лучше, чем работы, выполненные в других отделах, которые они понимают хуже или вообще не понимают и поэтому считают чушью. Заключительная стадия работы такой комиссии не­сколько напоминает соревнования по фигурному ка­танию — каждый член комиссии упорядочивает все выступления (работы) и сумма занятых мест явля­ется окончательной оценкой каждого выступления. При этом членов комиссии могут ожидать неожи­данные сюрпризы, когда с результатами голосования не согласен никто. Рассмотрим конкретный пример.

Пусть в некотором учреждении на конкурс по­дали работы семь человек: Иванов, Петров, Сидоров, Кошкин, Мышкин, Собакин и Лошадкин, представ­ляющие четыре отдела. В комиссию входят предста­вители этих отделов и председатель комиссии от ди­рекции. Лошадкин—сотрудник в институте сравни­тельно новый и еще не увяз в сложной структуре взаимоотношений.

В результате обсуждения члены комиссии следую­щим образом упорядочили кандидатов на три объяв­ленные премии:

 

1. Иванов

1.

Собакин

1.

Иванов

,

Собакнн

I.

Иванов

2. Петров

2.

Иванов

2.

Мышкин

2.

Сидоров

2.

Кошкин

3. Сидоров

3.

Мышкин

3.

Кошкин

3.

Иванов

3.

Петров

4. Лошадкин

4.

Лошадкин

4.

Лошадкин

4.

Лошадкин

4.

Лошадкин

5. Кошкин
6. Мышкин

5. 6.

Кошкин Сидоров

5. 6.

Сидоров Петров

5. 6.

Петров Мышкин

5. 6.

Сидоров Собакин

7. Собакин

7.

Петров

7.

Собакин

7.

Кошкин

7.

Мышкин

 

На доске были выписаны следующие голосования:

Фамилия

Сумма мест

Результат

Число голосов за призовое место

Иванов

8

1-я премия

5

Петров

23

6-е место

2

Сидоров
Кошкин

21

22

3-я премия 4—5-е место

2
2

Мышкин

24

7-е место

2

Собакин

22

4—5-е место

2

Лошадкин

20

2-я премия

0

 

Лошадкин, которого ни один из членов комиссии не считал достойным премии, получил вторую премию. В то же время Собакин, которого два члена комиссии считали достойным первой премии, поделил с Кош­киным четвертое и пятое места. Результаты откло­няются комиссией по крайней мере тремя голосами против двух, и председатель предлагает повторить работу, произнося при этом слова об объективности и ответственности. Подумаем, какие мотивы могут возникнуть у членов комиссии при новом упорядочи­вании.

Первый член комиссии доволен результатами, однако, полагая, что Иванову ничего не грозит, он может подкрепить позиции Сидорова и Петрова, не­много повысив их оценку и понизив оценку у их -конкурентов.

Тем же путем второй член комиссии может по­пытаться подкрепить позиции Собакина и Мышкина. Аналогично действуют и остальные члены комиссии, борясь за своих кандидатов на премии. Списки вто­рого тура выглядят следующим образом:

 

1. Петров

1.

Собакин

I

мышкин

1.

Собакнн

1.

Кошкин

2. Сидоров

2.

Мышкин

2.

Иванов

2.

Сидоров

2.

Петров

3. Иванов

3.

Иванов

3.

Кошкин

3.

Иванов

3.

Иванов

4. Мышкин

4.

Петров

4.

Петров

4.

Мышкин

4.

Мышкин

5. Кошкин

5.

Кошкин

5.

Лошадкин

5.

Петров

5.

Лошадкин

6. Лошадкин

6.

Лошадкин

6.

Сидоров

6.

Лошадкин

6.

Собакин

7. Собакин

7.

Сидоров

7.

Собакнн

7.

Кошкин

7.

Сидоров

 

Результаты снова были выписаны на доске:

Фамилия

Сумма

мест

Результат

Число голосов за призовое место

Иванов

14

1-я премия

5

Петров

16

3-я премия

2

Сидоров

24

6-е место

2

Кошкин

21

4-е место

2

Мышкин

15

2-я премия

2

Собакин

22

5-е место

2

Лошадкин

28

7-е место

0

 

Первый член комиссии удовлетворен результатами голосования, тем более, что он при следующем голосовании может только испортить жизнь Мышкину, но никак не может помочь Сидорову занять призовое место. Второй член комиссии может, ко­нечно, повысить сумму мест Петрова до 19, но это никак не поможет Собакину. Аналогично третий член комиссии не может помочь Кошкину за счет Петрова, а пятый член комиссии не может помочь тому же Кошкину за счет Мышкина. Менее всех удовлетворен результатами четвертый член комиссии — только один из его фаворитов получил премию, но и он не в состоянии изменить результаты. Более того, «темная лошадка» Лошадкин лишился своего случайного преимущества.

Полученное в результате второго тура решение устойчиво в том смысле, что никому в одиночку не удается изменить общее упорядочение, не ухудшив при этом собственный результат. Здесь просматри­вается очевидная аналогия с ситуацией равновесия по Нэшу.

С другой стороны, могут быть образованы коали­ции среди членов комиссии, которые окажутся в со­стоянии изменить распределение. Существуют способы ограничения возможности образования коалиций, например признание сговора между членами комис­сии аморальным.

Лет 10 тому назад, на ученом совете Ленинград­ского Отделения Центрального Экономико-Математи­ческого института АН СССР, при подведении итогов конкурса научных работ молодых ученых нами была испробована такая многошаговая процедура оценки. Уже третий тур привел к перемене только восьмого и девятого места, и по общему мнению членов совета оценка результатов конкурса была справедливой.

Справедливость при этом понимается как разум­ный компромисс между собственным представлением о системе предпочтений и противоречащей ему си­стемой предпочтений у остальных членов комиссии. Существенна   устойчивость   этого   компромисса. Аналогичные процедуры можно предложить и для жилищной комиссии.

§ 4.6. «Упрямые» автоматы и голосование

Дадим теперь формальную модель децентрализо­ванного согласования мнений. В традициях нашего изложения она будет описана на уровне функциони­рования коллектива автоматов. В' качестве членов этого коллектива будут выступать специальные «упрямые» автоматы. Простейший автомат такого типа показан на рис. 4.1. (На рис. 4.1 и 4.2, как и ранее, сплошными стрелками показаны переходы автоматов при сигнале поощрения, пунктирными — при сигнале наказания.) Как мы видим, упрямый автомат является вероятностным. У него два состоя­ния, которые соответствуют двум типам голосования («за» и «против»). Величина Эпсилон (E) характеризует степень упрямства автомата. Если его штрафуют (например, «стыдят» его за то голосование, которого он придер­живался), то он с вероятностью 1—E принимает эту критику и меняет свое мнение. С вероятностью же E он продолжает отстаивать свою точку зрения. Если же его поощряют, то из-за своего упрямства с веро­ятностью E автомат все же в следующий тур голо­сования может сменить свой выбор.

Взаимодействие меж­ду автоматами в коллек­тиве мы организуем по следующему   принципу, близкому к идее случай­ного взаимодействия: перед каждым туром го­лосования автоматы случайным образом разби­ваются на тройки (общее число автоматов, уча­ствующих в голосовании, будем для простоты считать кратным трем), в тройке с равной ве­роятностью выбирается один из автоматов и на его вход подается сигнал наказания, если его состояние не совпадает с состояниями двух других автоматов в данной тройке. В противном случае на его вход подается сигнал поощрения. Далее выбранный авто­мат с долей упрямства е производит смену своего мнения или сохраняет его. Эта операция проводится перед каждым туром голосования в новой случайно формируемой тройке и с новым случайно выбирае­мым автоматом в каждой тройке.

В каждой тройке происходит смена мнений (с известной долей упрямства) по принципу «как боль­шинство, так и я». Можно строго доказать, что коллектив таких автоматов выходит на статистиче­ски устойчивую точку, подобную точке Нэша. Доля автоматов, приходящих в нее, равна доле автоматов, ее покидающих. Если в исходном коллективе в пер­вом туре голосования большинство автоматов голо­совало «за», то эта точка такова, что и абсолютное большинство автоматов будет в ней голосовать «за». Если же исходное голосование было таково, что голосующих «против» было ощутимо больше поло­вины, то устойчивая точка будет нам демонстриро­вать абсолютное большинство голосующих «против». Когда в исходном состоянии доли автоматов,ьголосующих «за» и «против», приблизительно равны, то выход в устойчивую точку будет происходить лишь при небольших значениях параметра упрямства E. Уменьшая его, можно добиться, чтобы коллектив все-таки вышел на устойчивую точку (даже один голос перевеса в начальной ситуации приведет к переходу нужной для абсолютного большинства части автоматов на это мнение).

Наши упрямые автоматы были выбраны так, что они симметрично оценивали мнения «за» и «против». Психологические эксперименты, проведенные с людь­ми много раз, показывали, что для абсолютного большинства испытуемых этой золотой середины в выборе мнений не наблюдается. Одни более склонны принимать положительные альтернативы, голосуя «за», другие более склонны голосовать «против». Такую несимметричность легко привнести и в наши автоматы. Рис. 4.2 демонстрирует, как это можно сделать. На рис. 4.2, а показана диаграмма смены состояний для упрямого автомата, предпочитающего голосовать «против», а на рис. 4.2, б — для любителя голосовать «за». В коллективе такие несимметрич­ные автоматы ведут себя аналогично симметричным. Их однородные совокупности выходят на такие же устойчивые точки, как и однородный коллектив из симметричных автоматов. Только скорость сходимости к ним будет несколько иной.

Естественно обсудить и модель неоднородного кол­лектива. Можно изучить два вида неоднородности. Во-первых, можно рассмотреть совокупность сим­метричных и несимметричных автоматов двух типов. Эксперимент на ЭВМ показал, что такой коллектив ведет себя подобно однородному. Обе устойчивые точки достигаются им успешно. Во-вторых, можно рассмотреть коллектив, в котором автоматы разли­чаются по степени своего упрямства. Параметр упрямства для некоторого фиксированного автомата может   принимать   значения   из   множества {E1,E2, ..., En}. Но, как показывает эксперимент, и такой коллектив выходит либо на устойчивую точку, где абсолютное большинство голосует «за», либо на аналогичную точку, где абсолютное большинство го­лосует «против». На рис. 4.3 приведены типовые кривые, получаемые в результате моделирования. По оси абсцисс на этом рисунке отложены такты моделирования t (туры голосования), а по оси ор­динат Мю — доля автоматов в коллективе из N авто­матов, которая голосует «против» (Мю0 — начальная доля таких автоматов). На рис. 4.3, а и 4.3,6 рас­смотрен однородный коллектив с разным числом автоматов в коллективе и разным начальным пред­почтением в коллективе голосующих. На рис. 4.3, в показан процесс моделирования для неоднородного коллектива, в котором имеется два типа автоматов, отличающихся по параметру своего упрямства.

Интересно отметить, что в отсутствие перемешивания в коллективе автоматов (например, при фик­сации для каждого автомата множества его возмож­ных соседей) эффект, который мы наблюдаем на рис. 4.3, становится недостижим. Это еще раз под­черкивает важность процедуры случайных взаимо­действий в «жизни» автоматных коллективов.

Выше мы рассмотрели простейшую модель голо­сования. Теперь от нее мы сможем перейти к модели, которая напомнит нам трудное заседание жилищной комиссии или парадокс «темной лошадки» Лошадкина при отборе работ на конкурсе. Наш коллектив, как и ранее, будет состоять из упрямых симметричных автоматов. Но теперь число состояний каждого авто­мата равно К, где К — число ранжируемых объектов. Если мы вспомним наш пример с конкурсной комис­сией из § 4.5, то там К=7 и каждый упрямый автомат, моделирующий некоторого члена конкурс­ной комиссии, должен иметь 7! состояний. Каждое состояние автомата есть некоторая фиксированная ранжировка объектов.

Предположим, что перед каждым туром голосо­вания происходит случайное разбиение коллектива автоматов на пары (т. е. осуществляется случайное парное взаимодействие). Если в коллективе нечетное число автоматов, то автомат, не вошедший в пару, в очередном туре голосования сохраняет свои пред­шествующие предпочтения. Для каждой пары вы­числяется значение рассогласованности предпочтений тех автоматов, которые попали в пару. Меру этой рас­согласованности ро можно подсчитать следующим об­разом. Пусть имеются два предпочтения (И, П, С, Л, К, М, Сб) и (Сб, И, М, Л, К, С, П). Б качестве объектов взяты претенденты на премии из примера § 4.5, а фамилии заменены первыми их буквами. Берем первый элемент из первой шкалы И и смотрим на каком месте он стоит во второй шкале. Во второй шкале он стоит на втором месте. Разность мест равна 1. Далее возьмем второй элемент первой шкалы П и снова смотрим, "на каком месте он на­ходится во второй шкале. В нашем случае он стоит на седьмом месте. Разность мест равна 5. Повторяем этот процесс для всех элементов шкалы и суммируем получившиеся разности. Эта сумма и есть мера рассо­гласованности двух шкал.  В  нашем примере ро=1+5+3+0+0+3+6=18.

Пусть произведено разбиение множества автома­тов с их предпочтениями на N/2 пар (N общее число автоматов в коллективе, если N—четно, либо число автоматов в коллективе без одного, если N—нечетно). Для каждой пары подсчитывается мера рассогласованности. Сумма этих мер, деленная на N/2, определяет Rмеру рассогласованности мнений по коллективу автоматов. Именно она характеризует успешность или неуспешность коллективного голосова­ния. Если R=0, где R—мера рассогласованности по коллективу, то это означает, что у всех автоматов коллектива, состоящего из четного числа членов, все мнения полностью совпали.

Пусть в паре автоматов равновероятно выбирается один из них, который будет изменять свои предпоч­тения с вероятностью 1—E сохранять их неизмен­ными с вероятностью E. Как будет организовано изменение предпочтений? Автомат выделяет в мере рассогласованности тот элемент, который вносит в нее максимальное рассогласование. В том примере, кото­рый мы только что рассмотрели, таким элементом является Собакин. Его вклад в рассогласование, равный 6 единицам, самый большой. Тогда с вероят­ностью 1—E выбранный в паре автомат может переставить Собакина на несколько позиций так, чтобы рассогласование уменьшилось. Наиболее прост случай, когда перемещение происходит на соседнюю позицию. Тогда, если изменения производит второй автомат в паре, то ранжировка (Сб, И, М, Л, К, С, П) превращается в ранжировку (И, Сб, М, Л, К, С, П). Но можно осуществить перестановку и на большее число позиций. Число позиций, на которое переме­щается элемент, вносящий максимальное рассогласо­вание в ранжировки автоматов пары, можно назвать степенью «конформизма» автомата. После изменения предпочтений (или сохранения старых в тех парах, где проявилось упрямство) наступает новый тур голосования и образование в коллективе новых слу­чайных пар.

Моделирование на ЭВМ описанного процесса при различном числе автоматов, различном числе ранжируемых элементов, различных, значениях параметра упрямства автоматов и степени конформизма пока­зало, что имеется явная тенденция сходимости про­цесса к некоторому единому мнению. На рис. 4.4 показаны типичные результаты моделирования. По оси абсцисс отложены такты моделирования t (туры голосования), а по оси ординат—значения R. На рис. 4.4,а показано поведение коллектива автоматов при различных степенях конформизма Омега. Видно, что увеличение степени конформизма приводит к ускоре­нию сходимости. В начальный момент мнения авто­матов в коллективе равномерно распределены по допустимым ранжировкам. На рис. 4.4,6 показан процесс сходимости в том случае, когда в начальной ситуации мнения автоматов не «размазаны» равно­мерно по всем возможным ранжировкам, а имеют вид нормального усеченного распределения на них. Этот случай ближе к реальности, чем предыдущий, так как в коллективе голосующих, как правило, уже перед первым туром наблюдается некоторое согласованное «общее мнение», по крайней мере относительно определенных претендентов. Как видно из рис. 4.4, скорость сходимости мнений экспертов при наличии предварительного общего мнения увеличивается.

Отметим, что модели голосования, которые мы рассмотрели, могут интерпретироваться в самых неожиданных областях. Например, модель простей­шего голосования «за» и «против» в коллективе автоматов тесно связана с созданием живучих тех­нических систем, в которых элементы способны к самовосстановлению. К этому мы еще вернемся в гл. 5.

Г л а в а 5.   КОЛЛЕКТИВ ВО ВРЕМЕНИ

 «Время уже оделось в числа»,

Луис де Гонгора

§ 5.1. Что такое синхронизация?

Уже довольно давно биологи, которые занимались культурами тканей, т. е. выращиванием живых кле­ток вне организма, обратили внимание на синхрони­зацию моментов деления клеток. Явление заключалось в следующем. Клетка делится. Две вновь образовав­шиеся клетки некоторое время находятся в состоянии покоя, а затем одновременно делятся. Тот же эффект повторяется для четырех вновь образовавшихся кле­ток и т. д. Возможны следующие механизмы, обеспе­чивающие синхронизацию делений. Во-первых, в каждой клетке могут существовать достаточно точные внутренние часы, которые определяют интервалы между делениями клетки. Во-вторых, клетки могут согласовывать друг с другом моменты своих делений. До сих пор ни одна из этих гипотез не нашла точ­ного экспериментального подтверждения. Первая гипотеза достаточно правдоподобна; если такие часы действительно существуют, то механизм синхрониза­ции очевиден. Для обеспечения механизма согласо­вания необходим обмен информацией между клет­ками. Существует возможность достаточно быстрого обмена сигналами, например при помощи биополя, но наличие такого биополя до сих пор нельзя считать экспериментально доказанным. Скорости же распространения электрохимических процессов, по-видимому, не могут обеспечить наблюдаемой точ­ности синхронизации достаточно больших популяций клеток. Последнее определило интерес биологов только к двум гипотезам, объясняющим механизм синхронизации — наличие биополя и внутренних часов.  Существование биополя  оставалось под большим сомнением, а внутренние часы могли объяснить только процесс синхронного независимого деления и также требовали рассмотрения механизмов взаимодействия, если включение процесса деления инициируется каким-либо внешним для популяции клеток сигналом, воспринимаемым ограниченным числом клеток.

Описанный, но необъясненный эффект, возникаю­щий в изучаемом объекте, вещь неприятная, но не смертельная. Однако, как только ученые начали за­ниматься моделями самовоспроизведения, вопрос о механизмах, обеспечивающих одновременное вклю­чение разных частей самовоспроизводящейся машины, встал уже не перед биологами, а перед инженерами и математиками. Здесь, правда, вроде бы не было технической сложности — можно было иметь в си­стеме общие, достаточно точные часы и одновременно сообщать всем частям системы текущее время. Такой способ временного согласования поведения частей системы называется в технике синхронизацией. Однако идея синхронизации общих часов казалась далекой от биологических прототипов и американский ученый Дж. Майхилл сформулировал свою знамени­тую задачу, которая носит название «задачи о цепи стрелков». Задача Майхилла состоит в следующем:

Имеется цепь стрелков (рис. 5.1), каждый из которых может общаться только с двумя своими непосредственными соседями. Цепь состоит из конечного числа стрелков, два крайних стрелка имеют только по одному соседу. Один из крайних стрелков получает команду, после чего стрелки должны договориться и одновременно произвести выстрел. Существуют ли правила поведения стрелков, обеспечивающие реше­ние этой задачи, если количество слов, которыми могут обмениваться стрелки и объем внутренней памяти каждого из них ограничены и не зависят от длины цепи?

Положительный ответ на вопрос о существовании решения задачи Майхилла означает, что есть воз­можность синхронизации совокупности сколь угодно большого числа объектов ограниченной сложности за счет организации взаимодействия между ними при сколь угодно медленных процессах обмена сигналами.

Существование решения задачи Майхилла было доказано Дж. Мак-Карти и М. Минским, а в 1962 г. Э. Гото опубликовал решение задачи с минимально возможным временем решения, равным 2N—2, где N — число стрелков. При этом алгоритм поведе­ния каждого стрелка представлялся конечным авто­матом с несколькими тысячами внутренних состоя­ний. Следующий принципиальный шаг был сделан советским ученым В. И. Левенштейном, опубликовав­шим в 1965 г. блестящее решение задачи, в которой используется автомат, имеющий всего девять внут­ренних состояний. Усилиями последующих иссле­дователей число состояний удалось уменьшить до восьми.

Хотя решение задачи Майхилла давало ответ па принципиальный методологический вопрос и демон­стрировало ряд эффектов, которых мы коснемся в следующем параграфе, многие относились к полу­ченным конструкциям скептически: «Зачем городить все эти сложности, если можно протянуть провод меж­ду всеми стрелками и одновременно для всех вклю­чить лампочку, являющуюся командой стрелять?»

До последнего времени возражать таким скепти­кам было трудно. Принцип внешней синхронизации прекрасно обеспечивал решение огромного числа технических задач. Однако постепенно начали накап­ливаться представления, связанные с трудностями использования общей синхронизации в системах высокой сложности. Положение драматизировалось с появлением субмикронных интегральных схем. Дело в том, что если размер транзисторного перехода в кристалле меньше микрона, то задержки в соедини­тельных проводах становятся более существенными, чем время переключения транзистора, и мы опять попадаем в ситуацию, когда обмен информацией между объектами оказывается относительно медлен­ным. В обиход начал входить термин — эквихронная зона, т. е. зона кристалла, в которой можно считать, что время течет одинаково. Для обеспечения же синхронизации процессов, протекающих в различных эквихронных зонах, требуется организация специаль­ного взаимодействия между зонами.

Существуют разные подходы к решению этой задачи. Здесь мы остановимся на решении, связан­ном с задачей Майхилла.

§ 5.2. Управление стрелками

Сформулируем задачу Майхилла в терминах авто­матов, моделирующих поведение стрелков.

Имеется цепь из N автоматов. Каждый автомат имеет п внутренних состояний. Состояние каждого автомата в следующий момент времени зависит от его состояния в текущий момент времени и состояний двух его соседей, правого и левого. В начальный мо­мент все автоматы находятся в некотором начальном состоянии Sо. В начальный момент па один из край-них автоматов цепи подается внешний сигнал, выво­дящий его из начального состояния. Существует ли такая конструкция автомата (правила смены его состоянии), что после инициации крайнего автомата цепи через некоторое время все автоматы одновре­менно перейдут в одно и то же состояние S и ни один из них не перейдет в это состояние ни в один из предыдущих моментов, при­чем сложность каждого ав­томата п не зависит от дли­ны цепи.

Рассмотрим возможный алгоритм   взаимодействия автоматов, обеспечивающий решение указанной задачи. На рис. 5.2 изображена временная диаграмма по­ведения цепи из девяти ав­томатов. Каждому автомату соответствует вертикальная линия. Тонкая линия обозначает начальное состояние So автомата. Инициирующий сигнал поступает на край­ний автомат цепи А9 и переводит его в состояние, ко­торое мы будем называть состоянием готовности S1. Перейдя в это состояние, автомат посылает в цепь два сигнала а1 и a3, распространяющиеся по цепи со ско­ростями 1 и Уз соответственно. Распространение сигнала по цепи со скоростью 1 означает, что авто­мат, получивший справа сигнал а1, передает его в том же направлении в следующем такте работы, а при скорости распространения 1/3 задерживает сигнал а3 на три такта.

Сигнал a1, дойдя до противоположного края цепи, переводит крайний автомат в состояние готовности Si и отражается от края цепи, начиная распростране­ние в обратном направлении (слева направо). Не­трудно понять, что отраженный сигнал а1 и сигнал а3 встретятся точно в середине цепи. Находящийся в точке встречи автомат A5 (или два автомата в слу­чае их четного числа) переходит в состояние готов­ности Si, которому на рис. 5.2 соответствует жирная черта.

Автомат A5, перешедший теперь в состояние S1, посылает в обе стороны по паре сигналов a1 и a3, причем сигнал a1 отражается от первого встречен­ного им автомата в состоянии S1. В результате в точках встречи отраженных сигналов с сигналом из (А3 и A7) происходит переход автомата в состоя­ние S1 и наступает новая генерация сигналов a1 и a3 в обе стороны.

Таким образом, в каждом цикле происходит деле­ние интервала между двумя автоматами, находящи­мися в состоянии S1 пополам, и в центре этого интер­вала автомат тоже переходит в состояние S1. Такой процесс продолжается до тех пор, пока все автоматы цепи не перейдут в состояние S1. Обратим внимание на то, что до последнего деления у каждого автомата будет по крайней мере один сосед, который не готов к синхронизации, т. е. находится в состоянии, отлич­ном от S1. Автомат переходит в состояние синхрони­зации S, если он сам и оба его соседа находятся в состоянии S1. Таким образом, задача синхронизации решается и правила поведения каждого автомата не зависят от длины цепи. Время, необходимое для ре­шения задачи деления интервала пополам, равно 3/2 его длины, и, следовательно, общее время синхрони­зации с точностью до постоянных, зависящих от четности и нечетности интервалов, равно утроенной длине цепи.

Процесс синхронизации можно ускорить, если автомат, перешедший в состояние готовности, по­сылает еще сигнал а7, распространяющийся со скоростью 1/7, и сигнал а15, распространяющийся со скоростью 1/15 (рис. 5.3). Причины, приводящие к ускорению процесса синхронизации в такой ситуа­ции, очевидны из сравнения рис. 5.2 и 5.3. Хотя и в этом случае правила локального поведения не зависят от длины цепи, но сложность автоматов возрастает.

Для того чтобы отдельно взятый автомат мог осуществить задержку сигнала на Т тактов, необхо­димо, чтобы он имел не менее Т внутренних состоя­ний. Если он одновременно должен задерживать один сигнал на Т1 тактов, а другой сигнал на Т2 тактов, то число его состояний должно быть не меньше, чем T1T2. Таким образом, введение допол­нительных сигналов, ускоряющих синхронизацию, ведет к существенному росту сложности автоматов. Кроме того, теперь необхо­димое число сигналов, а следовательно, и сложность автоматов начинает зави­сеть от длины цепи.

В предыдущем парагра­фе мы уже упоминали о блестящем решении задачи синхронизации В. И. Левенштейном.  Необычайное изящество этого решения состоит в том, что он на­шел способ организовать взаимодействие между авто­матами так, что в про­цессе взаимодействия между соседними автоматами осуществляется задержка распространения сигналов на число тактов, равное 1, 3, 7, 15, ..., (2k—1), причем k зависит не от числа состояний автомата, а от длины цепи. Решающие эту задачу автоматы имели всего девять внутренних состояний. Сейчас известно решение для восьми внутренних состоянии. В этом случае время синхронизации достигает свое­го минимального значения, равного удвоенной длине цепи, т. е. времени, необходимого для того, чтобы сигнал, распространяющийся со скоростью 1, про­шел всю цепь туда и обратно.

Методологически принципиально в этом решении то, что за счет взаимодействия каждый автомат решает локальную задачу, сложность которой та­кова, что без взаимодействия сам автомат не может се решить и, более того, с ростом числа автоматов при  сохранении  ограниченности  взаимодействия только двумя соседями растет сложность решаемых локальных задач.

Появление решения задачи Майхилла породило несколько дополнительных интересных  проблем. Прежде всего была решена задача синхронизации цепи автоматов для случая инициации произвольного автомата цепи. Сложность локального автомата при этом возросла до 10 состояний.

Следующий вопрос, возникший при развитии мо­делей этого типа,— вопрос о возможности синхрони­зации двух автоматов, между которыми включена неизвестная им задержка, причем сложность авто­матов не должна зависеть от величины задержки. Последнее требование исключает возможность ис­пользования простого алгоритма, сводящегося к на­хождению временного интервала между посылкой сигнала и возвращением отраженного сигнала об­ратно. Использование указанного алгоритма не­возможно и в случае, если задержка изменяется во времени — например, в такой полуфантастической ситуации, когда мы хотим синхронизовать события на Земле и удаляющемся от нее космическом кораб­ле. В этой ситуации мы должны синхронизовать систему, посылая друг другу сигналы синхронизации в один и тот же момент. Возникает вопрос о суще­ствовании алгоритма выхода на синхронный режим за счет локального поведения командного комплекса на Земле и систем космического корабля. В рамках рассматриваемых  автоматных  моделей  решение оказалось достаточно простым и обеспечивается автоматами, имеющими 12 внутренних состоянии.

Идея алгоритма, осуществляющего синхрониза­цию с точностью до такта автомата, достаточно про­ста и состоит в следующем. Инициирующей синхро­низацию автомат посылает в канал связи в три последовательных момента времени три сигнала a1, a2 и a3. Приемник отправляет эти сигналы обратно, задержав сигнал а1, на один такт, сигнал a2 на два такта и сигнал a3, на три такта. Одновре­менный прием одним из участников обмена сигна­лов a1 и a3 означает выход на синхронный режим, и с этого момента он начинает посылать в канал синхросигнал s. В момент совпадения у одного из участников сигналов a1 и a3 другой участник полу­чает сигнал a2, который отправляет обратно с задержкой в два такта. После выхода на синхронный режим сигнал a2 не отличим от сигнала s, и если последний возвращается участником с задержкой в два такта, то обмен сигналами s начинает поддер­живать взаимную синхронизацию. Для исключения влияния неточности локальных часов, определяющих локальное время на Земле и космическом корабле, обмен сигналами a1 и a2 должен продолжаться и после выхода на синхронный режим.

Теперь рассмотрим ситуацию, в которой майхилловские стрелки не стреляют из ружей, а включают какие-то устройства (рис. 5.4), каждое из которых обладает своим латентным временем, т. е. временем между нажатием пусковой кнопки и началом работы устройства. Например, от момента включения пи­тания радиолокационной станции до момента разо­грева радиоламп проходит 1 мин, а от момента за­пуска двигателя до его прогрева — 5 мин. Каждому «стрелку» известно только латентное время своего собственного устройства. Возникает вопрос о су­ществовании локальных правил поведения автоматов, сложность которых (число состояний) не зависит ни от длины цепи, ни от латентных времен других «стрелков», иными словами, после подачи команды одному из «стрелков» цепи они должны нажать пусковые кнопки так, чтобы все управляемые ими устройства начали работать одновременно.

Оказалось, что эта задача имеет решение, бази­рующееся на принципах решения исходной задачи Майхилла и локальный автомат представляет собой цепочку из Tk автоматов, решающих задачу Майхил­ла, где Tk локальное латентное время, и логиче­ской схемы, вырабатывающей стартовый сигнал в зависимости от состояний автоматов указанной цепочки.

Коль скоро мы рассматриваем алгоритмы локаль­ного ограниченного взаимодействия, то естественно задуматься о влиянии на решение задачи числа соседей. При изучении этого вопроса оказалось, что решение задачи синхронизации не на отрезке, а на произвольном графе, приблизительно так же сложно. С другой стороны, возникает вопрос, а может ли быть решена задача синхронизации не при двух, а только при одном соседе? Ответ на этот вопрос положителен. Любая задача, которую можно решить на отрезке с двумя соседями, можно решить на кольце с одним соседом.

§ 5.3. Синхронизация и асинхронность

В рассмотренных выше задачах содержался не­который обман. Описанные модели решают задачу синхронизации, но используют при этом некий внут­ренний такт, который неизвестно откуда берется. И лишь в задаче о взаимной синхронизации через канал с неизвестной задержкой мы упомянули о воз­можности существования механизма, согласующего длительности внутренних тактов.

Задачу исключения понятия внутреннего такта нельзя решить в рамках используемой для описания алгоритмов локального поведения формальной мо­дели конечного автомата, так как она игнорирует реальное физическое время. Но как только мы на­чинаем рассматривать автомат как реальное физи­ческое устройство, он становится динамической системой, переходные процессы в которой не адек­ватны процессам смены состояний в модели конеч­ного автомата.

Преодоление указанных трудностей обеспечи­вается теорией согласованных самосинхронизующихся схем, которые обеспечивают инвариантность по­ведения автоматов по отношению к длительности внутреннего такта. Однако изложение идей и ре­зультатов этой теории выходит далеко за рамки настоящей книги. Мы опишем все же модель, в ко­торой синхронизация осуществляется без привлече­ния понятия жесткого такта.

На рис. 5.4 «стрелки» образовывали шеренгу, что соответствовало жесткой структурной организации. Теперь мы рассмотрим возможность синхронизации «толпы». Пусть автоматы блуждают в некотором ограниченном пространстве и в какие-то моменты времени сталкиваются друг с другом. В отличие от моделей случайного парного взаимодействия, мы не предполагаем, что эти столкновения одновременны, и тем самым исключаем необходимость тактовой синхронизации. Для нашей модели, вернее для ее формального изучения, необходимо, чтобы в нашей толпе осуществлялось достаточно хорошее перемешивание, т. е. чтобы в идеале все столкновения были равновероятными. Перемешивание, порож­даемое процессами типа броуновского движения, несколько искажает получающиеся результаты. Столкнувшись, два автомата осуществляют акт взаимо­действия и расстаются. Возникает вопрос о существовании правил взаимодействия, обеспечивающих синхронизацию такой совокупности автоматов, пра­вил, не зависящих от числа автоматов.

Прежде всего уточним, что мы в этом случае понимаем под процессом синхронизации. В началь­ный момент времени все автоматы находятся в некотором состоянии 5о и при столкновении двух авто­матов, находящихся в этом состоянии, оно сохраняется у обоих автоматов. Внешний сигнал, иници­ирующий процесс синхронизации, поступает на один из автоматов и выводит его из начального состояния. Естественно, мы не можем требовать, чтобы через какое-то время все автоматы перешли в синхронное состояние, так как при случайном взаимодействии всегда существует ненулевая вероятность того, что информация об инициации процесса за любое конеч­ное время не выйдет за пределы ограниченной части автоматов. Поэтому при случайном взаимодействии можно говорить лишь о вероятности того, что значи­тельная доля автоматов одновременно или в течение относительно короткого отрезка времени будет на­ходиться в синхронном состоянии. Длительность этого отрезка времени определяется частотой столк­новений. Поскольку смена состояний автоматов есть результат взаимодействия, то по крайней мере все перешедшие в синхронное состояние автоматы долж­ны в течение этого интервала времени вступить во взаимодействие.

Качество, или точность, синхронизации мы будем оценивать математическим ожиданием доли автома­тов, находящихся в синхронном состоянии. Пусть у нас задано некоторое число e (0<e<1) и мы мо­жем определить интервал времени te, в течение кото­рого доля автоматов, превышающая 1—e, заведомо вступит во взаимодействие. Мы будем говорить о синхронизации совокупности автоматов с точностью до е, если один из автоматов совокупности иницииро­ван в момент времени t0 и существует такой момент времени tc, что до этого момента математическое ожидание доли автоматов, перешедших в синхронное состояние, не превышает е, а математическое ожида­ние доли автоматов, перешедших в синхронное со­стояние после момента времени tc+te, превышает (1-e).

Теперь можно рассмотреть алгоритм локального взаимодействия, обеспечивающий решение зада­чи синхронизации. Автомат имеет (k—1) внутрен­нее состояние. Состояние с номером 0 будем назы­вать начальным, а состояние с номером k синх­ронным. Взаимодействие определяется следующими правилами:

  1.  Если оба взаимодействующих автомата нахо­дятся в состоянии 0, то они оба сохраняют это состояние.

  2. Внешний инициирующий сигнал переводит автомат из состояния 0 в состояние 1.

  3. Если по крайней мере один из взаимодейст­вующих автоматов имеет состояние, отличное от 0, то номер нового состояния для обоих автоматов равен увеличенному на единицу минимальному но­меру состояний взаимодействующих автоматов.

Попытаемся содержательно рассмотреть процесс синхронизации. Первый из инициированных извне автоматов переходит в состояние 1 и, сталкиваясь с автоматами, находящимися в состоянии 0, будет переводить их в состояние 1. Этот процесс обеспечит лавинообразное распространение переходов в со­стояние 1 в совокупности автоматов. Автомат в со­стоянии 1 сменит его на состояние 2, если он встре­тит автомат, находящийся также в состоянии 1, и вероятность этого события равна доле автоматов в состоянии 1. Если же автомат, в состоянии 2, встре­тится с автоматом в состоянии 0, то он возвратится в состояние 1. Таким образом, если скорость пере­хода автоматов из состояния 0 в состояние 1 линей­но нарастает с ростом доли автоматов, находящихся в состоянии 1, то скорость перехода из состояния 1 в состояние 2, грубо говоря, возрастает, как корень квадратный от этой доли. И вообще, если в сово­купности имеется некоторое распределение автома­тов по номерам состояний, то доля автоматов с ма­лыми номерами состояний уменьшается с гораздо большей скоростью, чем увеличивается доля автома­тов с большими номерами состояний. Можно ожи­дать, что по мере продвижения этого распределения по номерам, его разброс будет возрастать. Иными словами, распределение автоматов по номерам будет «сгущаться» относительно номера текущего среднего состояния.

Это предположение подтверждается как матема­тическим анализом, так и результатами моделирова­ния поведения такой совокупности на ЭВМ. При моделировании в качестве одного такта выбиралось время, в течение которого все автоматы по одному разу вступают во взаимодействие. Тогда, например, в совокупности из 1024 автоматов при числе состоя­ний каждого автомата, равном 15, в 400 эксперимен­тах все автоматы переходили в синхронное состояние. Существенно здесь математическое доказательство независимости требуемого при данном е числа со­стояний автомата от общего числа автоматов в со­вокупности. Этот факт доказан для достаточно боль­ших размеров совокупности и достаточно малых e. Однако это отнюдь не умаляет содержательного значения полученных результатов.

Результаты настоящего параграфа кажутся уди­вительными. Казалось бы, с ростом размера сово­купности задача согласования поведения должна усложняться, однако существуют весьма простые правила случайного взаимодействия, которые обес­печивают синхронизацию реакции совокупности на информацию, поступившую только одному индивиду­уму. Обеспечивающие этот эффект процессы, в ко­торых отстающие подтягиваются, а убежавшие впе­ред тормозятся, можно назвать процессами синхрофазировки. Возможно, что аналоги синхрофазировки встречаются и в эволюционных процессах. Случай­ные изменения, возникающие у отдельных индивидуумов вследствие случайных парных взаимодействий, распространяются по всей популяции и синхронно проявляются при возникновении соответствующих условий.

§ 5.4. Гимн однородным структурам

Читатели, наверное, заметили пристрастие авто­ров к однородным структурам с однотипно организо­ванным взаимодействием. Это действительно так. Нас не перестают удивлять и восхищать огромные возможности, скрытые в этих простейших, структу­рах. Только что одномерная однородная, структура продемонстрировала нам свою способность к синхро­низации без глобального синхронизующего, сигнала. Несколько ранее, в гл. 3 поливальные насосы вклю­чались на участках дач так, как нам этого хотелось. Здесь мы приведем еще несколько примеров из уди­вительного мира однородных структур. Отметим, что однородные структуры часто встречаются в биологии, а техника проявляет к ним особый интерес. Ведь однородные структуры легче производить, заменять и контролировать. Однородность и однотипность — идеал инженера. Вот почему в последние годы, осо­бенно после появления микроэлектроники, так возрос интерес к однородным структурам.

Мы думаем, что картина, описанная ниже, зна­кома всем читателям. В зале заседаний идет собра­ние. Председательствующий ставит на голосование какой-то проект или решение. «Прошу поднять руку тех, кто «за»,— говорит он. Поднимается лес рук. Подсчет числа голосов весьма трудоемок. Иногда председатель не справляется с ним и требуются специальные помощники — счетчики.  «Кто «про­тив»? — снова спрашивает председатель. И опять лес рук. И снова надо считать. Хорошо, когда одно из мнений собирает мизерное число сторонников. Тогда и считать не требуется. Общая картина доста­точно красноречива. («Считать не будем? Я думаю, и так все ясно»,— говорит в этих случаях обычно председатель.) Но если «за» и «против» собрали примерно одинаковое число голосов, то публика на­чинает волноваться и требует перёголосования. Всег­да возникает мнение, что счетчики ошиблись. Как избежать этой щекотливой ситуации? Можно ли автоматизировать подсчет голосов и определение ре­зультатов голосования? Удастся ли создать «машин­ку для голосования», которая давала бы нужный результат независимо от числа голосующих? Ответы на все эти вопросы положительны. Все это можно сделать с помощью одномерных и двумерных одно­родных структур. Проиллюстрируем наше утвержде­ние на наиболее простых примерах.

Рассмотрим сначала простейшее голосование, при котором каждый его участник голосует «за» или «против», а окончательное решение принимается по простому большинству голосов. Тогда, очевидно, каждую пару «за—против» можно вычеркнуть из дальнейшего сравнения. Если вычеркнуть все такие пары, то останутся только те, кто проголосовал «за» (если их большинство), или те, кто проголосовал «против». Считать их число не надо. Для простого большинства хватает и одного лишнего голоса. Эту процедуру вычеркивания конкурентных пар легко реализовать на одномерной однородной структуре. Рассмотрим схему, показанную на рис. 5.5. Каждый автомат имеет два состояния, которые мы обозначим через а, b. Состояние а соответствует тому, что дан­ный результат голосования еще не вычеркнут, со­стояние b — что он вычеркнут. На внешние входы автоматов поступают сигналы хi от участников го­лосования. При этом хi=1 означает, что i-й участник голосования проголосовал «против», a хi=0 — что он проголосовал «за». Если голосование происходит в специально для этого оборудованном месте, то сигнал от каждого голосующего поступает в наше устройство в результате нажатия им соответствующей кнопки на индивидуальном пульте.

Сигналы, передаваемые по горизонтальной шине между автоматами, являются для системы внутрен­ними (рабочими). Работа автоматов в цепи задается табл. 5.1.

Таблица 5.1

Рабочий сигнал

Входной сигнал, поступивший от i-го голосующего

Хi=0

Состояние aвтомата Ai

Хi=1

Состояние aвтомата Ai

  а b а b
So

S1, b

So, b

S2, b

So, b

S1

S1, а

S1, b

S3,b

S1, b

S2

S3, b

S2, b

S3, a

S2, b

S3

S3, a

S3,b

S3, a

S3, b

Поясним, как устроена эта таблица. В некотором такте работы на автомат Ai поступает входной сигнал Xi, равный 0 или 1, и один из четырех воз­можных рабочих сигналов. Сам Аi при этом нахо­дится в одном из двух возможных состояний (а или b). Значения входного и рабочего сигналов и состоя­ние автомата определяют текущую ситуацию, которая записывается парой символов: значением рабочего сигнала, выдаваемого автоматом Ai в этой текущей ситуации, и новое состоянием, в которое он пере­ходит.

В начале работы системное устройство СУ, по­казанное на рис. 5.5 в виде кружка, выдает на бо­ковой вход самого левого автомата цепи сигнал So. Все автоматы в начальном такте работы находятся в невычеркнутых состояниях а. Встретив первый автомат в состоянии а (в начальный такт работы это всегда будет крайний левый автомат в цепи), сигнал So переводит его в вычеркнутое состояние b. Если при этом на внешний вход автомата подавался сигнал «за», то далее по цепи будет вправо распро­страняться сигнал S1. Если же данный автомат имел на входе Xi=1 (т. е. сигнал «против»), то вправо бу­дет распространяться сигнал S2.

Сигналы S1 и S2 осуществляют поиск первого автомата, который мог бы составить вычеркиваемую пару с отмеченным ими автоматом. Если при своем движении вправо сигналы S1 или S2 находят соот­ветствующий автомат, то он переводится в вычерк­нутое состояние, а рабочий сигнал становится рав­ным S3. Этот сигнал есть свидетельство вычеркива­ния одной пары из множества голосующих. Сигнал S3 «проскакивает» через все оставшиеся автоматы цепи, ничего не меняя на своем пути. Его приход в СУ свидетельствует об окончании одного акта вы­черкивания. Приход его в СУ заставляет системное устройство выдать на цепочку автоматов новый сиг­нал So. Окончание процесса вычеркивания произой­дет тогда, когда сигнал S1 или сигнал S2 не найдут себе подходящей пары для вычеркивания. В этом случае на вход СУ поступит не сигнал S3, a S1 или S2. Появление сигнала S1 говорит о том, что боль­шинство проголосовало «за», появление S2 — о про­тивоположном результате голосования. Особым слу­чаем является равенство голосов «за» и «против». В этой ситуации наше устройство посылает на боко­вой вход левого автомата цепи сигнал So, который «проскакивает» неизменным через все вычеркнутые автоматы и приходит на вход СУ. Это и есть сигнал о равенстве голосов.

Отметим, что значение N нигде не фиксирова­лось и никакой роли для нас не играло. Устройство для подсчета голосов будет срабатывать верно при любом числе голосующих.

Мы рассмотрели простейший случай голосования. Но и для более сложных случаев задача об опреде­лении результатов голосования оказывается разре­шимой с помощью одномерной цепи автоматов, в которой сложность каждого автомата не зависит от того, сколько лиц приняло участие в процедуре голо­сования, а зависит лишь от вида голосования. Так, например, при голосовании по принципу 2/3 (реше­ние принимается, если за него проголосовало не менее 2/3 голосующих) сложность автоматов не меняется, а лишь увеличивается до шести число раз­личных рабочих сигналов. При одном «сканировании» с помощью сигнала So происходит вычеркивание тройки автоматов, на два из которых поступил сигнал «за», а на один — сигнал «против». Можно рассматривать задачу не с простым голосованием «за» и «против», а с выбором одного из К претендентов по принципу большинства голосов. Это требует уже автоматов с четырьмя состояниями и восьми различ­ных рабочих сигналов. При последовательном голо­совании (например, сначала предлагается из трех претендентов B1, В2 и В3 выбрать либо B1, либо группу (В2, В3), и если выбран B1, то голосование заканчивается, а если группа, то на втором туре идет борьба между В2 и В3) требуется уже двумер­ная однородная структура. Такой же структуры требует и голосование, в котором каждый претендент на «призовое» место оценивается определенным коли-чеством очков.

Видов голосования человечество придумало очень много. Но интересно, что все они (по крайней мере, известные сегодня) можно промоделировать на одно­родных структурах, сложность элементов которых никак не зависит от числа голосующих.

Однородные структуры используются сейчас в самых разнообразных областях, хотя их применение и тормозится тем, что очень привычные вещи реали­зуются с их помощью весьма непривычным для чело­века образом. Возьмем, к примеру, операцию умно­жения. С детства мы привыкли умножать в столбик и верим, что этот способ самый простой и быстрый. На самом деле это совсем не так. Развитие вычи­слительной техники заставило нас перейти от деся­тичной системы к двоичной. В двоичной системе умножение оказалось куда более простым по своей структуре. Сдвиг на один разряд и сложение в опре­деленной последовательности дают тот же эффект умножения в столбик без необходимости помнить таблицу умножения. Вот как выглядит умножение 12 на 14 в двоичной системе:

Здесь мы умножали, начиная со старшего разряда множителя, и производили сдвиги вправо. Конечно, можно было бы умножать, начиная с младшего раз­ряда множителя, и делать сдвиги влево. Результат был бы одинаков. Как и при десятичном умножении, он равен 168.

На рис. 5.6 показана однородная матрица, со­стоящая из трех столбцов, каждая клетка которых представляет собой однотипный автомат, имеющий три состояния D0 , D1 , D. Состояния D0 и D1 назы­ваются рабочими. Если автомат находится в них, то это означает, что он хранит в данной клетке значе­ние двоичной цифры 0 и 1 соответственно. Состоя­ние D является безразличным (нерабочим). Каждый автомат имеет связи со всеми своими соседями. Эти входы и выходы мы будем обозначать буквами н, в, л, п (низ, верх, левый, правый). По ним могут передаваться сигналы пяти типов: безразличный (пустой) и B0, B1, Co, C1. Безразличный сигнал мы специально обозначать никак не будем. Сигналы Во и B1 несут информацию о значении цифр в со­ответствующем разряде множителя. Сигналы Со и С1, выдаваемые автоматами, соответствуют передаче соседу сигналов 0 и 1.

Число строк в матрице зависит от разрядности перемножаемых чисел. При n разрядах число строк в первом столбце равно 2n + 1, во втором и третьем столбцах —2n. Матрица, показанная на нашем ри­сунке, предназначена для перемножения четырех­разрядных двоичных чисел.

Все автоматы, образующие матрицу, функциони­руют одинаково. Этот принцип проистекает из однородности среды. Работа автоматов иллюстрируется табл. 5.2.

Здесь индексы k, p, i могут принимать значения 0 или 1.

В этой таблице заполнены только те места, кото­рые соответствуют комбинациям сигналов и состоя­ний, встречающихся в процессе умножения. Звездочка означает, что этого сигнала может и не быть.

Таблица 5.2

 

 

 

Текущ

ий такт

 

 

 По

следую

 щий

такт

 

 

номер команды

 

 

вход

 

 

состояние автомата

 

 

вход

 

 

состо­

Условие перехода

 

п

л

н

п

в

л

яние

 

 

1

 

 

Ck

D

 

 

 

Dk

 

2

 

 

Ck

Dp

 

Ck

 

Dp

 

3

b0

 

 

Dp

 

Bp

 

D

 

4

 

 

Bk

Dp

Bk

Bk

 

Dp

 

5

 

 

Bk

D

Bk

Bk

 

D

 

6

 

B1

 

Dp

Cp

Cp

Во

D

 

7

 

B0

 

Dp

Co

Cp

Во

D

 

8

 

Bl

Ck

Dp

Cp

Cp

 

Dk

 

9

 

В0

Ck

Dp

Co

Cp

 

Dk

 

10

В0

 

 

D

 

 

 

D

 

11

 

Ck

*Cp

Di

 

C1

 

D1

k + p + i = 3

 

 

Ck

*Cp

Di

 

C1

 

D0

k + p + i = 2

 

 

Ck

*Cp

Di

 

Co

 

D1

k + p + i = 1

 

 

Ck

*Cp

Di

 

Co

 

Do

k + p + i = 0

Как же происходит умножение? На рис. 5.6, а показано начальное заполнение матрицы. Множитель записан в левом столбце так, что внизу находится младший разряд. Множимое написано в соседнем столбце. Правый столбец будет использоваться для получения произведения. Идея проста: если очеред­ная цифра множителя есть 0, то множимое надо сдви­нуть на один разряд вверх. Если же очередная цифра множителя есть 1, то до сдвига множителя его надо прибавить к той сумме, которая в этот момент будет накоплена в правом столбце матрицы.

Процесс начинается с подачи сигнала Во справа на младший разряд множителя. Этот сигнал как бы считывает значение разряда. Появление после этого состояния   D   означает,   что   разряд   считан (рис. 5.6, б). Далее сигнал Во распространяется вверх по левой колонке и на каждом уровне порождает сигнал Во направо. Эти сигналы сдвигают множимое без прибавления в накопленную сумму правой колон­ки матрицы. В нашем примере это происходит по­тому, что на начальном цикле разряд множителя был равен 0. На рис. 5.6, в, г показаны еще два такта работы однородной среды. Появление на рис. 5.6 г сигнала Во, приходящего в левую колонку, соответ­ствует началу работы с очередным разрядом множи­теля. Таким образом, на четвертом такте завершается микроцикл умножения.

Общая картина распространения сигналов по однородной матрице при умножении двоичных чисел в столбик показана на рис. 5.7. На нем двойная стрелка изображает сигналы Bk, обычная стрелка — сигналы Ck. Светлый кружок означает переход автомата в данном такте в состояние D и выдачу вверх значения, соответствующего его состоянию, темный кружок — переход автомата в состояние Dp, соответствующего значению сигнала, поступив­шего на данный автомат снизу. Перечеркнутая стрел­ка означает, что передается либо сигнал Во, либо Со. За 18 тактов, как следует из рис. 5.7, цикл умноже­ния двух четырехразрядных двоичных чисел завер­шается. Состояния автоматов правой колонки хра­нят результат умножения. Сигналы, которые на рис. 5.7 как бы выходят за пределы матрицы, про­падают и не оказывают влияния на дальнейшее функционирование матрицы. Читатель, пользуясь табл. 5.2 и рис. 5.7, может самостоятельно завершить умножение 12 на 14 с помощью однородной мат­рицы.

Общее число тактов, которое нужно затратить на умножение двух n-разрядных двоичных чисел по предложенному методу, равно 8п+2. Если же отка­заться от привычной нам логики умножения и пе­рейти на более «изысканные» методы умножения, то однородная матрица позволяет найти произведение всего за 4n1 такт работы. При этом сложность автоматов, образующих матрицу, даже меньше, чем при умножении в столбик. Правда, при умножении двух n-разрядных чисел потребуется в этом случае n2 + 1 автомат, а для рассмотренного нами случая — 6n + 1 автомат.

Кроме умножения, с помощью однородных мат­риц можно производить и деление. Один из способов деления на однородной матрице с двумя столбцами требует автоматов той же сложности, что и для ум­ножения в столбик. Число необходимых автоматов равно 2п+3. Однородные среды открывают большие возможности в самых различных областях примене­ния. Например, они оказываются незаменимыми при обработке зрительной информации, отображаемой на устройствах типа фотоматриц. Однородные автомат­ные структуры позволяют в этом случае выделять контуры отображаемых рисунков, находить вершины углов и точки пересечения, определять расстояние между изображениями на матрице и т. п. Развитие робототехники в последние годы стимулировало это направление исследований.

Для нас важно, что однородные структуры и од­нородные коллективы, состоящие из простых уст­ройств, способны решать многие задачи, для которых мы привыкли использовать традиционные последо­вательные  (централизованные) способы решений. А трудность перехода к параллельным (децентрали­зованным) методам решения кроется, в частности, в нестандартности методов и алгоритмов, реализуемых в однородных структурах.

Наш гимн однородности не противоречит тому, что говорилось ранее о пользе неоднородности. В гл. 3 мы демонстрировали те новые качества, ко­торые неоднородность вносит в поведение коллекти­ва автоматов, решающих общую задачу. Ибо никто еще не доказал, что однородные коллективы и струк­туры могут эффективно решать все задачи, возника­ющие перед техническими системами. Но никто не доказал и противоположного!

§ 5.5. «Почему йога —не наш путь?»

Именно так называл свое научное выступление на одной из школ по коллективным моделям поведения известный советский кибернетик М. М. Бонгард. В этом выступлении он говорил о том, что излишняя централизация в биологических организмах может нанести огромный вред. При возрастании централи­зации организм все большие ресурсы будет затрачи­вать на обработку информации для принятия решений, ему будет оставаться все меньше времени на  поисковую  и  адаптационную  деятельность. И М. М. Бонгард привел в качестве примера адеп­тов учения йогов, которые в своей практике часто достигают того, что «вытаскивают наверх, в созна­ние» управление теми физиологическими процессами, которые протекают у человека на уровне автоном­ных и полуавтономных систем управления. Они, на­пример, могут сознательно регулировать ритм биения сердца, сокращать и расслаблять желудок, созна­тельно управлять температурой тела и т. п. Но к чему это приводит? В пределе, когда все автоматизмы подавлены, йог должен тратить все свое вре­мя и ресурсы мозга на то, чтобы все эти процессы протекали без срывов, иначе жизнь его может ока­заться под угрозой. Но тогда ему уже не хватит времени ни на что другое, ни на размышления, ни на созерцание. Конечно, индийские йоги не попада­ют в подобное положение. Автоматизмы они сохра­няют. И вмешиваются в течение физиологических процессов лишь изредка. Да и цель их иная. В ов­ладении секретом управления автономными процес­сами, забота о которых вытеснена из сферы созна­ния, они видят еще одну ступень в овладении зако­нами управления своим телом. Но аналогия, подмеченная М. М. Бонгардом, очень ярка и поучи­тельна.

Мы много говорили о параллельных процессах и методах их взаимодействия. В человеческом организ­ме формы этого взаимодействия куда богаче. Но суть явления сохраняется. Процессы текут почти автоном­но, синхронизуясь во времени за счет редких перио­дических или специфически определяемых ситуацией сигналов.

Однако децентрализация, при которой подсистемы работают практически автономно, обладает одним весьма существенным недостатком, о чем мы еще не говорили, хотя читатели могли бы и сами догадаться о нем. По крайней мере во многих наших моделях, функционирующих в быстро меняющихся средах, он был явно заметен. Этот недостаток связан с тем, что за децентрализацию управления приходится пла­тить увеличением времени адаптации. То, что по единому приказу из центра можно сделать в системе за весьма короткое время, если центральное звено заблаговременно получит информацию об изменени­ях свойств среды, в децентрализованной системе бу­дет осуществляться весьма медленно. Наверное, поэтому в биологических организмах (и у человека, в частности) имеются как бы два уровня: децентра­лизованный и централизованный по управлению. Од­нако эти уровни не дублируют друг друга.

Пока окружающая среда почти неизменна и впол­не устраивает человека, децентрализованное управление реализуется в полном объеме. Отдельные его подсистемы функционируют автономно и почти не взаимодействуют между собой. Но вот произошло резкое изменение состояния среды, грозящее челове­ку неприятными последствиями. Требуется как мож­но быстрее перевести все подсистемы в состояние «боевой готовности». И тогда срабатывает централи­зованное управление, переводящее организм в состо­яние, которое можно назвать ситуацией стресса. Основная особенность этой реакции — ее неспецифич­ность. Она осуществляется в любых опасных ситуа­циях и направлена на взаимодействие со всеми под­системами организма. В' кровь начинают выделяться гормоны, стимулирующие адаптационные реакции, повышается готовность организма к отдаче энергии, подпитываются мышцы и т. п. После этого либо на­ступает период адаптации, либо стрессовая ситуация исчезает. В наихудшем случае организм так долго стоит в готовности номер один, что наступает исто­щение, а, возможно, и гибель.

Таким образом, между децентрализованной и централизованной частями системы управления мы наблюдаем весьма интересное распределение функ­ций. В медленно меняющихся или неизменных сре­дах децентрализованная часть системы управления успешно справляется с адаптацией поведения к среде и достижением глобальных целей организма, а при резких изменениях среды организм включает некото­рую систему всеобщего назначения.

Специалисты по управлению интегральными робо­тами (в отличие от узкоспециализированных роботов. последние должны действовать в широком классе сред, точное описание которых сделать невозможно) сейчас находятся в весьма нелегком положении. С одной стороны, совершенно очевидно, что в роботе имеется немало подсистем, которые должны функци­онировать автономно или почти автономно, получая сигналы из центрального блока управления (напри­мер, подсистемы «глаз» и «рука», позволяющие ро­боту найти нужный предмет, взять его и совершить с ним какую-либо операцию, должны действовать параллельно и автономно, согласуя свои действия лишь не слишком частыми синхронизующими сигна­лами). С другой стороны, возникает проблема созда­ния неспецифических глобальных видов воздействий от центрального блока, способного обеспечить целе­сообразное поведение робота. Общие законы такого поведения сформулировать очень трудно. Вспомним, например, три общих закона робототехники, предло­женные в свое время А. Азимовым. Эти законы на­ходятся в приоритетной связи. Первый из них самый приоритетный. Согласно ему робот никогда, ни при каких обстоятельствах не должен причинять вред человеку. Это закон всеобщего запрещения. И до­вольно легко себе представить, как можно организо­вать воздействие на подсистемы при опасности на­рушения этого закона. Второй закон А. Азимова говорит о том, что робот всегда должен стремиться к достижению поставленной перед ним задачи, если это не противоречит первому закону. А третий закон робототехники указывает роботу на необходимость принимать все меры к самосохранению, если это не противоречит предшествующим двум законам. Но два последних закона уже не могут быть неспеци­фичными в отношении сигналов, передаваемых под­системам робота. Требуется их спецификация по типам целей, которые ставятся перед роботом, и способам его самоохранительных действий.

Неспецифические сигналы централизованной части управляющей системы в наших многочисленных авто­матных и неавтоматных моделях поведения были представлены различными воздействиями среды на подсистемы. Такие механизмы, как введение общей кассы или случайных парных взаимодействий, игра­ют в этих моделях общерегулирующую роль. Напом­ним читателю, что, как мы говорили в § 4.4, целью коллектива может быть не только достижение целе­сообразного (или оптимального) поведения во внеш­ней среде, но и поиск этих регулирующих воздейст­вий, позволяющих подсистемам прийти к некоторому согласованному функционированию.

Для того чтобы еще раз подчеркнуть весьма важ­ную для нас мысль о вреде «вытаскивания» специ­фических функций в централизованную часть систе­мы управления, мы закончим этот параграф одной сценкой, которую можно было наблюдать на между­народной конференции по проблемам искусственного интеллекта и робототехники. Один из высокопостав­ленных представителей военно-морского флота США в ответ на жалобы докладчика о том, что весьма трудно придумать небольшое число неспецифических законов целесообразного поведения для интегральных роботов, сказал, что он не видит в этом особой проблемы. И пояснил свою мысль следующим при­мером из жизни. Когда новички попадают на ко­рабль, то первое время они никак не могут приспо­собиться к новой среде, совершают массу ошибок и вместо помощи часто наносят непоправимый вред. Команда вынуждена тратить силы на то, чтобы сле­дить за новичками и оберегать их от беды. Однако всего этого можно избежать. Новичкам достаточно усвоить раз и навсегда, на весь их начальный пери­од адаптации на корабле, только один неспецифиче­ский закон: «Если ты видишь движущийся предмет, то отдай честь, если же предмет неподвижен, то по­крась его».

Это, конечно, анекдот, но мысль, высказанная в нем, точно отражает нашу проблему. Однако, к со­жалению, сегодня мы слишком мало знаем о том, как надо строить эти регулирующие процедуры в системах децентрализованного управления,

Г л а в а 6 ДИАЛЕКТИКА ПРОСТОГО И СЛОЖНОГО

 «Дороги,  которые мы  выбираем, следует отличать от дорог, которые выбирают нас».

Феликс Кривин

 § 6.1. Синтезогенез и интеграция усилий

«Все эти создания обладали тройственной симмет­рией и напоминали формой греческую букву гамма с тремя остроконечными плечиками, соединяющимися в центральном утолщении. В падающем свете они казались черными, как уголь, в отраженном — пере­ливались синим и оливковым цветом, как брюшки некоторых земных насекомых. Наружные их стенки состояли из очень мелких пластин, напоминающих грани бриллианта, а внутри «мушки» содержали од­ну и ту же микроскопическую конструкцию. Ее эле­менты, в сотни раз меньшие, чем зернышки песка, образовывали что-то вроде автономной нервной си­стемы, в которой удалось различить две частично независимые друг от друга цепи.

Меньшая часть, занимающая внутренность плеч, представляла собой микроскопическую схему, заве­дующую движением «насекомого», нечто вроде уни­версального аккумулятора и одновременно трансфор­матора энергии. В зависимости от способа, каким сжимали кристаллы, они создавали то электрическое, то магнитное поле, то переменные силовые поля, ко­торые могли нагревать до относительно высокой тем­пературы центральную часть; тогда накопленное тепло излучалось наружу однонаправленно. Вызван­ное этим движение воздуха, .как реактивная струя, делало возможным движение в любом направлении. Отдельный кристаллик не столько летал, сколько подпрыгивал, и не был, во всяком случае во время лабораторных экспериментов, способен точно управ­лять своим полетом. Несколько же кристалликов, со­единяясь кончиками плеч друг с другом, образовы­вали систему с тем лучшими аэродинамическими показателями, чем больше их было.

Каждый кристаллик соединялся с тремя; кроме того, он мог соединяться концом плеча с централь­ной частью любого другого, что давало возможность образования многослойных комплексов. Соединения не обязательно требовали соприкосновения, кристал­ликам достаточно было сблизиться, чтобы возникшее магнитное поле удерживало все образование в рав­новесии. При определенном количестве насекомых система начинала проявлять многочисленные законо­мерности, могла в зависимости от того, как ее «драз­нили» внешними импульсами, менять направление движения, форму, вид, частоту внутренних пульса­ций; при определенных внешних условиях менялись знаки поля, и, вместо того, чтобы притягиваться, ме­таллические кристаллики отталкивались, переходили в состояние «индивидуальной россыпи».

Эта длинная цитата из повести Станислава Лема «Непобедимый» приведена нами не случайно. На планете «Регис-III» люди столкнулись с необычным явлением. Из примитивных кристалликов, обладаю­щих примитивным поведением, при определенных условиях возникал сверхорганизм — туча. И эта туча обладала почти неисчерпаемыми возможностями по адаптации своего поведения, ибо хранила в огром­ной памяти, складывающейся из памятей-песчинок отдельных кристаллов, необъятный запас знаний.

Однако столь ли уж необычен этот способ возник­новения сложного из простого? После того, что чи­татель прочитал в предшествующих главах, подобный путь организации сложного поведения должен ка­заться ему весьма привычным; Наблюдения за био­логическими организмами также не противоречат идее польского фантаста. Такое объединение более простых организмов в более сложный —один из пу­тей эволюции в органическом мире. К. М. Завад­ский, много лет занимавшийся проблемами эволюции, назвал такой путь синтезогенезом. Переход от одно­клеточных водорослей к многоклеточным был решаю­щим шагом на пути прогресса органического мира; сообщество рабочих пчел в улье или рабочих мура­вьев в муравейнике—примеры того же типа.

Но простое скопление однородных подсистем или организмов—это еще не новая система или орга­низм. Множество рабочих пчел, встретившихся на цветущем лугу и относящихся к разным пчелиным семьям,—это совсем не то, что множество рабочих пчел из одного улья. И совокупность пассажиров, оказавшихся одновременно в трамвае, резко отлича­ется от множества покупателей и продавцов на кол­хозном рынке.

В чем же состоит это отличие? В самом общем виде можно сказать, что некоторая совокупность элементов является единой системой, если эти эле­менты обладают потенциальным свойством образо­вывать статические или динамические структуры, необходимые для «выживания» элементов и всей их совокупности, т. е. обладают свойством устанавли­вать взаимодействие друг с другом для достижения локальных и глобальной целей. Это, конечно, не определение, а скорее рассуждение о чрезвычайно сложном вопросе. Исчерпывающий ответ на него — предмет специального исследования, выходящего да­леко за границы возможностей авторов. Но, как нам кажется, суть всех моделей коллективного поведения и взаимодействия в этом и состоит. Отметим еще, что когда речь идет о биологических совокупностях, то в реальных ситуациях эти потенциальные свойства проявляются лишь частично, а остальные — ждут своего часа. Хорошо- известны, например, опыты с некоторыми бактериями, которые всегда обитали в средах, где отсутствуют определенные виды углево­дов. При искусственной пересадке их в среды, где эти непривычные углеводы были единственной до­ступной для бактерий пищей, они начинали выраба­тывать фермент для их расщепления. Возможность этого была заложена в их генную структуру «на вся­кий случай» и реализовалась именно тогда, когда в этом возникла необходимость. Другой пример — огромные потенциальные возможности любого чело­века, подавляющее большинство которых никогда не проявляется у индивида, а возможно, и у человече­ского сообщества.

Таким образом, синтезогенез—это путь увеличе­ния числа потенциально возможных свойств, которые могут пригодиться системе при встрече с непривыч­ными для нее ситуациями и средами.

Рассмотрим простую модель, иллюстрирующую возможности синтезогенеза. На рис. 6.1 показан то­роидальный мир — совокупность клеток, размещен­ных на внешней поверхности тора (обычная сушка или баранка дают превосходное представление о тороидальной форме). Предположим, что в клетках этого мира может находиться пища, которой могут питаться «организмы», обитающие в них. В качестве таких «организмов» будем рассматривать автоматы с линейной тактикой. Простейшая форма подобного автомата — автомат с од­ним действием, показанный на рис. 6.2, а. В состоянии 1 при получении сигнала штраф автомат «умирает» (на рисунке это отмечено крестиком). Действие, кото­рое может совершать ав­томат,— перемещение в не­котором фиксированном на­правлении на одну клетку тора.   Обозначим   четы­ре возможных направления перемещения, показанные на рис. 6.1, через А, Б, В, Г. Тогда простейшие ав­томаты будут делиться на четыре типа — будем обо­значать их теми же буквами. Допустим, что автоматы, находящиеся в одной клетке, могут объединяться. Если объединяются два автомата одного типа, то это приводит к увеличению длины лепестка (т. е. глуби­ны памяти для этого действия). При объединении же автоматов различного типа новый автомат имеет уже не один лепесток, а два. На рис. 6.2,6 показан ав­томат, который возник в результате объединения четырех автоматов, два из которых относятся к типу А, а оставшиеся два — к типу В и Г. Для удобства будем обозначать такой автомат как А2ГВ.

В отличие от классического автомата с линейной тактикой наш автомат не может накапливать нака­зания безгранично и «умирает», когда число подряд действующих штрафов (пунктирные стрелки) превы­шает число состояний, имеющееся у автомата (для автомата, показанного на рис. 6.2, б, оно равно четы­рем). Кроме того, смена лепестков происходит равно­вероятно.

Сигналы наказания и поощрения формируются средой следующим образом. Если автомат в данной клетке съедает пищу, то он получает сигнал поощре­ния, в противном случае—сигнал наказания. После того как автомат съест пищу (на что в модели тре­буется один такт) и уйдет из клетки, то пища может в ней одномоментно восстановиться или клетка оста­нется пустой до того момента, когда по закону, ха­рактеризующему среду, пища снова восстановится.

Если в одну и ту же клетку попадает несколько автоматов, то они принудительно объединяются и образуют новый более сложный «организм».

Рассмотрим несколько ситуаций в эволюционном процессе на торе.

На рис. 6.3 показано несколько простейших ситу­ация на некотором участке тороидальной поверхно­сти. Клетки, в которых имеется пища, отмечены точками. Предполагается, что пища, съеденная в клетках, полностью восстанавливается, как только автомат уйдет из нее. На рис. 6.3, а показаны два простейших автомата. Автомат Л съедает пищу в клетке, где он находится, и идет наверх. Но на этом кольце пищи нигде больше нет. В результате он по­гибает в клетке, помеченной крестиком. Иная судьба у автомата Г. Если пища имеется на всем кольце, то этот автомат, двигаясь по замкнутому кольцу вправо, будет все время поддерживать свое сущест­вование. Он живет вечно, не беспокоясь ни о чем.

На рис. 6.2, б показана еще одна очень простая си­туация. Автоматы А и Г встречаются в клетке с пи­щей, объединяются и начинают движение. Каким оно будет? Это зависит от того, какое именно состояние окажется начальным. Ели это состояние, соответст­вующее состоянию 1 автомата А, то объединенный автомат сначала сделает шаг наверх. В этой клетке пищи нет и автомат получит наказание. Это заставит перейти его в состояние 1 бывшего автомата Г и сделать шаг на одну клетку вправо. Там пища есть. Съев ее, автомат сделает еще один шаг вправо. По­лучив наказание, он, как автомат А, сделает шаг вверх и получит пищу. Далее процесс будет повто­ряться циклически, если пища размещается на по­верхности тора регулярным образом. Автомат будет двигаться по «диагональной линии» и жить вечное Если бы начальным состоянием объединенного ав­томата было состояние 1 автомата Г, то движение было бы аналогичным. Пунктирные стрелки показы­вают оба возможных пути автомата АГ.

Усложнение структуры далеко не всегда приводит к улучшению функционирования. Это положение ил­люстрируется рис. 6.3, в. В клетке с пищей образует­ся автомат АБГ. Пусть начальным его состоянием является состояние 1 автомата Г. Сдвинувшись на одну клетку вправо и получив сигнал штраф, авто­мат переходит (путем равновероятного выбора) в состояние автомата Б. Он сдвигается вниз, но пищи там нет. Опять следует равновероятный переход, и автомат снова попадает в состояние автомата Г. Происходит сдвиг вправо. Но так как пищи в этой клетке нет, объединенный автомат погибает, исчер­пав все свои ресурсы. Если бы объединения не про­изошло, то при том распределении пищи, которое показано на рис. 6.3, в, все три простейших автомата могли бы жить вечно.

Наши забавные автоматы на тороидальной по­верхности можно исследовать с разных точек зрения. Но, к сожалению, это увело бы нас весьма далеко от основной канвы книги. Те, кому понравился этот мир, могут придумать много занимательных и интересных историй, полных драматизма и неожиданных метаморфоз, которые могут развернуться на поверхности тора.

Для нас же важно отметить, что синтезогенез мо­жет приносить как пользу, так и вред, ибо иногда лучшее — враг хорошего.

Тем не менее путь синтеза, своеобразной полиме­ризации, часто встречается в эволюционирующих технических системах. Этот путь сыграл большую роль в создании мировой сети связи и транспортных сетей. При образовании комплексов резервированных устройств мы также сталкиваемся с явлением, подоб­ным синтезогенезу.

Выскажем еще раз одну весьма важную мысль, связанную с синтезогенезом. В процессе такого объ­единения возникает особое явление, сходное (чисто внешне) с полимеризацией в химии. Элементы, всту­пая в объединение и не меняясь по своей структуре, как бы приобретают новые качественные возможно­сти. И эти новые возможности зависят от механизма объединения. В гл. 4 мы уже столкнулись с этим явлением. Когда два автомата объединялись чисто механически (так, как объединяются автоматы в нашей модели эволюции на горе), число их состоя­ний растет, как п2, если каждый из автоматов имел п состояний. Когда же они объединяются за счет случайного парного взаимодействия, то это дает им возможность функционировать как автоматам, обла­дающим памятью глубины 2n. В гл. 5 мы также столкнулись с явлением «полимеризации». Автомат всего с восемью состояниями, объединившись в ше­ренгу стрелков, как бы приобретал возможность работы с памятью всей совокупности автоматов, ста­новился богаче по своим возможностям, не меняя своей структуры. Это явление кажется нам весьма любопытным.

Но, наряду с этим процессом в биологической и технической эволюции, идет и другой важный про­цесс, связанный с ростом неоднородности в организ­ме с появлением специализированных подсистем.

§ 6.2. Сегрегациогенез и его последствия

Термин сегрегациогенез, как и термин синтезоге­нез, принадлежит К. М. Завадскому. Его смысл сво­дится к тому, что в процессе развития биологических

особей идет не только их усложнение путем объеди-нения более простых организмов в более сложные, но и процесс дифференциации функций, выполняе­мых отдельными подсистемами, и ведущий затем к изменению структуры этих подсистем для лучшего осуществления своих специфических функций. Про­гресс требует отказа от универсальности, однотипно­сти. Универсальный элемент делает все одинаково плохо. Если пища на торе в примере, рассмотренном в предыдущем параграфе, всегда расположена так, что для обхода клеток с пищей нужен ход шахмат­ным конем, то имеет смысл, чтобы специфическая функция автомата позволяла бы ему прямо выпол­нять это движение в течение одного такта. Но если пища расположена иным образом, то подобное дейст­вие и не нужно.

Коллизия между универсальностью и специфич­ностью, между однородностью и разнородностью есть явление всеобщее, встречающееся всюду. Биоценозы и техноценозы также демонстрируют эту кол­лизию.

Количество рабочих пчел в улье может колебать­ся в довольно широких пределах, и они образуют подсистему, способную прожить самостоятельно, но самка пчелиного улья должна быть всегда одной единственной, и она быстро погибнет, если лишить ее рабочих пчел. Дифференциация здесь зашла уже весьма далеко, и отдельные подсистемы перестали уже быть способными к автономному функциониро­ванию вне той системы, в состав которой они входят.

Однако польза от появления подобных подсистем очевидна. Мы уже говорили в гл. 3 о пользе разно­родности в коллективе автоматов. Ранги рефлексии, уровни пессимизма—оптимизма были первыми по­казателями различий, намечавшихся в подсистемах, которые позволяли неоднородному коллективу более успешно решать стоящую перед ним задачу, чем од­нородному коллективу. Правда, любой из автоматов такого коллектива мог бы функционировать и в оди­ночку. Но это просто означает, что специализация еще не дошла до того рубежа, за которым самостоя­тельное существование отдельной подсистемы стано­вится невозможным. Однако специализация — непре­менный спутник прогресса, ибо только с ее помощью можно уменьшать затраты времени на дости­жение тех или иных целей, стоящих перед ор­ганизмом.

В качестве иллюстрации сказанного рассмотрим, например, эволюцию в области ЭВМ. На первом эта­пе каждая вычислительная машина представляла собой некоторое единое и неделимое целое. Ее про­цессор, память, устройства обмена с внешним миром и управляющая система находились в столь жестких связях, что не могли не только функционировать, но и анализироваться отдельно друг от друга. Все про­цессы в ЭВМ протекали строго последовательно под контролем центрального устройства управления. Та­кую ЭВМ мы можем уподобить некоторой «клетке» в мире вычислительной техники.

Как же происходила эволюция ЭВМ в последую­щие годы? Один путь был связан с усложнением структуры ЭВМ, введением в ее состав новых подси­стем, обеспечивающих для нее возможность выполне­ния новых функций*) (например, графопостроите­лей, которые сделали возможным выводить из ЭВМ не только текстовую, но и графическую информацию, или появление в составе ЭВМ датчиков случайных чисел, позволяющих использовать при решении задач методы, опирающиеся на случайные распределения). Эти подсистемы, увеличивая сложность «клетки», не меняли принципиально условий ее существования. Но это усложнение вело к усложнению управляющей системы, на плечи которой падало все больше задач. И наступил момент, когда операционные системы ЭВМ (а именно они, как правило, выполняют роль центрального блока управления всеми процессами, протекающими в ЭВМ) стали самым узким местом. Появились грозные признаки того, что усложнение структуры ЭВМ приведет в тупик. Все чаще и чаще возникали ситуации, которые специалисты по опера­ционным системам называют дедлоками (ловуш­ками). Это такие состояния, когда требования раз­личных процессов, протекающих в машине, предъяв­ляют к операционной системе разноречивые требова­ния, и она не знает, что ей делать.

*) Эти подсистемы могут быть реализованы и в виде про­грамм.

Стало ясно, что при централизованном управле­нии дальнейшее усложнение структуры ЭВМ и улуч­шение ее функционирования уже невозможно.

Переход к комплексированию ЭВМ был тем сле­дующим шагом в эволюции, который надо было не­избежно сделать. Синтезогенез сработал. Вместо «одноклеточного» вычислительного устройства появи­лись «многоклеточные». Эти образования могли иметь различную структуру. На рис. 6.4 показаны некоторые типы структур комплексов ЭВМ. На рис. 6.4, а приведена структура с центральной ЭВМ 1, которая выполняет роль центрального управляю­щего устройства для ЭВМ 2, 3, 4, на рис. 6.4,6 мы видим смешанную структуру, а на рис. 6.4, в — де­централизованную, в которой все ЭВМ равноправны. Важно отметить, что даже в централизованной струк­туре возникает некоторая децентрализация. Цент­ральная ЭВМ не все время ведет процессы в подчи­ненных ей машинах. Она лишь инициирует в них начало некоторых процессов, синхронизует протекаю­щие процессы между собой и производит обмен ин­формацией между процессами. А в остальном маши­ны, входящие в систему, действуют самостоятельно. И это направление эволюции подтверждает правильность отказа от пути йогов, о котором говорилось в гл. 5.

Интересно отметить, что децентрализованная структура, показанная на рис. 6.4,в, демонстрирует возможность введения в структуру «организма» не­специфического централизованного управления. По­казанный на этом рисунке пунктиром блок синхро­низации К. может по специальной кольцевой шине передавать сигнал одновременно всем ЭВМ, образую­щим систему. Это может быть, например, сигнал пре­рывания всех вычислений для приема новой внешней информации, или для повторения вычислений, или для тестовой проверки. Но такой центральный уп­равляющий блок может и отсутствовать. Тогда син­хронизация работы децентрализованной системы бу­дет осуществляться по типу кольца стрелков, о чем было рассказано в гл. 5.

Кроме этого основного пути эволюции ЭВМ при­близительно в те же годы развивался и еще один путь — создание ЭВМ на основе однородных клеточ­ных структур, о которых мы также говорили в гл. 5. Этот путь был связан с идеей синтезогенеза в чистом виде. Предполагалось, что однородность и универ­сальность отдельных подсистем (автоматов, находя­щихся в клетках однородной структуры с потенци­ально однотипными связями между ними) позволят улучшить характеристики ЭВМ. Однако этого не произошло. Ибо сегрегациогенез оказался куда более эффективным в отношении этих характеристик.

И следующий шаг в эволюции ЭВМ — комплексирование не однотипных, а узкоспециализированных подсистем, причем для каждой из них четко опреде­лены те функции, которые она реализует. Сначала это привело к структурам того же типа, что и пока­занные на рис. 6.4. Отличие состояло лишь в том, что ЭВМ, входящие в систему, стали специализиро­ванными. Например, они могли быть специально со­зданы для обработки символьной информации, рабо­ты с матрицами, предварительной обработки и преобразования сигналов, поступающих от объекта управления, и т. п. Но при этом, как в автоматных моделях с рефлексией или уровнями пессимизма — оптимизма, все такие ЭВМ могли действовать и вне системы, автономно.

При дальнейшем сегрегациогенезе это свойство исчезло. Дифференциация коснулась даже той исход­ной ячейки — ЭВМ, которую мы уподобили клетке. Ее составляющие как бы обрели самостоятельность, и возникла структура, показанная на рис. 6.5. Про­цессоры, блоки памяти, блоки обмена и управляю­щие блоки как бы плавают в некоторой вычислитель­ной среде. Их объединение в структуру происходит динамически, управляющие блоки, получив задание, ищут исполнителей, свободных от работы, и органи­зуют процесс. На рис. 6.5 показан такой момент, когда управляющий блок У1 объединил для решения задачи два процессора П1 и П4, один блок памяти 32 и три блока обмена O1, О3 и О5. Одновременно  управляющий блок У2 организовал другой процесс, объединив для этого в структуру процессор Пз, за­поминающее устройство 31 и обменное устройство O1. Задачи управляющие блоки получают из внешней среды. Из той же среды обменные устройства полу­чают исходную информацию. Результаты решения также возвращаются во внешнюю среду. После окон­чания решения задачи структуры «рассыпаются».

В этой структуре сегрегациогенез зашел настолько далеко, что отдельные подсистемы автономно не могут существовать. Лишь объединившись в струк­туру, где обязательно наличие одного управляющего блока и хотя бы одного обменного устройства, свя­занного с процессорами или запоминающими устрой­ствами, наш «организм» сможет функционировать. Способность образовывать структуры под задачи демонстрирует его адаптационные возможности, а специализация отдельных подсистем позволяет реа­лизовать связанные с ними функции параллельно и максимально быстро.

Анализируя прогресс в эволюции, К. М. Завад­ский предложил следующую наглядную схему, пока­занную на рис. 6.6. Есть как бы три возможности в эволюционном развитии биологических организмов. При первом из них арогенезе идет расширение адап­тационных возможностей организма. Он как бы рас­ширяет набор сред, в которых он будет выживать и давать потомство. Этот процесс может идти либо за счет синтезогенеза (как в нашей модели эволюции на тороидальной поверхности), либо за счет сегрега-циогенеза (как, например, в вычислительной среде, дающей возможность решать любые задачи, для ко­торых у системы хватает ресурсов). Заметим, что при наличии тех же ресурсов в рамках единой си­стемы типа, показанной на рис. 6.4, а, не удалось бы, например, организовать одновременное протека­ние двух процессов, показанных на рис. 6.5.

Если арогенез есть расширение адаптационных возможностей системы, то аллогенез есть смена неко­торых функций, реализуемых организмом, на новые, экологически равноценные. Другими словами, при аллогенезе происходит как бы смена одной экологи­ческой ниши на другую, более выгодную для выжи­ваемости организма. Такое явление можно наблю­дать не только в биологии, но и в технике. В эпоху клавишных вычислителей, предшествующую появлению ЭВМ, они использовались в основном в научных расчетных бюро. ЭВМ вытеснили их оттуда, но они нашли свою экологическую нишу в бюро технико-экономических расчетов, которым невыгодно пользо­ваться услугами ЭВМ. Самолеты в свое время вы­теснили дирижабли, но похоже, что горячие поклон­ники дирижаблей нашли для них новую подходящую нишу в современном техноценозе, и в ближайшее время мы, возможно, вновь увидим в небе их непо­вторимые силуэты.

Наконец, телогенез — это как бы обратная сторо­на арогенеза. При телогенезе происходит очень глу­бокая адаптация к заданному состоянию экологиче­ской среды, которая достигается глубокой специали­зацией организма. Примеры телогенеза в технических системах очевидны. Практически все узкоспециализи­рованные системы могут рассматриваться с этой точ­ки зрения. Первобытное рубило, пригодное для всех случаев жизни, постепенно породило огромное количе­ство рубящих инструментов, многие из которых при­годны для выполнения очень конкретных работ, но не могут использоваться для чего-либо иного (например, колун, если только не использовать его обуха для за­бивания чего-либо).

Арогенез, аллогенез и телогенез — это не альтер­нативные пути эволюции. Они действуют согласован­но и одновременно. Доминирование любого из них может оказаться в развитии некоторого организма временным и преходящим. Но все эти пути направ­лены на единственную цель — улучшение адаптации .организма к данной среде и, как следствие этого, .увеличение его выживаемости в ней. И сказанное .вполне можно перенести на технические системы.

§ 6.3. Эволюция в городе Едгин

Странное название города есть обратное прочтение слова «нигде». Город этот придумал английский пи­сатель С. Батлер во второй половине XIX века. В ан­глийском написании название этого города, совпада­ющее с названием романа, выглядит как «Erehwon».

Роман С. Батлера утопический. Герой романа, молодой человек по имени Хиггс, путешествуя в го­рах, попадает в необычный город. Его жители живут по законам, противоречащим нормам морали и юриспруденции, которые господствовали в Европе того времени. Например, болезни и несчастья, кото­рые случаются с жителями Едгина, приравниваются к преступлениям. И за это судят и наказывают. Рож­дение ребенка также не является радостным собы­тием, и дети, когда они вырастают, вовсе не благо­дарны своим родителям за то, что те даровали им жизнь. Но зато все жители города Едгин красивы, веселы и жизнерадостны. Хиггса они принимают с распростертыми объятиями, но вскоре сажают в тюрьму,

Причина столь странного поступка — наличие у Хиггса часов. Почему часы испугали местных жите­лей, Хиггс узнает существенно позже, из рассказа дочери начальника тюрьмы Ирем. И эта причина имеет непосредственное отношение к теме нашей книги.

Но прежде чем говорить об этом, необходимо не­сколько слов сказать о самом Самуэле Батлере. В его богатой событиями жизни, наполненной разнообраз­ными интересами и пристрастиями, было одно мно­голетнее увлечение. И это увлечение — попытка по­нять суть эволюционного процесса. Чарльз Дарвин и его фундаментальная теория происхождения видов сыграли в этом огромную роль. Сначала С. Батлер принял его теорию целиком, но позже наступил пе­риод, когда его стали одолевать сомнения. Наиболее сомнительным положением дарвиновской теории для Батлера было то, что течение такого процесса, как биологическая эволюция, возможно только за счет случайного взаимодействия и случайных мута­ций. Он был глубоко убежден, что процесс этот дол­жен быть целенаправленным*). Но кем он направ­ляется? С. Батлер был рационалистом, он критиче­ски относился к религии, неоднократно высмеивал в своих произведениях церковные порядки и религиоз­ные догмы. Но в своих книгах, посвященных модели эволюции («Жизнь и привычка», 1877, «Старая и новая эволюция», 1879, «Бессознательная память», 1880 и «Случайность или хитрость как главный ис­точник органических изменений», 1886), С. Батлер выступал против идеи Дарвина о вероятностном ха­рактере эволюции. И одним из его аргументов была принятая им концепция технической эволюции. По­жалуй, впервые эта концепция появилась в статье С. Батлера «Дарвин среди машин», опубликованной в 1863 г. Уже в ней он указывает на то, что чело­век выступает в технической эволюции как звено, привносящее в эволюционный процесс цель и рацио­нальность. В романе «Едгин» эта идея раскрывается во всей своей глубине.

*) Идею о направленности эволюции, ее рациональности рбосновывал и академик Л. С, Берг, создавший теорию номо­генеза.

Герой романа постепенно узнает, что раньше в Едгине существовал богатейший техноценоз, создан­ный учеными и техниками для обслуживания жите­лей города, облегчения их труда и дальнейшего раз­вития науки и техники. Но, возникнув, техноценоз стал подобен раковой опухоли. Из «Трактата ма­шин», попавшего к нему в руки, Хиггс узнает, что развитие техноценоза шло так быстро, что люди по­степенно из хозяев положения стали превращаться в рабов созданной  ими машинной  цивилизации. С точки зрения машин люди превращаются в насеко­мых, опыляющих и оплодотворяющих технические устройства, живущие своей независимой жизнью. И, верный своей задаче критики современного ему общества, С. Батлер восклицает: «Сколько людей и теперь живут, как рабы у машин? Сколько людей проводят всю жизнь от колыбели до могилы, служа машинам и днем и ночью?»

Так происходит и в Едгине. Все развивающееся множество машин прекрасно приспосабливается к функционированию в создаваемой специально для них среде. Они поглощают массу энергии, которую для них необходимо производить, требуют постоян­ного ухода за собой. Все большие массы жителей города должны отдавать свое время машинам, об­служиванию их, конструированию новых машин, подготовке для них рабочих мест. Чем бы это кончи­лось для города, возникшего в воображении С. Батле­ра, неизвестно. Писатель своей волей обрывает ла­винообразную техническую эволюцию в Едгине. Находится ученый, который строго доказывает, опи­раясь на теорию Дарвина об естественном отборе и идею целенаправленности эволюции Батлера, что жители города весьма скоро будут полностью поко­рены машинами и в результате сегрегациогенеза потеряют возможность существовать самостоятельно. Результатом этого выступления было уничтожение всей техники в Едгине и запрещение создавать в будущем какие-либо механизмы. И лишь в музее хранятся остатки некогда уничтоженных порождений эры техногенеза, напоминая жителям города о ми­нувшей опасности.

Для нас интересно отметить те особенности тех­нических систем, возникших в процессе эволюции по воле человека, которые отмечает С. Батлер. Во-пер­вых, это достижение цели любыми средствами. Ло­гика действий технического устройства отлична от логики действия человека. Во-вторых, развитые тех­нические системы требуют от человека, участвующе­го в управлении ими, узкой специализации, при ко­торой коллектив управленцев связан между собой только информацией, выдаваемой ему технической системой. Первое положение мы уже обсуждали в гл. 5, когда говорили о трудностях, связанных с со­зданием общих законов управления, которые могли бы компенсировать логику «машинных рассуждении». Что же касается второго положения, то тут писатель был бы совершенно прав, если бы не возникала воз­можность заменить человека-управленца соответст­вующим техническим устройством. А именно эта идея и была обсуждена в гл. 3 и 4 (а отчасти и в гл. 5) книги. Образ рабочего на конвейере, столь ярко сыгранный в бессмертном фильме Чарли Чап­лина, показывает, что опасения С. Батлера были не­безосновательны.

В чем-то писатель оказался прав. И когда в кни­ге Р. К. Баландина, изданной в 1978 г., мы читаем: «Но даже техника — наше создание, над которым мы безраздельно господствуем,— одновременно имеет над нами значительную власть. Мы сейчас столько же зависим от нее, сколько от остальной природы. Мы употребляем в пищу техногенные (искусственно вы­