ки, т. е. распознавание, вызвана ли ошибка случайным сбоем, перемеживающим или устойчивым отказом;
2)организация продолжения выполнения программы путем устранения возникшей ошибки в информации по вторением ошибочно выполненной микрооперации, ко манды или сегмента программы (при обнаружении, что ошибка вызвана сбоем);
3)локализация места отказа с заданной степенью подробности, например до уровня сменной платы, и, ес
ли возможно, реконфигурация вычислительной системы, т. е. отключение неисправного узла или устройства с пе редачей его функций другому соответствующему узлу или устройству (при обнаружении отказа);
4) запись в память информации о сбоях и отказах для последующей обработки.
Общая логика взаимодействия систем автоматиче ского контроля и диагностики показана на рис. 12-7. Работа систем начинается с записи в специальные ре гистры или ячейки памяти ситуации в ЦВМ в момент обнаружения ошибки (записывается состояние запоми нающих элементов и шин передачи данных неисправно го устройства)*.
Далее выполняется процедура обработки сигнала прерывания от системы контроля, начинающаяся запи сью состояний регистров процессора и старого слова со стояния программы (ССП) в соответствующие ячейки памяти и выборкой нового ССП диагностической си стемы.
Для диагностирования характера ошибки (сбой или отказ) необходимо повторить может быть даже несколь ко раз операцию, в которой обнаружилась ошибка. Од нако желательно это делать с минимальными потерями времени. С этой точки зрения лучше всего, если процес сор и система контроля выполнены таким образом, что проверяется правильность каждой микрооперации и вы числительный процесс останавливается на ошибочно вы полнившейся микрооперации, которая может быть по вторена. Следует отметить, что лишь немногие совре менные ЦВМ допускают повторение микроопераций, а большинство машин — лишь целых команд или групп команд.
*П р и
ин ф о р м а ц и я с т о я н и е » .
э т о м |
в |
с л у ч а е |
п е р и ф е р и й н о г о |
у с т р о й с т в а |
и с п о л ь з у е т с я |
о е г о |
|
с о с т о я н и и , д о с т а в л я е м а я |
к о м а н д о й |
« у т о ч н и т ь с о |
Микрооперация (команда) может быть повторена, если не исказилась используемая в операции информа ция (операнды, адреса и т. д.), т. е. если не пройден
«порог повторения». Это проверяет входящая в систему программа обработки сбоев, которая по записанной си туации, соответствующей появлению ошибки, определя ет, пройден ли порог повторения микрооперации или
команды*. Если соответствующий порог пройден, то вмес то микрооперации повторяется команда, а вместо коман
|
|
|
|
|
|
|
|
ды — сегмент |
программы. |
Последнее возможно, |
если |
программист |
предусмотрел |
в |
программе |
«контрольные |
точки» |
(макрокоманды типа |
checkpoint), сохраняющие |
промежуточные данные, |
позволяющие |
повторить |
про |
грамму с данного места. |
микрокоманды |
(команды, |
сег |
Если |
при |
повторении |
мента программы) ошибка |
не повторяется, событие ди |
агностируется как сбой и происходит возврат к точке прерывания программы, но перед этим в память запи сывается дополнительная информация о состоянии в мо мент сбоя вычислительной системы (какие в это время выполнялись операции в периферийных и других уст ройствах, название программы, адрес команды, операн ды, время). Информация о ситуациях при сбоях и об отказах накапливается во внешнем запоминающем уст ройстве и в последующем обрабатывается специальной программой, вырабатывающей определенные рекоменда ции обслуживающему персоналу, выполняющему про филактические работы.
Если при определенном числе повторений (например, 16) ошибка сохраняется, событие диагностируется как отказ и автоматически приводятся в действие диагности ческие процедуры и соответствующие средства для опре деления места неисправности. Диагностические проце дуры также могут включаться вручную с пульта, напри мер, при пуске машины.
Комплекс диагностических программ содержит диаг ностические программы процессора, оперативной памя ти, каналов и периферийных устройств. Работа комплек са диагностических программ и схем диагностики орга низуется специальной управляющей программой— ди агностическим монитором, получающим от супервизора операционной системы требование на диагностирование определенного устройства, в котором обнаружилась не исправность.
Диагностический монитор может инициировать вы полнение специальной команды «Диагностика», приводя щей в действие управляющие схемы, предназначенные
для диагностики. После |
выявления места |
отказа прове |
* О п е р а ц и и в в о д а - в ы в о д а |
в с е г д а д о п у с к а ю т |
п о в т о р е н и я н а |
у р о в н е к о м а н д ы . |
|
|
ряется возможность реконфигурации вычислительной системы путем автоматического отключения неисправно го устройства и передачи его функций другому устройст ву. Если это возможно, то производится реконфигурация системы, при этом меняются нужным образом логичес кие номера устройства. Затем после сообщения операто ру об отказе и произведенной реконфигурации происхо дит возврат к контрольной точке программы. Если ре конфигурация невозможна, САД инициирует на пульте оператора код неисправности. Оператор, пользуясь спра вочником неисправностей, находит неисправный блок, ремонтирует или заменяет его. Затем с пульта включает диагностические процедуры. Если отказ устранен, про изойдет автоматический возврат к контрольной точке программы.
12-6. П Р И Н Ц И П Ы П О С Т Р О Е Н И Я С И С Т Е М А В Т О М А Т И Ч Е С К О Й Д И А Г Н О С Т И К И
Внедрение интегральных схем, технологии многослой ного печатного монтажа и других технологических усо вершенствований приводит к уменьшению размеров цифровых вычислительных машин, но одновременно ус ложняет доступ к функциональным модулям со стороны обслуживающего персонала.
Быстро увеличивается количество машин, находящих ся в эксплуатации. В результате возрастает численность обслуживающего персонала и повышаются требования к его квалификации. Увеличение надежности машин приводит к тому, что вмешательство в целях поиска не исправных элементов и ремонта их становится сравни тельно редким явлением. Следовательно, наряду с повы шением надежности машин наблюдается тенденция к потере эксплуатационным персоналом определенных на выков отыскания и устранения неисправностей.
Таким образом, возникает проблема обслуживания непрерывно усложняющихся вычислительных систем в условиях, когда не хватает обслуживающего персонала высокой квалификации.
Современная вычислительная техника ищет решение указанных проблем путем создания систем автоматиче ской диагностики неисправностей, которые должны об легчить обслуживание и ремонт машин.
В зависимости от вида используемых для диагности ки средств различают программную, аппаратную (или аппаратно-программную) диагностику. В зависимости от размещения средств диагностики различают внутреннюю диагностику, когда диагностические средства размеща ются внутри исследуемого устройства, и внешнюю диаг ностику, когда диагностические средства находятся вне устройства. Наконец, в зависимости от времени включе ния диагностической системы различают оперативную и профилактическую диагностику. При оперативной диаг ностике поиск неисправностей выполняется в процессе работы машины по сигналам системы контроля, опре деляющим момент возникновения неиспривности.
Профилактическая диагностика выполняется перио дически в заранее запланированные моменты времени, обычно соответствующие периодам профилактической проверки машины. В дальнейшем под системой автома тической диагностики (САД) будем понимать внутрен нюю оперативную диагностику, средства которой могут использоваться и при профилактической диагностике.
Система автоматической диагностики представляет собой комплекс программных, микропрограммных и ап паратных средств и справочной документации (справоч ников неисправностей, инструкций, схем ЦВМ, тестов).
Основными характеристиками САД являются: а) точность САД, определяемая как вероятность пра вильного обнаружения отказа; б) разрешающая способ ность САД, равная среднему числу подозреваемых смен ных блоков для различных отказов; в) среднее время диагностирования неисправности; г) доля аппаратных средств САД в общем составе оборудования ЦВМ.
При построении систем автодиагностики ЦВМ в ос новном используются следующие методы:
1)взаимная диагностика машин или процессоров в многомашинных и многопроцессорных системах;
2)разделение ЦВМ на несколько одинаковых час тей (подмашин), осуществляющих взаимную диагнос тику;
3)метод «раскрутки».
Суть первых двух методов ясна из их наименований. Метод «раскрутки» предполагает поэтапное последова тельное расширение работоспособной части ЦВМ путем включения в эту часть элементов, проверенных на пре дыдущем этапе.
В случае метода «раскрутки» на каждом t-м этапе диагностического процесса подмашина М,-, представ ляющая собой часть оборудования проверяемой ЦВМ, диагностирует аппаратуру ДМ,, которая, если в ней нет отказов, присоединяется к подмашине Мг-, образуя новую
|
|
|
|
|
|
МпО. |
I . |
У |
|
Уі |
і і ? |
|
/ecт ы |
|
|
^ r5 |
і |
|
H > чаль- |
><§Q |
|
|
|
|
мой. область |
ОЗУ |
><51Г* |
|
|
|
Мпг |
|
|
Mn. |
I*5? |
|
|
|
|
|
|
|
|
A -5 |
|
|
|
|
M0 |
|
|
|
5: |
|
|
|
|
Дигностическое |
|
|
|
|
|
ядро |
|
|
|
|
Тесты яд. .pa. р е ж и м а , |
О З У |
|
I |
§1 |
|
|
М, |
|
|
|
|
£ S-S 4 cl |
|
|
Тесты. П З У |
|
|
|
|
|
|
|
|
|
|
|
М г |
|
|
|
|
СК.!V |
1 , |
|
Тесты |
ядра р е ж и м а П З У |
|
|
Мл |
|
|
|
|
§ S |
|
Тесты |
з а п о м и н а ю щ и х |
|
|
|
|
элементов процес |
М¥ сора
Тесты к о м В и н а ц и о н н ы х с х е м
|
М$ |
|
|
Тесты |
мультиплексного |
|
Me |
канала |
|
|
|
|
се ле кт ор ны х |
|
|
каналов |
|
~м? |
~1 |
Cä |
Тесты |
ядра м о н и т о р а |
(VT |
|
|
|
|
М8 |
|
|
|
Функциональные |
|
|
' |
т е с т ы |
|
м3=цвм |
Рис. 12-8. Процесс автоматической |
диагностики |
|
Ц В М (метод раскрутки). |
подмашину Мі+\ = Мі [JAM*, которая выполняет диагно стическую процедуру на следующем этапе.
Подмашина М0, с которой начинается «раскрутка», называется диагностическим ядром ЦВМ. Диагностиче ское ядро должно иметь повышенную надежность и до