Инженер южноафриканского интернет-провайдера случайно удалил важные настройки сети, спеша на перекур, что вызвало крупнейший на то время сбой в работе интернета на африканском континенте.

Несколько десятилетий назад один из ведущих интернет-провайдеров Южной Африки столкнулся с беспрецедентным кризисом из-за, казалось бы, незначительной ошибки своего сотрудника. Инженер по имени Патон (Paton) работал «инженером магистральной сети» — должность, которая требовала высокой ответственности и внимания к деталям.
Компания, где работал Патон, играла ключевую роль в обеспечении работы интернета не только в Южной Африке, но и в соседних странах. DNS-серверы провайдера были авторитетными для тысяч доменов, включая национальные домены верхнего уровня нескольких африканских государств.
Однажды Патон получил задание обновить сетевые блоки и распространить их через BGP к партнерам и транзитным провайдерам. Это предполагало редактирование списков контроля доступа (ACL), которые регулировали доступ пользователей и доменов к определенным сетевым ресурсам. Обычно Патон выполнял эту работу тщательно, но на этот раз коллеги позвали его на перекур. Желание присоединиться к ним заставило инженера поспешить.
Вернувшись с перерыва, Патон застал в офисе настоящий хаос. Центр сетевых операций был завален звонками от разъяренных клиентов. Оказалось, что произошел самый масштабный на то время сбой в работе интернета на африканском континенте.
Ситуацию усугубило то, что неизвестный, назвавшийся хакером, связался с местным технологическим изданием и заявил о своей причастности к инциденту. Новость быстро распространилась, создав дополнительные проблемы для руководства компании.
Расследование показало, что никакого взлома систем безопасности не было. Патон, спеша, случайно заменил все имеющиеся списки контроля доступа вместо того, чтобы просто добавить новые сетевые блоки. Это привело к тому, что сложная система маршрутизации интернет-трафика для значительной части Субсахарской Африки перестала функционировать.
После инцидента Патон не только восстановил ACL и обновил сетевые блоки, но и разработал первый в компании протокол управления изменениями — набор правил и процедур, регулирующих процесс внесения изменений в IT-системы, чтобы избежать инцидентов или сбоев в работе.