Shlimazl' External Memory - Seagate и гарантийный ремонт
April 10th, 2010
02:48 pm

[Link]

Previous Entry Add to Memories Tell A Friend Next Entry
Seagate и гарантийный ремонт
Трехмесячная эпопея с гарантийным ремонтом дисков, наконец, успешно завершилась.

Год назад было для ЦЛП куплено 2 сервера в Электрон-Сервисе, который всегда любила моя другая работа за традиционные оптовые скидки и возможность сдавать в гарантийный ремонт любую часть купленного компьютера, не притаскивая компьютер целиком. Что действительно очень и очень дружественный подход. В серверах был устроен массив из дисков по 500 Гб Seagate ST3500320NS Barracuda ES.2, более дорогих и "серверных". И вот в январе, зайдя полуслучайно на один из этих серверов, вижу сообщение от утилиты, мониторящей состояние массива, что произошел сбой и один из дисков неисправен. Сделал за пару дней пару десятков попыток вернуть сбойный диск в массив, что каждый раз завершалось неудачей, причем компьютер при этом почти намертво зависал и оживал только после перезагрузки, когда сбойный диск опять получал пометку "сбойный".

Вынимаю тогда его и везу в сервисный центр (по иронии судьбы расположенный поблизости от синагоги в Марьиной роще :-). Попытка объяснить ситуацию вызывает непонимание и на мои слова, что диск стоял в массиве,  следует вопрос почти как у врачей, "а что с ним сейчас". Тем не менее что-то записывают про зависания в квитанцию о взятии в ремонт и что-то такое говорят про прошивку. Что SN05, которая была у диска, вызывает проблемы, они диск перепрошьют, и все будет хорошо. Прямо сейчас не могут, нет человека, который это делает, но вот через пару дней. Пытаюсь задать волнующие вопросы, надо ли срочно, пока не поздно, возить к ним на перепрошивку другие диски и как перепрошивка влияет на последующую работу в массиве, надо ли массив перестраивать или нет. Про надо ли - ответы невнятные, но сообщается, что на сайте сигейта прошивки есть, а про массив даже попыток дать ответ не делается.

Проходит 2-3 дня. Звонок на сотовый. Что, мол, перепрошить диск не получилось, и его отправляют производителю, недели на 2-3. Я опять пытаюсь уточнить, в прошивке все же дело или не в прошивке, опять внятного ответа не получаю, но жду развития событий дальше.

Проходит еще неделя, вдруг мне сообщают, что не работает другой уже сервер, на котором терминальный доступ устроен. Предположение, что не работает интернет, не оправдывается. Повторяется ситуация со сбоем диска.

Тогда все же лезу на сайт сигейта, выясняю, что там про прошивки. Действительно, рекомендуется прошивку обновить, причем есть два варианта, выбор определяется номером партии, который нигде, кроме как на наклейке на самом диске не обозначен. У нас все же оказываются более ранние партии, рекомендуемая прошивка SN06. Делаю диск, пытаюсь запустить его на сервере, не запускается. То ли слишком быстрый сервер, то ли сквозь RAID-контроллер работать все же не может. Вынимаю диски поштучно, начиная со сбойного, подключаю к другому компьютеру, обновляю прошивку. Благо критического времени требует секунд 15, ну еще несколько минут на вынуть, вставить, включить, проверить. Все диски успешно перепрошиваются, включая сбойный, но ситуация сбоя не устраняется, диск в массив возвращаться не хочет. Хотя кое-что стало лучше. Исчезли зависания в момент сбоя. Процесс перестройки замирает секунд на 10-15, потом диск опять получает пометку "сбой" (а иногда - "отсутствует"), и все начинает работать по-прежнему.

Одновременно перемещения компьютеров привели к тому, что один из них вообще отказался запускаться, причем более важный для жизни бухгалтерский сервер. Но ему временно помогла замена блока питания, причем оказалось некритичным отсутствие 8-контактного разъема дополнительного питания, в 4 контакта их этих 8 вставлялся 4-контактный разъем, и этого было достаточно.

И вот везу диск и блок питания снова в сервис-центр. Про блок питания долго выясняют, что это и как, поскольку на нем отдельной наклейки "Электрон-сервиса" и отдельного номера в базе не было, но после выяснений соглашаются взять и проверяют. Внимательно исследуют внешний вид, задают странные вопросы, почему у него сбиты шлицы винтов. Тогда как я не только не трогал эти шурупы и не собирал сервер, но и проверить, что там с шурупами фактически никак не мог. Это они могли собирать, разбирать, сбивать или не сбивать шлицы. Но после этого подключают к стендовому компьютеру. Все запускается. Отдают блок питания обратно, я удивлен, но забираю проверить у себя.

Начинается разговор про диск, в квитанцию уже пишут мои слова, что "диск не синхронизируется с массивом" и забирают его для выяснений. Перед этим долго изучают со всех сторон и записывают, что у него "глубокая царапина на корпусе". Возможно, следы запихивания в корпус, разрешающий, если не горячую, то легкую замену со стороны передней крышки, но направляющие могли его и поцарапать. Одновременно задается еще более странный вопрос, зачем я туда поставил перемычку (которая вроде бы ограничивает скорость до 1.5 Тб вместо 3). Как бы не верят, что компьютер собирал не я, а они и все перемычки ставили тоже они. Но тем не менее берут.
Тут я начинаю разговоры, как жить. Напирая на то, что 2 вышедших из строя диска из 6 - это фантастически много и ситуация стала критической. Что лучше бы они заменили мне диски на новые. Девушка с кем-то советуется и в итоге решают, выдать новый диск вместо того, что уже пару недель где-то у них путешествует, а второй все же отправить в путешествие. Уже лучше.

С новым диском и старым блоком питанию возвращаюсь обратно, новый диск ставится на место. Контроллер RAID говорит, что массив у вас неполный, но зато есть диск вне массива, который можно туда поместить, вписывает его в массив, а потом за пару часов все синхронизируется.
Блок питания, о чудо, вылечился от прогулки в сервис-центр и успешно возвращен на свое место. Работоспособность бухгалтерского сервера восстановлена.

Проходит неделя, другая, третья. Я, уже более спокойно, позваниваю в сервис-центр, что там да как. Отвечают, что пока ничего и вообще у них до 45 дней гарантийный ремонт. Очень мило, надо сказать, если бы работа организации была парализована на 45 дней. Но поскольку не парализована, я тоже довольно расслабленно жду. Наконец, во вторник (6 апреля) отвечают, что все готово, и в четверг я к ним приезжаю. Тут выясняется, что длительный процесс закончился тем же самым - мне выдают новый диск с прошивкой SN06, а что именно выяснилось про старый, осталось неизвестным. Сил докапываться не было, да и в результат верилось плохо. Но что бы им не спрямить путь и не выдать мне диск сразу, а с неисправным разбирать потом и сколько угодно. Мечты...

И второй диск был возвращен на место, успешно синхронизирован. Теперь всюду SN06, что будет дальше?

Но как бы я был им благодарен, если бы на первом принесенном диске было бы сказано, беги, как можно быстрее прошивай оставшиеся диски, а то начнут лететь друг  за другом. Тоже мечты...

В другом месте тоже стоит сервер с такими же дисками и такой же прошивкой. Работает уже больше года. Но явно надо бежать и перепрошивать, пока не грянуло...

(Оставить след)

Powered by LJ.Rossia.org