Стабильность сервера
Здравствуйте. История такова. Переодически, раз в месяц (в пару недель) зависает шлюз-сервер. Да так, что не пингуется, консоль не просыпается, вообщем не подает никаких признаков жизни. В логах не остается никакой информации. Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг. Как найти что глючит? Как можно заставить сервер, хоть что-нибудь писать в логи. Может существует програмулина какая, которая может намекнуть что косячит, мониторить происходящее. Всегр доброго. Рауль.
Стабильность сервера
Good Day, Raul! Monday, October 7, 2002, 12:05:58 PM, you wrote: RU Здравствуйте. RU История такова. Переодически, раз в месяц (в пару недель) зависает шлюз-сервер. RU Да так, что не пингуется, консоль не просыпается, вообщем не подает никаких RU признаков жизни. В логах не остается никакой информации. RU Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг. RU Как найти что глючит? Отключить на консоли скринсейвер (man setterm). И посмотреть, что же все таки происходит. -- Igor
Re: Стабильность сервера
Это ни о чем. Напиши подробнее - что за железо: мать/сетевушка. - MB STL2 - двухпроцессорная, видео встроенное. - стоит один Pentium III (Coppermine) 800Mhz, - сетевых две Intel на чипе 82557 (одна встроенная и Intel(R) PRO/100+ Management Adapter) - два винта IDE 40Гиг. - Omega PCI 8-ми портовая RS-232 - TAU PCI интерфейс V.35 Все стоит на ядре 4.2.18. Сначало potato, сейчас woody. Рауль.
Re: Стабильность сервера
По моему опыту сначала проверить железо. 1) memtest Это сделаю. 2) Стресс тест на сетевые карты и затем диски... А это чем делать? Рауль.
Re: Стабильность сервера
Проблема в сетевых картах. У тебя случайно вот таких сообщений нет ? eepro100: wait_for_cmd_done timeout! eepro100: wait_for_cmd_done timeout! eepro100: wait_for_cmd_done timeout! У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал. Как мне посоветовали, нужно выключить sleep mode на них. Предложенной утилитой я это сделать не смог. У меня осталось два варианта: 1. выключить sleep mode в биосе сетевушек 2. обновить bios для STL2, у меня несколько машин на STL2, и у меня ощущение, что там где глюка нет (не виснут), я обновлял биос. Сейчас как-раз поеду к серверам, чинить. Спасибо за внимание буду иметь в виду. Рауль.
Re: Стабильность сервера
7 Октябрь 2002 16:16, Andrey Nekrasov написал: Hello Raul Umyarov, Проблема в сетевых картах. У тебя случайно вот таких сообщений нет ? eepro100: wait_for_cmd_done timeout! eepro100: wait_for_cmd_done timeout! eepro100: wait_for_cmd_done timeout! У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал. Те что с сайта интела раздаются или те что в ядре? стоит у меня такая же мать stl2 ядра что 2.2.х что 2.4.x находят все замечательно модуль eepro100.o работает без перебоев биос не обновлял Евгений Юркин Модули я использовать не могу (или не умею). Кстати - можно как-то использовать модули, если зaгружаю ядро по tftp и дальше / по NFS? А ядерный e100 пишет что ничего не нашел. Как мне посоветовали, нужно выключить sleep mode на них. Предложенной утилитой я это сделать не смог. У меня осталось два варианта: 1. выключить sleep mode в биосе сетевушек 2. обновить bios для STL2, у меня несколько машин на STL2, и у меня ощущение, что там где глюка нет (не виснут), я обновлял биос. Сейчас как-раз поеду к серверам, чинить. Спасибо за внимание буду иметь в виду.
Re: Стабильность сервера
On Mon, Oct 07, 2002 at 04:05:58PM +0800, Raul Umyarov wrote: Здравствуйте. История такова. Переодически, раз в месяц (в пару недель) зависает шлюз-сервер. Да так, что не пингуется, консоль не просыпается, вообщем не подает никаких признаков жизни. В логах не остается никакой информации. Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг. Как найти что глючит? Как можно заставить сервер, хоть что-нибудь писать в логи. Может существует програмулина какая, которая может намекнуть что косячит, мониторить происходящее. Напиши скрипт, который каждые пару секунд выбивает в логи ( желательно не через syslog) детальную статистику загруженности сервер и основных подозрительных девайсов (сетевушки, винтов, etc). Ещё желательно настроить lmsensors и температуру тоже мерять. sync тоже вставь. После очередного зависона посмотри, что резко полезло вверх перед смертью. Да, ещё может помочь чтение сорцов дров, особенно сетевушки, на предмет дополнительной debug-информации. Мало ли, может из машины можно выжать существенно больше сообщений, чем ты получаешь сейчас. Всегр доброго. Рауль. -- To UNSUBSCRIBE, email to [EMAIL PROTECTED] with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]
Re: Стабильность сервера
Здравствуйте. Как найти что глючит? Как можно заставить сервер, хоть что-нибудь писать в логи. Может существует програмулина какая, которая может намекнуть что косячит, мониторить происходящее. Спасибо всем. Пойду ковырять. Всего доброго. Рауль.
Re: Стабильность сервера
7 Октябрь 2002 16:52, Andrey Nekrasov написал: Hello Yurkin Evgenie, У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал. Те что с сайта интела раздаются или те что в ядре? стоит у меня такая же мать stl2 ядра что 2.2.х что 2.4.x находят все замечательно модуль eepro100.o работает без перебоев биос не обновлял Все от нагрузки зависит. ну на этой машине живет оракл и пользователей его в онлайне около 50 (база размером 9Gb) так что кушает он не плохо e100 (ядерный)загружается ? #dmesg Linux version 2.4.17 (root@) (gcc version 2.95.4 (Debian prerelease)) #2 SMP Mon Apr 1 09:35:12 NOVST 2002 BIOS-provided physical RAM map: BIOS-e820: - 0009f400 (usable) BIOS-e820: 0009f400 - 000a (reserved) BIOS-e820: 000e4400 - 0010 (reserved) BIOS-e820: 0010 - 1fff (usable) BIOS-e820: 1fff - 1c00 (ACPI data) BIOS-e820: 1c00 - 2000 (ACPI NVS) BIOS-e820: fec0 - fec1 (reserved) BIOS-e820: fee0 - fee01000 (reserved) BIOS-e820: fff0 - 0001 (reserved) found SMP MP-table at 000f6900 hm, page 000f6000 reserved twice. hm, page 000f7000 reserved twice. hm, page 0009f000 reserved twice. hm, page 000a reserved twice. On node 0 totalpages: 131056 zone(0): 4096 pages. zone(1): 126960 pages. zone(2): 0 pages. Intel MultiProcessor Specification v1.4 Virtual Wire compatibility mode. OEM ID: INTELProduct ID: STL2 APIC at: 0xFEE0 Processor #3 Pentium(tm) Pro APIC version 17 Processor #0 Pentium(tm) Pro APIC version 17 I/O APIC #4 Version 17 at 0xFEC0. I/O APIC #5 Version 17 at 0xFEC01000. Processors: 2 -skip- eepro100.c:v1.09j-t 9/29/99 Donald Becker http://cesdis.gsfc.nasa.gov/linux/drivers/eepro100.html eepro100.c: $Revision: 1.36 $ 2000/11/17 Modified by Andrey V. Savochkin [EMAIL PROTECTED] and others eth0: OEM i82557/i82558 10/100 Ethernet, 00:D0:B7:B7:FB:4B, IRQ 18. Board assembly 00-000, Physical connectors present: RJ45 Primary interface chip i82555 PHY #1. General self-test: passed. Serial sub-system self-test: passed. Internal registers self-test: passed. ROM checksum self-test: passed (0x04f4518b). -skip- #uptime 10:02:29 up 112 days, 23:58, 2 users, load average: 0.18, 0.11, 0.02 Евгений Юркин Версия биоса какая?