Стабильность сервера

2002-10-07 Пенетрантность Raul Umyarov
Здравствуйте.
  История такова. Переодически, раз в месяц (в пару недель) зависает 
шлюз-сервер. Да так, что не пингуется, консоль не просыпается, вообщем не 
подает никаких признаков жизни. В логах не остается никакой информации.
  Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг.

  Как найти что глючит? Как можно заставить сервер, хоть что-нибудь писать в 
логи. Может существует програмулина какая, которая может намекнуть что 
косячит, мониторить происходящее.

Всегр доброго.
  Рауль.



Стабильность сервера

2002-10-07 Пенетрантность Igor Suvorov
Good Day, Raul!

Monday, October 7, 2002, 12:05:58 PM, you wrote:

RU Здравствуйте.
RU   История такова. Переодически, раз в месяц (в пару недель) зависает 
шлюз-сервер.
RU Да так, что не пингуется, консоль не просыпается, вообщем не подает никаких
RU признаков жизни. В логах не остается  никакой информации.
RU   Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг.

RU   Как найти что глючит?

Отключить на консоли скринсейвер (man setterm). И посмотреть, что же
все таки происходит.

--
Igor



Re: Стабильность сервера

2002-10-07 Пенетрантность Raul Umyarov
  Это ни о чем.
  Напиши подробнее - что за железо: мать/сетевушка.

  - MB STL2 - двухпроцессорная, видео встроенное.
  - стоит один Pentium III (Coppermine) 800Mhz,
  - сетевых две Intel на чипе 82557 (одна встроенная и Intel(R) PRO/100+ 
Management Adapter)
  - два винта IDE 40Гиг.
  - Omega PCI 8-ми портовая RS-232
  - TAU PCI интерфейс V.35

Все стоит на ядре 4.2.18. Сначало potato, сейчас woody.


Рауль.



Re: Стабильность сервера

2002-10-07 Пенетрантность Raul Umyarov

 По моему опыту сначала проверить железо. 
 1) memtest
Это сделаю.
 2) Стресс тест на сетевые карты и затем диски...
А это чем делать?

  Рауль.



Re: Стабильность сервера

2002-10-07 Пенетрантность Raul Umyarov

  Проблема в сетевых картах.
  У тебя случайно вот таких сообщений нет ?
 
   eepro100: wait_for_cmd_done timeout!
   eepro100: wait_for_cmd_done timeout!
   eepro100: wait_for_cmd_done timeout!
 

У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал.

 
  Как мне посоветовали, нужно выключить sleep mode на них.
  Предложенной утилитой я это сделать не смог.
 
  У меня осталось два варианта:
 
   1. выключить sleep mode в биосе сетевушек
   2. обновить bios для STL2, у меня несколько машин на STL2, и у меня
  ощущение, что там где глюка нет (не виснут), я обновлял биос.
 
  Сейчас как-раз поеду к серверам, чинить.

Спасибо за внимание буду иметь в виду.

  Рауль.



Re: Стабильность сервера

2002-10-07 Пенетрантность Yurkin Evgenie
7 Октябрь 2002 16:16, Andrey Nekrasov написал:
 Hello Raul Umyarov,

Проблема в сетевых картах.
У тебя случайно вот таких сообщений нет ?
  
 eepro100: wait_for_cmd_done timeout!
 eepro100: wait_for_cmd_done timeout!
 eepro100: wait_for_cmd_done timeout!
 
  У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал.

  Те что с сайта интела раздаются или те что в ядре?

стоит у меня такая же мать stl2 
ядра что 2.2.х что 2.4.x 
находят все замечательно
модуль  eepro100.o
работает без перебоев биос не обновлял

Евгений Юркин


  Модули я использовать не могу (или не умею).
  Кстати - можно как-то использовать модули, если зaгружаю ядро по tftp и
 дальше / по NFS?

  А ядерный e100 пишет что ничего не нашел.

Как мне посоветовали, нужно выключить sleep mode на них.
Предложенной утилитой я это сделать не смог.
  
У меня осталось два варианта:
  
 1. выключить sleep mode в биосе сетевушек
 2. обновить bios для STL2, у меня несколько машин на STL2, и у меня
ощущение, что там где глюка нет (не виснут), я обновлял биос.
  
Сейчас как-раз поеду к серверам, чинить.
 
  Спасибо за внимание буду иметь в виду.



Re: Стабильность сервера

2002-10-07 Пенетрантность Ilya Anfimov
On Mon, Oct 07, 2002 at 04:05:58PM +0800, Raul Umyarov wrote:
 Здравствуйте.
   История такова. Переодически, раз в месяц (в пару недель) зависает 
 шлюз-сервер. Да так, что не пингуется, консоль не просыпается, вообщем не 
 подает никаких признаков жизни. В логах не остается никакой информации.
   Ядро 2.4.18, Pentium III, software RAID зеркалируемый, два винта 40 Гиг.
 
   Как найти что глючит? Как можно заставить сервер, хоть что-нибудь писать в 
 логи. Может существует програмулина какая, которая может намекнуть что 
 косячит, мониторить происходящее.
 

 Напиши  скрипт,  который  каждые  пару  секунд выбивает в логи (
желательно не через syslog)  детальную  статистику  загруженности
сервер  и  основных  подозрительных  девайсов (сетевушки, винтов,
etc). Ещё  желательно  настроить  lmsensors  и  температуру  тоже
мерять.  sync тоже вставь.
 После  очередного  зависона  посмотри,  что  резко полезло вверх
перед смертью.

 Да, ещё может помочь чтение сорцов дров, особенно сетевушки,  на
предмет дополнительной debug-информации. Мало ли, может из машины
можно выжать  существенно  больше  сообщений,  чем  ты  получаешь
сейчас.
 Всегр доброго.
   Рауль.
 
 
 -- 
 To UNSUBSCRIBE, email to [EMAIL PROTECTED]
 with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Стабильность сервера

2002-10-07 Пенетрантность Raul Umyarov
 Здравствуйте.
   Как найти что глючит? Как можно заставить сервер, хоть что-нибудь  писать 
 в логи. Может существует програмулина какая, которая может  намекнуть что 
 косячит, мониторить происходящее.

Спасибо всем. Пойду ковырять.
 
 Всего доброго.
   Рауль.



Re: Стабильность сервера

2002-10-07 Пенетрантность Yurkin Evgenie
7 Октябрь 2002 16:52, Andrey Nekrasov написал:
 Hello Yurkin Evgenie,

У меня драйвера от Intel стоят, т.е. e100, никогда такого не видал.
  
Те что с сайта интела раздаются или те что в ядре?
 
  стоит у меня такая же мать stl2
  ядра что 2.2.х что 2.4.x
  находят все замечательно
  модуль  eepro100.o
  работает без перебоев биос не обновлял

  Все от нагрузки зависит.

ну на этой машине живет оракл и пользователей его в онлайне около 50
(база размером 9Gb)
так что  кушает он не плохо
  e100 (ядерный)загружается ?

#dmesg
Linux version 2.4.17 (root@) (gcc version 2.95.4 (Debian prerelease)) #2 SMP 
Mon Apr 1 09:35:12 NOVST 2002
BIOS-provided physical RAM map:
 BIOS-e820:  - 0009f400 (usable)
 BIOS-e820: 0009f400 - 000a (reserved)
 BIOS-e820: 000e4400 - 0010 (reserved)
 BIOS-e820: 0010 - 1fff (usable)
 BIOS-e820: 1fff - 1c00 (ACPI data)
 BIOS-e820: 1c00 - 2000 (ACPI NVS)
 BIOS-e820: fec0 - fec1 (reserved)
 BIOS-e820: fee0 - fee01000 (reserved)
 BIOS-e820: fff0 - 0001 (reserved)
found SMP MP-table at 000f6900
hm, page 000f6000 reserved twice.
hm, page 000f7000 reserved twice.
hm, page 0009f000 reserved twice.
hm, page 000a reserved twice.
On node 0 totalpages: 131056
zone(0): 4096 pages.
zone(1): 126960 pages.
zone(2): 0 pages.
Intel MultiProcessor Specification v1.4
Virtual Wire compatibility mode.
OEM ID: INTELProduct ID: STL2 APIC at: 0xFEE0
Processor #3 Pentium(tm) Pro APIC version 17
Processor #0 Pentium(tm) Pro APIC version 17
I/O APIC #4 Version 17 at 0xFEC0.
I/O APIC #5 Version 17 at 0xFEC01000.
Processors: 2
-skip-
eepro100.c:v1.09j-t 9/29/99 Donald Becker 
http://cesdis.gsfc.nasa.gov/linux/drivers/eepro100.html
eepro100.c: $Revision: 1.36 $ 2000/11/17 Modified by Andrey V. Savochkin 
[EMAIL PROTECTED] and others
eth0: OEM i82557/i82558 10/100 Ethernet, 00:D0:B7:B7:FB:4B, IRQ 18.
  Board assembly 00-000, Physical connectors present: RJ45
  Primary interface chip i82555 PHY #1.
  General self-test: passed.
  Serial sub-system self-test: passed.
  Internal registers self-test: passed.
  ROM checksum self-test: passed (0x04f4518b).
-skip-
#uptime
 10:02:29 up 112 days, 23:58,  2 users,  load average: 0.18, 0.11, 0.02

Евгений Юркин


  Версия биоса какая?