Доброго времени суток!
Немножко погонял 2.1.0.17735 RC1 и обнаружил
следующие интересные (для меня) вещи.
Возможно, они заинтересуют кого-нибудь еще.
Насколько я понимаю, все это верно и для 2.0.x
Итак, начнем
CREATE TABLE TEST_TABLE3 (
ID1 INTEGER,
ID2 INTEGER
);
COMMIT;
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (3, 7);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (9, 8);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (6, 3);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (7, 7);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (4, 9);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (3, 5);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (9, 2);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (10, 8);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (7, 2);
INSERT INTO TEST_TABLE3 (ID1, ID2) VALUES (4, 5);
COMMIT;
CREATE INDEX TEST_TABLE3_ID1 ON TEST_TABLE3 (ID1);
CREATE INDEX TEST_TABLE3_ID2 ON TEST_TABLE3 (ID2);
COMMIT;
Пример 1.
select Count(*) from test_table3 t1 inner join test_table3 t2
on t1.ID1 = t2.ID2
where t2.id2 = 3
PLAN JOIN (T1 INDEX (TEST_TABLE3_ID1), T2 INDEX (TEST_TABLE3_ID2))
Честно скажу, не сразу сообразил, что оптимизатор превращает
условие t1.ID1 = t2.ID2 and t2.id2 = 3 в t1.ID1 = t2.ID2 and t1.id1 = 3
В данном случае, это немного хуже варианта с
select Count(*) from test_table3 t2 inner join test_table3 t1
on t1.ID1 = t2.ID2
where t2.id2 = 3
с планом
PLAN JOIN (T2 INDEX (TEST_TABLE3_ID2), T1 INDEX (TEST_TABLE3_ID1))
- 4 и 3 индексных чтения соответственно.
Впрочем, в реальных условиях для разных таблиц, нужно сильно
постараться, чтобы потерять в производительности - например, если
селективности индексов совпадают, но по ID1 идет перекос в сторону 3,
а в ID2 - в сторону 5.
Это, естественно, не баг, а особенность реализации.
Пример 2.
Оптимизатор хорошо обрабатывает условия с равенствами и неравенствами
в where
select Count(*) from test_table3 t1 inner join test_table3 t2
on t1.ID1 = t2.ID2
where (t2.id1 = t1.id2)
план
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2, TEST_TABLE3_ID1))
select Count(*) from test_table3 t1 inner join test_table3 t2
on t1.ID1 = t2.ID2
where (t2.id1 >= t1.id2)
план
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2, TEST_TABLE3_ID1))
Но стоит немного усложнить выражение:
select Count(*) from test_table3 t1 inner join test_table3 t2
on t1.ID1 = t2.ID2
where (t2.id1 = t1.id2-1)
или
select Count(*) from test_table3 t1 inner join test_table3 t2
on t1.ID1 = t2.ID2
where (t2.id1 > t1.id2-1)
как получаем
PLAN JOIN (T2 NATURAL, T1 INDEX (TEST_TABLE3_ID1))
хотя в этих случаях, на первый взгляд, ничто не мешает
задействовать индекс по t2.id1
Пример 3.
Итак, условия в where при inner-связке оптимизатор более-менее обрабатывает.
Как насчет left?
Поскольку таблица всего одна, далее будем использовать сокращение
U / I - U безиндексных и I индексных чтения из таблицы TEST_TABLE3
Оказывается, условие в where не всегда учитывается должным образом
Например,
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 = t2.ID2
where t2.id2 = 0
с планом
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2))
требует всего 10 / 0 чтений - т.е. условие
в where было принято во внимание, и не потребовалось 10 раз читать по
индексу T2.
Но если взять
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 = t2.ID2
where t2.id2 = 3
с планом
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2)),
то получим 10 /10 чтений - т.е. оптимизатор условие в Where
проигнорировал.
Чтобы этого не случилось, нужно включить t2.id2 = 3 в условие связки
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 = t2.ID2 and t2.id2 = 3
where t2.id2 is not null
Получаем 10 / 2 чтения.
Что ж, это еще одна причина не писать кривых запросов (а запрос, и в
самом деле, кривой), используя left там, где требуется inner.
Пример 4
Так же хорошо оптимизируется нововведение is not distinct from,
как и обычный предикат равенства?
И
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 = t2.ID2,
и
select * from test_table3 t1 inner join test_table3 t2
on t1.ID1 is not distinct from t2.ID2
выполняются с одинаковым планом:
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2))
требуя 10 / 8 чтений.
Но для
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 = t2.ID2 and t2.id2 = 3
получаем
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2, TEST_TABLE3_ID1))
и 10/2 чтений
а для
select * from test_table3 t1 left join test_table3 t2
on t1.ID1 is not distinct from t2.ID2 and t2.id2 = 3
PLAN JOIN (T1 NATURAL, T2 INDEX (TEST_TABLE3_ID2))
и 10/10 чтений.
NULL-ов в тестовой таблице нет, поэтому по идее разницы быть не должно.
Скорее всего, внутри сервера t1.ID1 is not distinct from t2.ID2
раскладывается в (t1.ID1 = t2.id2) OR (t1.ID1 is null and t2.ID2 is
null). Попробуем выполнить эту замену в самом запросе
Оказывается,
select * from test_table3 t1 left join test_table3 t2
on ((t1.ID1 = t2.id2)