Опубликован: 18.06.2007 | Доступ: свободный | Студентов: 1391 / 36 | Оценка: 4.14 / 3.29 | Длительность: 12:44:00
ISBN: 978-5-94774-604-4
Лекция 7:

Интерполяция переменных и метасимволы \U, \u, \L, \l, \Q, \E

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >

7.3. Экранирование метасимволов регулярных выражений

Если вы вставляете в регулярное выражение литерал из ввода пользователя или какую-либо переменную и хотите, чтобы переменная интерпретировалась как текст для поиска, а не как часть регулярного выражения, то для этого имеется эскейп-последовательность \Q, которая включает режим экранирования метасимволов регулярных выражений, таких, как [, *, +, {, ^, $, …: /\Q$userinput\E/. Экранирование осуществляется до эскейп-последовательности \E, а при ее отсутствии - до конца регулярного выражения.

Вставка ввода пользователя в регулярное выражение сопряжена с опасностью выполнения постороннего кода Perl, который может содержать вызов системных программ. Это является большой дырой в защите сервера. Поэтому переменную, содержащую ввод пользователя, надо заключать в специальную конструкцию \Q…\E. Вряд ли вы захотите искать или заменять что-то по регулярному выражению, которое вводит пользователь.

Результат аналогичен применению функции Perl quotemeta(). Но символы \ в неизвестных комбинациях (например, \F ) не экранируются. Переменные типа $scalar и @array внутри метапоследовательности \Q…\E интерполируются, также интерполируются специальные переменные, которые должны интерполироваться внутри регулярных выражений.

Например:

$_='[a]bc$ ';
print "'$&'" if /^\Q[a]bc$ \E$/;

Напечатается '[a]bc$ '. После символа $ внутри строки $_ и регулярного выражения стоит пробел. Если бы между символами $ и \ не было пробела, то внутри регулярного выражения возникла бы специальная переменная $\, которая стандартно содержит неопределенное значение. Она бы заменилась на пустой фрагмент, символ \ был бы отнят от буквы E и вместо завершителя метапоследовательности \Q…\E и метасимвола $ - конца текста - мы бы получили букву E, за которой стоит простой символ $:

#!/usr/bin/perl -w
use strict;

$_='[a]bcE$';
print $& if /^\Q[a]bc$\E$/;

На печати оказывается следующее:

Use of uninitialized value in concatenation (.) or string at a.pl line 6.
[a]bcE$

Мы получили предупреждение об использовании неинициализированной переменной ( а именно, $\ ) внутри регулярного выражения. Но совпадение все же было найдено.

Чтобы яснее проиллюстрировать этот пример, присвоим переменной $\ какое-либо значение, а также вставим его в исходную строку после буквы c:

$\='?';
$_='[a]bc?E$';
print $& if /^\Q[a]bc$\E$/;

Совпадение найдется без предупреждений, и на печати окажется

[a]bc?E$?

Теперь все ясно, только откуда взялся последний знак вопроса? Дело в том, что специальная переменная $\ содержит текст, который оператор print использует как завершитель выходных записей и добавляет после своего вывода, - вот он этот текст и добавил.

Получается, что символы $ и @ внутри последовательности \Q…\E будут интерполироваться, если за ними следуют символы, которые встречаются в именах переменных или специальных переменных. А если, как у нас, после $ будет пробел, то тогда символы $ и @ будут обозначать сами себя. Ничего не даст попытка экранировать их обратным слэшем: \Q\$a\E - этот обратный слэш будет сам экранирован внутри последовательности \Q…\E, и мы получим фрагмент текста $a.

Но внутри переменных интерполяция переменных не происходит, также в них не распознаются метасимволы \Q и \E литералов регулярных выражений:

$_='[a]\\Qbc$\\';
my $a='[a]\\Qbc$\\';
print $& if /^\Q$a\E$/;

На печать выходит

[a]\Qbc$\

Также внутри блоков \Q…\E работают метасимволы литералов регулярных выражений \U, \u, \L и \l.

  • \L означает, что все буквы до эскейп-последовательности \E или до конца литерала регулярного выражения будут прописными.
  • \l означает, что следующий символ, если он буква, будет прописным.
  • \U означает, что все буквы до эскейп-последовательности \E или до конца литерала регулярного выражения будут заглавными.
  • \u означает, что следующий символ, если он буква, будет заглавным.

Например:

$_='abc';
my $a='ABC';
print $& if /^\L$a/;

Будет напечатано abc.

Или

$_='abc';
print $& if /^\LABC/;

Здесь также напечатается abc.

Обратите внимание на такой нюанс:

$_='a';
print "Found $&" if /^\Q\LA\E$/;

Не найдено!

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Константин Бражников
Константин Бражников
Россия
Mike .
Mike .
Россия