Следующая группа фильтров, которые будут рассмотрены, называется Remove (Убрать или Удалить). Эти фильтры предназначены для удаления нежелательной информации.

Итак, мы можем удалить:

  • Blanks from start/end of line (Пробелы в начале или в конце строки);
  • Blanks lines (Пустые строки);
  • Multiple whitespace (Повторяющиеся пробелы) Несколько пробелов заменяются на один пробел;
  • Remove exactly (переводится Удалить точно). Мы можем удалить точно то, что укажем. Но кроме этого существует возможность удалить нечто используя более сложные определения.
    Например, текст заданный с помощью регулярных выражений на языке Perl или с помощью других обозначений. По умолчанию действие, которое будет произведено - удаление. Кроме
    этого есть возможность отправить данные в подфильтр или передать туда переменные;
  • Remove Perl pattern или EasyPattern (Удалить информацию заданную с помощью Perl или EasyPattern). О том, что такое Perl и EasyPattern поговорим позднее.
  • Remove HTML/XML (Удаление HTML/XML) С помощью этого фильтра можно удалить все HTML тэги, отдельные элементы, атрибуты, пары тэгов. Например, Restrict to beetween tags со значением script удаляет из текста HTML страницы все скрипты;
  • Remove Lines (Удалить строки) Следующая большая группа из пяти фильтров.
    • Remove line range (Удалить строки в заданном диапазоне) Если задать диапазон от 1 до 20 будут удалены первые 20 строк текста;
    • Remove matching/nonmatching lines (Удалить строки удовлетворяющие/неудовлетворяющие некоторому условию);
    • Remove lines from list Удаляет строки совпадающие с заданными в списке;
    • Remove lines matching pattern list Удаляет строки со словами заданными в списке;
  • Duplicete lines (Удалить одинаковые строки);
  • Start or end of file (Удалить начало или конец файла);
  • Columns (Удалить колонки) Удаляет определенные колонки на каждой строке, что часто может быть полезно;
  • Byte range (Диапазон байтов) Удаление байтов заданных в определенном диапазоне. Варианты: байты с 1 по 20, 20 байтов начиная с 20 байта, 20 байтов начиная с конца файла, удалить все начиная с 1 байта до последнего минус 20 байтов;
  • Binary characters, ANSI codes (Удаление двоичных символов или ANSI);
  • All (Удалить все) Удаляется все. Достаточно часто такое радикальное средство используют в качестве подфильтра, когда ему передаются данные для уничтожения по определенному условию. Например, подобное удаление является составной частью Remove HTML. Когда задается удаление пары тэгов или атрибутов, эта пара находится и передается для удаления в подфильтр.

Действие многих фильтров в этой группе очевидно уже из названия. Удаление ведущих пробелов, множественных или пустых строк часто бывает полезно когда требуется безболезненно сократить лишний размер. Текст при этом приобретает более компактный вид. Ранее нам встречался фильтр который выделял из текста список слов. Если слово встречалось дважды, то в список попадали два слова. Теперь, если к его результату применить фильтр удалить одинаковые строки, то мы получим список слов, где слово встречается лишь один раз, дубликаты будут удалены. А если теперь к результату применить фильтр сортировка, который будет рассмотрен позднее, список слов будет отсортирован по алфавиту.

Удаление колонок полезная вещь и часто была востребована при обработке результатов, полученных после использования досовской команды DIR. DIR выдает список файлов на директории с дополнительной информацией. Удаление лишнего позволяет получить просто список файлов.

Несколько примеров. 

Фильтр До После
1 Remove exactly (с значением text) You can type sample text in You can type sample  in
2 Byte range (с значением 1 до 2) You can type sample text in  u can type sample text in
3 Perl pattern (с значением an(.*)ex) You can type sample text in  You ct in