Мы начинаем изучение фильтров с большой группы - Convert (Конвертировать).

Эта группа включает более 40 фильтров. Я даже не буду пытаться описать назначение каждого из фильтров.  У программы есть подробный HELP на английском языке, где все фильтры описаны. Я хотел бы обратить ваше внимание на то, что в эту группу почему-то попали фильтры, не имеющие отношение к конвертации. В группу Специальных фильтров - куда попали необычные и нетипичные фильтры - их тоже не включили.

Несколько вариантов того, что мы можем конвертировать:

  • конец строки (End of Line) в результате чего файл преобразуется в одну длинную строку (пример 1 в таблице);
  • символы IBM;
  • символы табуляции (Tabs);
  • буквы строчные и прописные (Character CaSe) в различных вариантах (пример 2 в таблице);
  • из одной кодовой страницы (Code Page) в другую. Это безусловно самая востребованный вид конвертации. Вариантов конвертации огромное количество (пример 3 в таблице);
  • текст в слова (Text to Word List). В результате мы получим список отдельных слов, дубликаты при этом не убираются. Чтобы убрать дубликаты, есть отдельный фильтр;
  • CSV и Табуляции;
  • документы word, excel, pdf можно преобразовать в текст;
  • Hex - шестнадцатеричные преобразования (пример 4 в таблице);
  • преобразования Base, UUencode, XXEncode;
  • и для полноты картины Calculation (Вычисления) благодаря чему с числами можно выполнить арифметические преобразования.

Несколько примеров. 

Фильтр До После
1 Конец строки (End Of Line) AA ¶
BB
AABB
2 Буквы строчные и прописные (Convert to Title Case) You can type You Can Type
3 Convert CodePage 866->1251 ‘ҐаЁ©­л© ­®¬Ґа Серийный номер
4 Hex Encode 12Ая 3132C0FF

 

В качестве примера рассмотрим преобразование запроса из поискового запроса HTTP на русский язык. Речь идет о поисковых системах. Если задается поиск с ключевыми словами на русском
языке, то запросная строка будет иметь вид:

https://www.google.ru/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=%D1%8F%20%D0%BF%D0%BE%D0%BC%D0%BD%D1%8E%20%D1%87%D1%83%D0%B4%D0%BD%D0%BE%D0%B5%20%D0%BC%D0%B3%D0%BD%D0%BE%D0%B2%D0%B5%D0%BD%D1%8C%D0%B5

Это – поисковый запрос Google с фразой на русском языке. Происходит это из-за того, что по правилам в адресной строке можно использовать только латиницу, цифры и некоторые специальные символы. В URL такое кодирование обычно применяется для передачи символов в формате Unicode (как правило UTF-8) в последовательность из двух байт, записанных в шестнадцатеричном представлении. Каждый байт предваряется знаком %. При таком кодировании строчка корова” будет иметь вид: D0%BA%D0%BE%D1%80%D0%BE%D0%B2%D0%B0.

Таким образом, нам надо сделать двойное преобразование. Двойное потому, что преобразуемые символы на первом шаге фильтром будут преобразованы в Юникод. Поэтому вторым шагом надо сделать преобразование из Юникод в Windows-1251.

Замечание по преобразованию 866->1251. Я часто использую разные команды ДОС. Например, DIR с параметром /S, чтобы получить список файлов на директориии и поддиректориях и его обработать.