Использование AWK. Полезные команды AWK

Описание AWK было взято из книги
Linux.Администрирование и системное проrраммирование 2-е издание. Марк Г.Собель

AWK является языком сканирования и обработки данных с помощью шаблонов,
позволяющим вести поиск записей (в качестве которых обычно выступают строки),
соответствующих указанным шаблонам, в одном или нескольких файлах. При обработке строк выполняются такие действия, как запись строк в стандартный вывод
или приращение значения счетчика при каждом обнаружении соответствия шаблону.
В отличие от процедурных языков, AWK является языком, управляемым данными: ему
предоставляется описание данных для обработки и сообщается, что нужно делать
с этими данными в случае их обнаружения.
AWK можно использовать для составления отчетов или для фильтрации текста.
Он одинаково хорошо работает как с числами, так и с текстами. AWK обычно дает
правильный результат и при работе со смешанными числовыми и текстовыми дан-
ными. Авторы AWK (а этот язык назван аббревиатурой, образованной от фамилий
авторов — Alfred V. Aho, Peter J. Weinberger, Brian W. Kernighan) разработали свое
детище с расчетом на простоту его использования. Для этого в исходной реализации
они сознательно пожертвовали скоростью работы.
AWK перенял многие конструкции у языка программирования C и обладает следующими свойствами:

 

Синтаксис
В командной строке gawk используется следующий синтаксис:

Утилита gawk получает ввод из файлов, указанных в командной строке, или из стандартного ввода.

 

Аргументы
В приведенном выше примере синтаксиса программа — это программа на gawk, включаемая в командную строку.
Файл_программы — это имя файла, в котором содержится программа на gawk.
Включение программы в командную строку дает возможность писать короткие gawk-программы, не создавая отдельного файл_программы.
Чтобы оболочка не интерпретировала команды gawk как команды оболочки, программу
нужно поместить в одинарные кавычки.
Если поместить длинную или сложную программу в файл, это позволит сократить количество возможных ошибок и исключить повторный набор программы.
Список_файлов содержит путевые имена обычных файлов, обрабатываемых с помощью gawk.
Эти файлы являются файлами ввода. Если список_файлов не указан, gawk получает ввод из стандартного ввода или из источника,указанного в инструкции getline

 

Ключи
С ключами, перед которыми ставится двойной дефис (—), работает только утилита
gawk. При работе с awk или mawk эти ключи недоступны.

Использование fs в качестве значения разделителя полей (field separator) ввода

Чтение gawk-программы из файла по имени файл_программы, а не из командной
строки. Этот ключ можно указать в командной строке более одного раза.

Краткая справка по использованию gawk (только в gawk).

Предупреждение о потенциально ошибочных или непереносимых конструктивных элементах gawk (только в gawk).

Запуск POSIX-совместимой версии gawk. Этот ключ накладывает ряд ограничений, подробности которых даны в man-странице, посвященной gawk (тольков gawk).

Игнорирование в gawk-программе новых функций GNU, позволяющее получить
программу, совместимую с UNIX awk (только в gawk).

Присваивание значения переменной. Присваивание осуществляется еще до выполнения gawk-программы и доступно внутри шаблона BEGIN.
Этот ключ можно указать в командной строке более одного раза.

 

Основы языка
Программа на gawk (программа, набранная в командной строке или в файле_программы) состоит из одной и более строк, в которых содержится шаблон и (или) действие в следующем формате:

Шаблон выбирает строки из ввода. Утилита gawk выполняет действие над всеми строками, выбранными шаблоном.
Фигурные скобки, в которые заключено действие, позволяют gawk отличить его от шаблона. Если программная строка не содержит шаблона, gawk выбирает из ввода все строки.
Если программная строка не содержит действия, gawk копирует выбранные строки на стандартный вывод.
Сначала gawk сравнивает первую строку ввода (из файла, принадлежащего списку_файлов или из стандартного ввода) с каждым шаблоном программы.
Если шаблон выбирает строку (если определяется ее соответствие шаблону), gawk выполняет действие, связанное с этим шаблоном. Если строка не выбрана, gawk не выполняет действие.
Когда gawk завершит сравнение первой строки ввода, он повторяет процесс для следующей строки ввода. Он продолжает этот процесс сравнения последовательных
строк ввода, пока не прочитает весь ввод.
Если несколько шаблонов выбирают одну и ту же строку, gawk выполняет действие, связанное с каждым шаблоном, в порядке его появления в программе.
Утилита gawk может отправить на стандартный вывод одну и ту же строку ввода более одного раза.

 

Шаблоны

В качестве шаблона можно использовать регулярное выражение, заключенное в слэши. Оператор ~ проверяет, соответствует ли поле или переменная регулярному выражению.
Оператор !~ проводит проверку на несоответствие. Используя операторы отношений,
перечисленные в табл ниже, можно проводить как числовое, так и строковое сравнение.
Булевые операторы || (ИЛИ) и && (И) позволяют объединять любые шаблоны.

Два уникальных шаблона, BEGIN и END, выполняют команды перед тем,
как утилита gawk приступит к обработке ввода, и после того, как она завершит эту обработку. До начала обработки всего ввода утилита gawk выполняет действия, связанные
с шаблоном BEGIN, а по окончании обработки — действия, связанные с шаблоном END

Запятая является оператором диапазона. Если два шаблона на одной
строке gawk‑программы разделены запятой, gawk выбирает диапазон строк, начиная
с первой строки, соответствующей первому шаблону. Последней строкой, выбранной
gawk, будет следующая строка из последовательности строк, соответствующая второму шаблону. Если второму шаблону не будет соответствовать ни одна строка, gawk
выберет каждую строку до конца ввода. После того как утилита gawk обнаружит соответствие второму шаблону, она возобновляет этот процесс, начиная новый поиск
соответствия первому шаблону.

 

Действия

Действие является частью команды gawk, заставляющее gawk выполнить это действие при обнаружении соответствия шаблону.
Если действие не указано, gawk выполняет действие по умолчанию.
В этом качестве используется команда print (которая в явном виде предоставляется как {print}). Это действие копирует запись (как правило, строку) из ввода в стандартный вывод.

Когда за командой print указываются аргументы, gawk выводит только их значения.
Аргументами могут быть переменные или строковые константы. Вывод команды print
можно отправить в файл (используя в gawk-программе символ >), добавить его к файлу (>>) или отправить через канал на ввод другой программы (|). Сопроцесс (|&) является двунаправленным каналом, осуществляющим обмен данными с программой, запущенной в фоновом режиме (доступен только в gawk)

Пока объекты в команде print не будут разделены запятыми, gawk проводит их объединение.
Запятые заставляют gawk разделить объекты, используя разделитель полей в выводе (OFS; как правило, в качестве разделителя используется пробел)
В одну строку могут быть включены несколько действий, разделенные точками с запятой.

 

Комментарии
Утилита gawk игнорирует ту часть программной строки, которая следует за знаком решетки (#).
Предваряя комментарии этим символом, можно осуществлять документирование gawk-программы.

 

Переменные
Хотя объявлять переменные в gawk до их применения не требуется, при желании им
можно присваивать начальные значения. Беззнаковые числовые переменные инициализируются значением 0; строковые переменные инициализируются пустой строкой.
Кроме поддержки пользовательских переменных, gawk поддерживает программные переменные.
Оба этих вида переменных (пользовательские и программные) можно использовать в тех частях gawk-программы, которые относятся к шаблонам и действиям.
Некоторые программные переменные перечислены в таблице ниже

Кроме инициализации переменных внутри программы для их инициализации
в командной строке можно воспользоваться ключом ––assign (–v).
Эта возможность пригодится в том случае, если значение переменной от запуска к запуску gawk изменяется.

 

Разделители Записей
По умолчанию записи во вводе и в выводе отделяются друг от друга разделителем строк.
То есть gawk принимает каждую строку ввода за отдельную запись и добавляет к концу каждой записи в выводе разделитель строк.
По умолчанию разделителями полей во вводе являются символы пробелов и табуляции, а в качестве разделителя полей в выводе используется пробел.
Значение любого разделителя можно в любое время заменить новым значением, присвоив это значение переменной либо из программы,
либо из командной строки с помощью ключа ––assign (–v).

 

Функции
В таблице ниже перечислены некоторые функции, предоставляемые gawk для работы с числами и строками.

 

Арифметические операторы
Арифметические операторы gawk, перечисленные в таблице ниже позаимствованы из языка C.



 

Ассоциативные массивы
Ассоциативный массив — одно из самых мощных средств gawk. В качестве индексов в этих массивах используются строки
Использование в качестве индексов числовых строк позволяет имитировать обычный массив.
Для присваивания значения элементу ассоциативного массива используется следующий синтаксис:

где массив — это имя массива, строка — индекс элемента массива, которому присваивается значение, а значение — это значение, которое присваивается данному элементу.
Используя следующий синтаксис, при работе с ассоциативным массивом можно использовать управляющую структуру:

где элемент — это переменная, которая принимает значение каждого элемента массива в процессе последовательного перебора элементов,
осуществляемого циклом, массив — имя массива, а действие — это действие, которое gawk выполняет в отношении каждого
элемента массива. В этом действии можно использовать переменную элемент.

 

printf
Для управления форматом вывода, генерируемого gawk, вместо команды print можно использовать команду printf.
Версия printf, используемая в gawk, похожа на одноименную функцию языка C. Команда printf использует следующий синтаксис:

Управляющая_строка определяет, как именно printf форматирует арг1, арг2, …, аргn.
Эти аргументы могут быть переменными или другими выражениями. Внутри управ-
ляющей_строки можно использовать символы \n для обозначения разделителя строк
и \t для обозначения символа TAB.
Управляющая_строка содержит спецификации преобразования, по одной для каждого аргумента.
Для спецификации преобразования используется следующий синтаксис:

где символ дефиса (–) заставляет printf выровнять аргумент по левому краю, x — это
минимальная ширина поля, а .y — количество знакомест в числе справа от десятичной
точки. Элемент conv обозначает тип числового преобразования и может быть выбран
из букв, показанных в таблице ниже.

 

Управляющие структуры
Управляющие (изменяющие ход программы) инструкции изменяют порядок выполнения команд в gawk-программе. В этом разделе рассматриваются подробности управляющих структур
if…else, while и for
Кроме этого рассматриваются инструкции breakи continue, которые используются в управляющих структурах для изменения порядка выполнения команд.
При указании одной простой команды использовать вокруг нее фигурные скобки необязательно.

 

Управляющая структура if…else

Управляющая структура if…else проверяет состояние, возвращенное условием, и передает управление на основе этого состояния.
В показанном ниже синтаксисе структуры if…else часть else является необязательной.

В простой, показанной здесь инструкции if фигурные скобки не используются:

Следующая gawk-программа использует простую структуру if…else. Здесь фигур-
ные скобки также не используются.

 

Управляющая структура while

Структура while осуществляет циклический проход и выполнение команд до тех пор, пока условие вычисляется в true.
Для структуры while используется следующий синтаксис:

Следующая gawk-программа использует простую структуру while для вывода степеней числа два.
В этом примере используются фигурные скобки, потому что цикл while состоит из более чем одной инструкции.
Эта программа не получает ввода, и вся обработка проводится при выполнении gawk инструкций, связанных с шаблоном BEGIN.

 

Управляющая структура for

Для управляющей структуры for используется следующий синтаксис:

Структура for начинает свою работу с выполнения инструкции инициализации, которая обычно устанавливает значение счетчика в 0 или 1.
Затем она выполняет циклический проход команд до тех пор, пока условие вычисляется в true.
После каждого цикла структура выполняет инструкцию инкремент. Gawk-программа for1 делает то же самое, что и предыдущая команда while1, с той лишь разницей, что в ней используется
инструкция for, упрощающая код программы:

 

Инструкция break
Инструкция break передает управление за пределы цикла for или цикла while, прерывая
выполнение цикла, внутри которого она присутствует.

 

Инструкция continue
Инструкция continue передает управление в конец цикла for или цикла while, приводя
к тому, что цикл, в котором она присутствует, продолжается со следующей итерации.

 

Полезные команды AWK

 

Вывод первого и четвертого поля, разделенных символом пробела

Или

 

Вывод всех полей

 

Добвавление в конце каждой строки символа ***

 

Вывод первого и четвертого поля, разделенных символом табуляции

 

Вывод первого и шестого полей строк, со вхождением шаблона root

 

Вывод первого и шестого полей всех строк, в которых нет вхождения шаблона root

 

Вывод первого и шестого полей всех строк, в которых есть вхождения шаблона root или шаблона ssh

 

Вывод первого поля(имени пользователя) у которого седьмое поле(оболочка) содержит шаблон bash

 

Вывод первого поля(имени пользователя) у которого седьмое поле(оболочка) НЕ содержит шаблон bash

 

Вывод строк, у которых последнее поле равно шаблону /bin/bash

 

Вывод строк совпадающих с шаблоном (аналог команды grep)

 

Вывод всех строк,содержащих в первом поле шаблон ho

 

Вывод всех строк, содержащих в начале первого поля шаблон ho

 

Вывод всех строк, которые не содержат в начале первого поля шаблон ho

 

Вывод первого,третьего и шестого полей строк, у которых первого поле начинается на букву t или m

 

Вывод третьего, первого полей, знака $ и пятого поля строк, в которых третье поле заканчивается на цифру 5

 

Вывод строк, у которых третье поле равно 1985

 

Вывод строк, у которых третье поле НЕ равно 1985

Или

 

Вывод строк, у которых третье поле меньше или равно 3000

 

Вывод строк, у которых пятое поле больше или равно 2000 и пятое поле меньше 9000 (используется логическое И)

 

Вывод строк между двумя вхождениями(включая строки,содержащие эти вхождения)

 

Вывод строк между двумя вхождениями шаблонов в первом поле
(включая строки,содержащие эти вхождения)

 

Вывод длины строки (без вывода строки)

 

Вывод длины первого поля строки(без вывода поля/строки)

 

Вывод длины строки и самой строки

 

Вывод длины первого поля и первого поля

 

Вывод номера строки, длина которой превышает 24 символа

 

Вывод строк, длина которой превышает 24 символа

Или

 

Вывод длины самой длинной строки

 

Замена значения первого поля,в зависимости от изначального значение первого поля.
Если первое поле содержит шаблон ply, то присвоить первому полю значение plymouth
Если первое поле содержит шаблон chev, то присвоить первому полю значение chevrolet
Кроме этого использует ключ -f для получения инструкций из файла, что
полезно, когда их большое количество и вводить их вручную в терминале непрактично

 

Использование автономного сценария(вместо вызова awk из командной строки с ключом -f) ,запускающий ту же программу, что указана выше

 

Замена разделителя полей в выводе на символ табуляции(по умолчанию используется пробел)

 

Создание отдельных файлов со строками,которые содержат шаблоны chevy и ford

 

Запись второго поля всех строк в отдельный файл

 

Изменения дефолтного разделитя(пробел) полей в выводе на символ =>

 

Вывод всех строк начиная с 5-й строки и до конца файла

 

Вывод первых десяти строк файла(аналог команды head)

 

Вывод первой строки файла (аналог команды head -1)

 

Вывод двух последних строк файла (аналог команды tail -2)

 

Вывод последней строки файла (аналог команды tail -1)

 

Вывод строк,содержащих шаблон (аналог команды grep)

 

Вывод строк, НЕ содержащих шаблон (аналог команды grep -v)

 

Вывод строки,которая предшествует строке,содержащей шаблон(при этом строка,содержащая шаблон не выводится

 

Вывод строки,которая находится после строки, содержащей шаблон(при этом строка, содержащая шаблон не выводится

 

Вывод строк,содержащих указанные шаблоны в одной строке(в любом порядке)

 

Вывод строк,содержащих указанные шаблоны в одной строке(в строго указанном порядке)

 

Вывод всех строк начиная со строки, содержащей регулярное выражение и до конца файла

Или

 

Вывод строк с 5-ой по 10-ю

 

Вывод 12-ой строки

Или (более эффективно для больших файлов)

 

Вывод номера строки перед самой строкой

Или

 

Вывод строк с кол-вом полей больше или равно 5

 

Вывод строк, у которых значение последнего поля больше 4

 

Вывод последнего поля всех строк

 

Вывод последнего поля последней строки

 

Вывод предпоследнего поля всех строк

 

Вывод поля с середины всех строк

 

Вывод кол-ва строк

 

Вывод четных строк файла

 

Удаление пустых строк файла

Или

 

Удаление пробелов/табуляции в начале каждой строки

 

Удаление пробелов/табуляции в конце каждой строки

 

Удаление пробелов/табуляции в начале и в конце каждой строки

 

Вставка пяти символов пробела в начале каждой строки

 

Вывод первых трех столбцов каждой строки по одному в строке

 

Изменения дефолтного разделитя(пробел или табуляция) полей в ввода

Или

 

Вывод суммы значений третьих полей

 

Вывод суммы всех полей для каждой строки

 

Вывод суммы всех полей всех строк

 

Вывод общего кол-ва полей

 

Вывод кол-ва строк,которые содержат шаблон honda

 

Источник:
Linux.Администрирование и системное проrраммирование 2-е издание. Марк Г.Собель
http://www.pement.org/awk/awk1line.txt
http://rus-linux.net/MyLDP/consol/awk.html
http://www.grymoire.com/Unix/Awk.html

 

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.

Яндекс.Метрика