Признаковое описание

Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.

Формальное определениеПравить

Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области. Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга — заёмщики, в задаче фильтрации спама — отдельные сообщения.

Признак (англ. feature) — результат измерения некоторой характеристики объекта, то есть отображение:

\text{[math]}

f\colon X\to D_{f}

,

где $\text{[math]}$ $\text{[math]}$ $D_{f}$ — множество допустимых значений признака.

Значениями признаков могут быть тексты, графы, оцифрованные изображения, числовые последовательности, записи базы данных и т. п. В зависимости от множества $\text{[math]}$ $\text{[math]}$ $D_{f}$ признаки делятся на следующие типы:

бинарный признак: $\text{[math]}$ $\text{[math]}$ $D_{f}=\{0,1\}$ ;
номинальный признак: $\text{[math]}$ $\text{[math]}$ $D_{f}$ — конечное множество;
порядковый признак: $\text{[math]}$ $\text{[math]}$ $D_{f}$ — конечное упорядоченное множество;
количественный признак: $\text{[math]}$ $\text{[math]}$ $D_{f}$ — множество действительных чисел.

Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.

Если заданы признаки $\text{[math]}$ $\text{[math]}$ $f_{1},\dots ,f_{n}$ , то вектор $\text{[math]}$ $\text{[math]}$ ${\mathbf {x} }=(f_{1}(x),\dots ,f_{n}(x))$ называется признаковым описанием объекта $\text{[math]}$ $\text{[math]}$ $x\in X$ .

В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: $\text{[math]}$ $\text{[math]}$ $X=D_{f_{1}}\times D_{f_{2}}\times \dots \times D_{f_{n}}$ . При этом множество $\text{[math]}$ $\text{[math]}$ $X$ называют признаковым пространством.

Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки $\text{[math]}$ $\text{[math]}$ $X^{l}=(x_{1},x_{2},\dots ,x_{l})$ длины $\text{[math]}$ $\text{[math]}$ $l$ , записанная в виде матрицы размера $\text{[math]}$ $\text{[math]}$ $l\times n$ ( $\text{[math]}$ $\text{[math]}$ $l$ строк, $\text{[math]}$ $\text{[math]}$ $n$ столбцов). Столбцы этой матрицы соответствуют признакам $\text{[math]}$ $\text{[math]}$ $f_{1},\dots ,f_{n}$ , а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа, и большое число методов обучения подразумевает такое представление данных.

В приложенияхПравить

Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков (англ. feature extraction) из данных или генерация признаков (англ. feature generation). Таким образом, в качестве признака можно брать и любое отображение из множества $\text{[math]}$ $\text{[math]}$ $X$ в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения взять некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.

ЛитератураПравить

Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. — 471 с.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — ISBN 5-86134-060-9.
Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: Data Mining, Inference, and Prediction. — Springer, 2001. — 533 p. — ISBN 9780387952840.

СсылкиПравить

Признаковое описание, machinelearning.ru