Маркированные данные

Маркированные данные (Labeled data) — это группа образцов, которые были обозначены одной или более маркировкой. В процессе маркировки обычно берется набор не маркированных данных и каждый образец в нем дополняется информативными тегами. Например, метка данных может обозначать находится ли на фотографии лошадь или корова, какие слова были произнесены в аудио записи, какой тип действия был произведен в видео, какая тема новостной статьи, какое общее настроение твита, является ли часть изображения на рентгеновском снимке опухолью.

Метки могут быть получены опрашиванием людей с просьбой их сделать умозаключение об образце немаркированных данных. Стоит отметить, что маркированные данные намного дороже получить, нежели сырые немаркированные данные.

Краудсорсинговые маркированные данныеПравить

В 2006 году Фей-Фей Ли, содиректор Стэнфордского института искусственного интеллекта, ориентированного на людей, намеревалась улучшить модели и алгоритмы искусственного интеллекта, предназначенные для распознавания изображений, существенно увеличив количество обучающих данных. Исследователи загрузили миллионы изображений из Всемирной паутины и команда бакалавров начала маркировать объекты на каждом изображении. В 2007 году Ли отдала на аутсорсинг компании работу связанную с маркировкой данных Amazon Mechanical Turk — электронной торговой площадке для цифровых сдельных работ. 3.2 миллиона изображений отмаркированные более чем 49,000 работниками, сформировали основу для ImageNet, одной из самых больших баз данных с ручной маркировкой для распознавания объектов.^[1]

Автоматическая маркировка данныхПравить

После получения маркированного набора данных, модели машинного обучения могут быть применены к новым немаркированным данным, и метки могут быть предсказаны для этих немаркированных данных.^[2]

Предвзятость основанная на данныхПравить

Алгоритмическое принятие решений является субъектом предвзятости программиста, а также предвзятости, основанной на данных. Обучающие данные, которые полагаются на предвзятые маркированные данные станут результатом предубеждений и упущений прогнозной модели^[en], несмотря на то, что алгоритмы машинного обучения, в целом, являются законными. Маркированные данные использованные для обучения определенного алгоритма машинного обучения должны представлять статистическую репрезентативную выборку, для того чтобы избежать предвзятости в результате.^[3] По причине того, что маркированные данные доступные для обучения систем распознавания лиц^[en]^* не являются порой репрезентативной выборкой генеральной совокупности, недопредставленные группы в маркированных данных позже часто неправильно классифицируются. В 2018 году исследование проведенное Джой Буоламвини^[en] и Гебру Тимнит^[en] показало, что два набора данных предназначенных для анализа лиц, использованные для обучения алгоритмов распознавания лиц: IJB-A и Adience, состояли на 79.6% и 86.2% из людей с более светлой кожей соответственно.^[4]

ПримечанияПравить

↑ Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. — Houghton Mifflin Harcourt, 2019. — P. 7. — ISBN 9781328566287.
↑ Johnson, Leif. "What is the difference between labeled and unlabeled data?", Stack Overflow, 4 October 2013. Retrieved on 13 May 2017. Шаблон:CC-notice
↑ Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 64. — ISBN 9789231003639.
↑ Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 66. — ISBN 9789231003639.

[1] Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. — Houghton Mifflin Harcourt, 2019. — P. 7. — ISBN 9781328566287.

[2] Johnson, Leif. "What is the difference between labeled and unlabeled data?", Stack Overflow, 4 October 2013. Retrieved on 13 May 2017. Шаблон:CC-notice

[3] Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 64. — ISBN 9789231003639.

[4] Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 66. — ISBN 9789231003639.

[1]

[2]

[3]

[4]