Маркированные данные
Маркированные данные (Labeled data) — это группа образцов, которые были обозначены одной или более маркировкой. В процессе маркировки обычно берется набор не маркированных данных и каждый образец в нем дополняется информативными тегами. Например, метка данных может обозначать находится ли на фотографии лошадь или корова, какие слова были произнесены в аудио записи, какой тип действия был произведен в видео, какая тема новостной статьи, какое общее настроение твита, является ли часть изображения на рентгеновском снимке опухолью.
Метки могут быть получены опрашиванием людей с просьбой их сделать умозаключение об образце немаркированных данных. Стоит отметить, что маркированные данные намного дороже получить, нежели сырые немаркированные данные.
Краудсорсинговые маркированные данныеПравить
В 2006 году Фей-Фей Ли, содиректор Стэнфордского института искусственного интеллекта, ориентированного на людей, намеревалась улучшить модели и алгоритмы искусственного интеллекта, предназначенные для распознавания изображений, существенно увеличив количество обучающих данных. Исследователи загрузили миллионы изображений из Всемирной паутины и команда бакалавров начала маркировать объекты на каждом изображении. В 2007 году Ли отдала на аутсорсинг компании работу связанную с маркировкой данных Amazon Mechanical Turk — электронной торговой площадке для цифровых сдельных работ. 3.2 миллиона изображений отмаркированные более чем 49,000 работниками, сформировали основу для ImageNet, одной из самых больших баз данных с ручной маркировкой для распознавания объектов.[1]
Автоматическая маркировка данныхПравить
После получения маркированного набора данных, модели машинного обучения могут быть применены к новым немаркированным данным, и метки могут быть предсказаны для этих немаркированных данных.[2]
Предвзятость основанная на данныхПравить
Алгоритмическое принятие решений является субъектом предвзятости программиста, а также предвзятости, основанной на данных. Обучающие данные, которые полагаются на предвзятые маркированные данные станут результатом предубеждений и упущений прогнозной модели[en], несмотря на то, что алгоритмы машинного обучения, в целом, являются законными. Маркированные данные использованные для обучения определенного алгоритма машинного обучения должны представлять статистическую репрезентативную выборку, для того чтобы избежать предвзятости в результате.[3] По причине того, что маркированные данные доступные для обучения систем распознавания лиц[en]* не являются порой репрезентативной выборкой генеральной совокупности, недопредставленные группы в маркированных данных позже часто неправильно классифицируются. В 2018 году исследование проведенное Джой Буоламвини[en] и Гебру Тимнит[en] показало, что два набора данных предназначенных для анализа лиц, использованные для обучения алгоритмов распознавания лиц: IJB-A и Adience, состояли на 79.6% и 86.2% из людей с более светлой кожей соответственно.[4]
ПримечанияПравить
- ↑ Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. — Houghton Mifflin Harcourt, 2019. — P. 7. — ISBN 9781328566287.
- ↑ Johnson, Leif. "What is the difference between labeled and unlabeled data?", Stack Overflow, 4 October 2013. Retrieved on 13 May 2017. Шаблон:CC-notice
- ↑ Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 64. — ISBN 9789231003639.
- ↑ Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. — UNESCO Publishing, 2019. — P. 66. — ISBN 9789231003639.
На эту статью не ссылаются другие статьи Википедии. |