Обсуждение:Анализ тональности текста
Проект «Информационные технологии» (уровень 1, важность средняя) Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении. Уровень статьи по шкале оценок проекта: полная
Важность статьи для проекта «Информационные технологии»: средняя |
Эта статья содержит текст, переведённый из статьи Sentiment analysis из раздела Википедии на английском языке. Список авторов находится на странице истории правок оригинальной статьи. Информация о включении текстов из других источников и их авторах может быть размещена на странице обсуждения оригинальной статьи. Переведено из английской Википедии по состоянию на 23 января 2013. |
СловосочетаниеПравить
В выражении "класс методов контент-анализа" словосочетание "класс методов" вызывает когнитивный диссонанс, ибо в ООП методы принадлежат классам, а не наоборот. Возможно стоит перефразировать.46.38.35.218 12:07, 5 апреля 2013 (UTC)Ответить[ответить]
- Не стоит перефразировать, так как эта статья — не про объектно-ориентированное программирование, «класс» здесь использован в смысле «категория, совокупность элементов, объединённых некоторым признаком», «метод» — «совокупность приёмов, алгоритмов, способов решения задач», совокупность методов контент-анализа, объединённых целеустановкой проанализировать эмоциональную окраску содержимого и образует «класс методов контент-анализа», составляющих предмет данной статьи. Так что правильнее избавиться от когнитивного диссонанса, чем перефразировать:) bezik 12:19, 5 апреля 2013 (UTC)Ответить[ответить]
Рецензирование статьи Анализ тональности текстаПравить
Друзья, товарищи и просто проходящие мимо,оставляйте свои замечания и комментарии к статье! — Эта реплика добавлена участником Belousov92 (о • в) 13 декабря 2013 (UTC)
Вместо твердой копииПравить
- Сделано Нет ударения в Анализ тональности текста.
- СделаноНе хватает перехода в преамбуле.
- Исправлено [15][16], [17] и [18] ссылки после точки, а должны быть до.
- Исправлено По всему тексту много лишних пробелов или наоборот пробел пропущен.
- Исправлено Проверь пунктуацию и наличие опечаток. Они есть.
- Исправлено Такие кавычки " " рекомендую заменить на « », также как - на —. Или просто нажать кнопку Викификатор.
- Сделано Статья практически невикифицирована. Многие понятия можно викифицировать.
- ИсправленоСуществуют 3 основные тональные оценки: позитив, негатив, нейтральная оценка. Мне кажется здесь несогласованность. Либо пишешь позитивная, негативная, нейтральная, либо позитив, негатив, нейтрал (странное слово). Исправил. Belousov
- ИсправленоФормулу T=P/N рекомендую оформить с помощью math. Например, так .
- ИсправленоФормула T=P/N не расшифрована. Что такое P и N?
- Сделано Шаблон {{дописать по источникам}} можно уже убрать.
- Сделано Раздел Применение пустой. Можно убрать.
- Сделано Задание Связывание с тематически близкими статьями не сделал.
- Сделано Выставление на рецензирование сделано неполностью. Нужно добавить строку сюда сделать так, чтобы данная страница дублировалась на странице обсуждения.
- Статья не отнесена ни к какому проекту. Смотри, как это сделано у меня.
petrinka 07:37, 14 декабря 2013 (UTC)Ответить[ответить]
Номера страницПравить
Александр, вы пишите, что взяли определение из источника номер 1 "Pang, Lee, 2008". Там 94 страницы. Укажите, пожалуйста, конкретный номер страницы. Хочется проверить эту работу за разумное время, не перечитывая тома, которые вы перечитали.
То же замечание и для других публикаций, на которые вы ссылаетесь, у которых есть нумерации (в основном это PDF-ки), проставьте, пожалуйста, номера страниц. -- Andrew Krizhanovsky 15:15, 14 декабря 2013 (UTC)Ответить[ответить]
Хорошо, только вопрос - если я ссылался на одну книгу или статью несколько раз, и каждый раз на разные страницы, то стоит указать все эти страницы? И куда вставить эти номера страниц? в раздел Примечания или в раздел Литература? Можно где-нибудь посмотреть образец оформления для этого случая(когда ссылаемся в одной статье на сразу несколько мест)
- Посмотреть как ссылаться на отдельные страницы (диапазоны страниц) статьи или книги можно в документации к шаблону {{sfn}}. В итоге будет несколько позиций в разделе "Примечания", но одна публикация в разделе "Литература". Обратите внимание (в описании этого шаблона), что номера страниц в публикации на русском или иностранном языке задаются разными параметрами.
- В итоге по "Pang, Lee, 2008" у вас будет пять строчек (вероятно, с разными номерами страниц) в разделе "Примечание". -- Andrew Krizhanovsky 19:30, 15 декабря 2013 (UTC)Ответить[ответить]
ПреамбулаПравить
- Возможно я ошибаюсь, но преамбула выглядит немного странно, мне кажется, что всё, что написано после "Эмоциональная оценка состоит из мнений." можно вынести в отдельную главу
- И тогда можно шаблон перехода поставить в конце "Эмоциональная оценка состоит из мнений."
Gudach 19:00, 14 декабря 2013 (UTC) Сделано Belousov92 20:13, 17 декабря 2013 (UTC)Ответить[ответить]
Раздел: Метод, основанный на графовых моделяхПравить
- В первом предложении не очень удачно используется "равнозначное значение". М.б. лучше "...что не все слова в текстовом корпусе документа равнозначны."Artyom Kalinin 08:51, 15 декабря 2013 (UTC) ИсправленоОтветить[ответить]
Раздел: Оценка качества анализа тональностиПравить
- Плохо сформулирован весь раздел. Не совсем понятно, что конкретно означают метрики точность и отзывчивость в данном случае. Лучше его переделать.Artyom Kalinin 08:51, 15 декабря 2013 (UTC) ИсправленоОтветить[ответить]
Замечания от Дмитрия УсталоваПравить
Я попросил Дмитрия, на работу которого есть ссылка в статье, высказаться по поводу вашей статьи, Александр.
Во-первых, термин "графовые модели" несколько некорректен. Было бы гораздо правильнее перевести термин "graph-based models" как "теоретико-графовые модели".
Во-вторых, действительно, теоретико-графовые модели применяются в задаче определения тональности текста. В статье не перечислены работы, использующие теоретико-графовые модели, примененяющие:
1) обучение с частичным привлечением учителя — http://www.cs.cornell.edu/courses/cs6780/2010fa/projects/yangbishan_cs6780.pdf http://pages.cs.wisc.edu/~jerryzhu/pub/sslsa.pdf
2) "межтемные" (cross-domain) методы: http://aclweb.org/anthology//D/D12/D12-1060.pdf
В-третьих, невероятно приятно видеть работы меня и моих студентов в списке литературы. Увы, я бы очень попросил убрать их из списка — это достаточно вторичные и неинтересные статьи в том плане, что подход к определению тональности не подвергался сколько-либо серьёзной оценке точности-полноты на внятной коллекции документов.
В-четвёртых, это уже моё скромное личное мнение. Википедия — место для научно-популярных и обзорных статей со ссылками на специализированные ресурсы. Если посмотреть там статьи по машинному обучению (aka распознавание образов), то заметная часть статей состоит из ссылок на MachineLearning.ru, где уже приводится описание деталей и нюансов моделей, методов, алгоритмов. Как правило, эти статьи пишут одни и те же люди. Вероятно, было бы правильнее воспользоваться их опытом. Редакция NLPub готова поддержать активность и посодействовать в работе над материалом. Само собой, не только на уровне советов и рекомендаций.
Также наблюдается лёгкая небрежность в оформлении статьи. В списках должны быть точки с запятой, строчные буквы, и так далее. Аналогично с формулами: зачем тег <pre>? Почему у некоторых авторов в библиографии указано полное имя (e.g., Benjamin Snyder), а у кого-то — нет (e.g., Yarowsky, D)?
Большое спасибо Дмитрию за замечания к статье. Уверен, их учёт позволит существенно улучшить статью. -- Andrew Krizhanovsky 23:18, 17 декабря 2013 (UTC) Сделано Добавил ссылки на работы в статью, а также привел список литературы к единому виду Belousov92 11:30, 25 декабря 2013 (UTC)Ответить[ответить]
СтильПравить
Употребление слов "нас" ("мы"), по-моему, не соответствует энциклопедическому стилю изложения. Предлагаю переформулировать текст в разделе "Задачи" -- Andrew Krizhanovsky 14:16, 19 декабря 2013 (UTC) Исправлено Belousov92 10:47, 25 декабря 2013 (UTC)Ответить[ответить]
ЗамечанияПравить
- "Формальное определение простого мнения выглядит так «простым мнением называется кортеж из пяти элементов..." / Нужно двоеточие после "так"
- "от наиболее отрицательного к самому положительному" / предлагаю просто "наименьшего к наибольшему". Наиболее отрицательное и самое положительное звучит как минимум странно
- "Каждому понятию даётся оценка на основе способа, которым слова относятся к понятию, а также их оценке." / Не понятен смысл предложения, лучше перефразировать. Оценка на основе оценки?
- "... сначала каждому слову в тексте присвоить его значением тональности из словаря..." / "значение"
- "Основной проблемой методов, основанных на словарях и правилах считается трудоемкость процесса составления словаря." / Нужна запятая после "правилах"
- "Чтобы ускорить процесс составления словарей и правил, данный метод использует с привязкой к конкретной предметной области..." / "используется"
- "В наше время наиболее часто используемыми в исследованиях методами являются методы на основе машинного обучения с учителем. Главной его сутью является то, что..." / Несогласованность. В первом предложении множественное число "являются методы", во втором единственное "Главной его сутью"
- "вначале собирается коллекция документов на основе которых мы будем обучать наш машинный классификатор" / Нужна запятая после "которых"
- "раскладываем каждый документ в виде вектора признаков(аспектов) по которым мы будем его исследовать" / Нужна запятая после "признаков(аспектов)"
- "Для классификации слов используется тональный словарь в котором каждому слову присваивается класс " / Нужна запятая после "словарь"
- ",где T — итоговая оценка тональности, P - оценка положительной составляющей текста и N - негативная составляющая текста." / нужно убрать запятую + дефис заменить на тире
- "По статье[17], текст в котором значение T близко к единицу будет считаться нейтральным," / Заменить "единицу" на "единице" + нужны запятые после "текст" и "единице"
- "Точность и качество системы анализа тональности текста оценивается в том, насколько хорошо..." / Должно быть "оценивается тем, насколько хорошо"
- "Точность - это метрика, которая выражает количество исследуемых текстов..." / Дефис заменить на тире: "Точность — это метрика, которая выражает количество исследуемых текстов..."
- "... в оценке которых мнение системы анализа тональности совпало с мнением человека - эксперта." / Дефис заменить на тире: "... в оценке которых мнение системы анализа тональности совпало с мнением человека — эксперта"
- "... корреляция будет являться лучшей мерой чем точность, потому что он принимает во внимание..." / Корреляция — она
Tema Timonin 23:45, 22 декабря 2013 (UTC)Ответить[ответить]
Артем, благодарю за замечания! Исправлено Belousov92 10:48, 25 декабря 2013 (UTC)Ответить[ответить]
Ещё замечанияПравить
- "Каждому понятию даётся оценка на основе способа, которым слова относятся к понятию, а также их оценке." Мне кажется "которым" не уместно соединить части этого предложения, хотя бы "за счет которого" или "с помощью которого".
- "слова относятся к понятию". Мне, кажется, правильнее употребить не "относятся" а "соотносятся"
- "Основными метрикой качества анализа тональности текста является точность." Замени на "Основной" Gudach 09:08, 21 декабря 2013 (UTC)Ответить[ответить]
Спасибо за замечания, Илья! Исправлено Belousov92 10:48, 25 декабря 2013 (UTC)Ответить[ответить]
Номера страниц сноваПравить
Замечание по номерам страниц (выше) осталось безответным. -- Andrew Krizhanovsky 13:45, 25 декабря 2013 (UTC)Ответить[ответить]
Сегодня, когда я уже добавил большую часть ссылок на страницы(и продолжал вносить), внезапно отключился интернет и в итоге отправка формы не прошла, а википедия к сожалению не сохраняет промежуточные данные. Таким образом это часть работы была безвозвратно утеряна :( Сейчас буду делать все заново. Спасибо за оперативную проверку. Belousov92 18:03, 25 декабря 2013 (UTC)Ответить[ответить]
Сделано Belousov92 20:51, 25 декабря 2013 (UTC)Ответить[ответить]
- Саша, у меня есть желание - проверять вашу работу последовательно, с самого начала. Но в самом начале получается облом. Я смотрю - откуда вы взяли первое и главное определение в преамбуле, а вы ставите ссылку на "Pang, Lee, 2008" - а это 135 страниц. Вы подождёте, пока я прочитаю все 135 страниц или укажите конкретную? -- Andrew Krizhanovsky 21:04, 25 декабря 2013 (UTC)Ответить[ответить]
Добавил Belousov92 21:23, 25 декабря 2013 (UTC)Ответить[ответить]
- Саша, вы указали страницы 5-7. На седьмой - точно нет определения. Скопируйте сюда, пожалуйста, текст на английском, который вы переводили как определение. -- Andrew Krizhanovsky 10:51, 26 декабря 2013 (UTC)Ответить[ответить]
- Это определение было в статье еще до того как я за нее взялся. В самой ранней ее части. Я попытался найти для него АИ источник, которое являлось бы подтверждением. После прочтения статьи Панга, мне показалось что на основе нее вполне можно вывести данные определение. На странице 5-7 дается объяснение этому термину, например вот эта фраза на странице 6 The history of the phrase sentiment analysis parallels that of “opinion mining” in certain respects. The term “sentiment” used in reference to the automatic analysis of evaluative text and tracking of the predictivejudgments therein appears in 2001 papers by Das and Chen [66] and Tong [297]..
Хотя скорее всего нужно оставить ссылки на АИ для каждой части этого определения, так было бы вернее. Belousov92 11:10, 26 декабря 2013 (UTC)Ответить[ответить]
- 0) Да, нужно указывать ссылки, подтверждающие части определения, либо ещё искать. Иначе задание пока не выполнено - нет определения, подтверждённого АИ. -- Andrew Krizhanovsky 11:13, 26 декабря 2013 (UTC)Ответить[ответить]
- 1) "Мнения делятся на два типа{{sfn|Bing Liu|2010|p=2}}: Простое мнение, Сравнение." Приведите фрагмент на английском, где есть этот текст на второй странице.
- Sentiment analysis of comparative sentences: Evaluation of an object can be done in two main ways, direct appraisal and comparison. Direct appraisal, called direct opinion, gives positive or negative opinion about the object without mentioning any other similar objects. Belousov92 13:05, 26 декабря 2013 (UTC)Ответить[ответить]
- Совсем далеко перевели. Написано:
- Sentiment analysis of comparative sentences: Evaluation of an object can be done in two main ways, direct appraisal and comparison. Direct appraisal, called direct opinion, gives positive or negative opinion about the object without mentioning any other similar objects. Belousov92 13:05, 26 декабря 2013 (UTC)Ответить[ответить]
"Анализ тональности сравнительных предложений: Оценка объекта может выполняться двумя главными способами, а именно: непосредственная оценка и сравнение. Непосредственная оценка, называемая "непосредственное мнение", содержит положительное или отрицательное мнение об объекте, не упоминая какие-либо другие схожие объекты.
- Это надо было умудриться перевести "direct" как "простое". -- Andrew Krizhanovsky 20:45, 26 декабря 2013 (UTC)Ответить[ответить]
- Мне показалось что так звучит лучше чем прямое мнение. Непосредственное вполне подходит, очень хорошее слово подобрали. Исправлено Belousov92 21:00, 26 декабря 2013 (UTC)Ответить[ответить]
- Это надо было умудриться перевести "direct" как "простое". -- Andrew Krizhanovsky 20:45, 26 декабря 2013 (UTC)Ответить[ответить]
- 2) "простым мнением называется кортеж из пяти элементов (entity, feature, sentiment value, holder, time), где entity — объект, об аспекте или свойствах (feature) которого автор (holder) высказал свое эмоциональную оценку(sentiment value) в момент времени (time)»{{sfn|Bing Liu|2010|p=3-5}}. В этом документе вовсе отсутствует фраза "sentiment value". Что это значит?
- В каком-то источнике вместо ooijkl is the orientation or polarity использовалось sentiment value и я решил заменить. Сейчас я уже не помню, поэтому исправлю Sentiment value на ooijkl is the orientation or polarity. Определение звучит так, цитирую: "Direct opinion: A direct opinion is a quintuple (oj, fjk, ooijkl, hi, tl), where oj is an object, fjk is a feature of the object oj, ooijkl is the orientation or polarity of the opinion on feature fjk of object oj, hi is the opinion holder and tl is the time when the opinion is expressed by hi" Исправлено Belousov92 13:21, 26 декабря 2013 (UTC)Ответить[ответить]
Итого, я проверил ссылки по преамбуле и первому разделу. Прошу ответить на замечания. Когда выполните, сообщите, пожалуйста. Перечитаю эти же разделы и двинемся дальше. -- Andrew Krizhanovsky 11:13, 26 декабря 2013 (UTC) Сделано Belousov92 14:54, 26 декабря 2013 (UTC)Ответить[ответить]
Оценка качества анализа тональности и проч.Править
1) Саша, вы пишите:
Точность — это метрика, которая выражает количество исследуемых текстов, предложений или документов, в оценке которых мнение системы анализа тональности совпало с мнением человека — эксперта.
Это сильное, но неточное определение. Напишите формулу или приведите АИ для подтверждения ваших слов.
- А в чем выражается неточность? Само определение я взял из английской версии статьи и немного упростил для понимания на русском языке. В принципе под понятием точность имеется ввиду стандартные метрики из теории информационного поиска - precision и recall. Отдельных статей на русском языке про них нет в русской вики, чтобы сослаться. И вы считаете, что стоит каждую из них подробно описать в этом разделе. Насчет АИ, хорошо, поищу. Belousov92 13:45, 29 декабря 2013 (UTC)Ответить[ответить]
- "В принципе под понятием точность имеется ввиду стандартные метрики из теории информационного поиска - precision и recall." Да, для "точности из теории информационного поиска" в формуле есть числитель и знаменатель, а то, что вы сейчас пишите - это, скорее всего, числитель. Т.е. это обрывок формулы. Поэтому я и прошу написать формулу, чтобы вы сами поняли, что чего-то не хватает и дописали определение "точности" применительно к SA. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)Ответить[ответить]
- А в чем выражается неточность? Само определение я взял из английской версии статьи и немного упростил для понимания на русском языке. В принципе под понятием точность имеется ввиду стандартные метрики из теории информационного поиска - precision и recall. Отдельных статей на русском языке про них нет в русской вики, чтобы сослаться. И вы считаете, что стоит каждую из них подробно описать в этом разделе. Насчет АИ, хорошо, поищу. Belousov92 13:45, 29 декабря 2013 (UTC)Ответить[ответить]
2) Хотелось бы хотя бы коротенько о базах данных, словарях и тезаурусах для работы с SA, а именно: WordNet-Affect, SentiWordNet и SenticNet, которые вы называете. В особенности, это важно, если про них нет статей в ВП. В итоге это будет отдельный раздел (или подраздел), подумайте, как его назвать.
- Про wordnet-Affect есть статья на русской вики , на которую я ссылаюсь в тексте, не вижу смысла здесь о ней подробно писать. Теперь про SentiWordNet и SenticNet. Давайте просто я оставлю ссылки на их сайты и научные работы, описывающие их структуру и применение. Кому будет нужно, то сам пройдет и разберется. Все таки это очень специализированные инструменты для исследователей и разработчиков, серьезно изучающих анализ тональности текста. Ведь как говорилось выше Википедия — место для научно-популярных и обзорных статей со ссылками на специализированные ресурсы :) Belousov92 14:05, 29 декабря 2013 (UTC)Ответить[ответить]
14:05, 29 декабря 2013 (UTC)
- "Про wordnet-Affect есть статья на русской вики..." - это совершенно неверно, про wordnet-Affect нет статьи в рувики. Есть обрубок статьи про WordNet, которую и статьёй назвать нельзя.
- wordnet-Affect, SentiWordNet и SenticNet - поставьте ссылки на АИ и коротенько по абзацу дайте описание трёх систем. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)Ответить[ответить]
Если вы пишите, что это "общедоступные ресурсы", то предоставьте ссылки на их сайты с помощью <ref>.
- Сделано 14:44, 29 декабря 2013 (UTC)
3) Остаётся открытым вопрос - есть ли специальные тестовые наборы (предложения + оценки), чтобы автоматически оценить качество работы системы SA?
Пазельская, Соловьёв на стр. 518 пишут, что для русского таких вещей нет, поэтому они оценивали с помощью экспертов на "небольших текстовых подборках. Русский ладно... но для английского то, что-то, наверняка, разработано! Хотелось бы это увидеть в разделе "Оценка качества анализа тональности". -- Andrew Krizhanovsky 09:13, 29 декабря 2013 (UTC)Ответить[ответить]
- Не могу сказать, что такие есть и для английского языка. Во многих статьях, на которые я ссылаюсь, в качестве источников отзывов используются ресурсы вроде http://www.epinions.com/?sb=1 или сайты, где можно оставлять рецензии на фильмы. Также в более новых статьях в качестве источника отзывов исследуется Twitter или другие социальные сети. Могли бы вы написать английский термин, означающий "тестовые подборки отзывов для изучения тональности", для упрощения поиска. Я смог найти вот такой проект [CyberEmotions], в качестве одной из задач они ставят сбор тестовых данных "Additionally, data gathered from online communities–such as BBC message boards–have been made available to any interested researcher". Подходит ли он? Из текста на сайте я так и не смог выяснить является ли эти данные просто массивом, или это массив уже оцененных данных. Вообще предлагаю оставить этот вопрос следующему редактору, на будущее. Да и судя по информации на сайтах SentiWordNet и SenticNet при скачивании ПО к нему прилагается массив данных, но при этом не написано является ли он оцененным или нет.
Belousov92 13:45, 29 декабря 2013 (UTC)Ответить[ответить]
- ОК, вопрос остаётся открытым. Если в ходе вашей работы над статьёй я или другой редактор найдёт и укажет вам статью или ресурс с такой информацией, то вы включите их в статью. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)Ответить[ответить]
Классификация оценокПравить
Вы пишите: "Существуют 3 основные тональные оценки{{sfn|Pang, Lee|2008|p=16-17}}: Позитивная, Негативная, Нейтральная". А на 17 стр. написано "For instance, if we are classifying an author’s evaluation into one of the positive, neutral, and negative classes..." Вы чувствуете разницу между "существует" и "например" (или "предположим")?
- Понял свою неточность, исправил на Тональные оценки могут быть: Исправлено Belousov92 13:09, 26 декабря 2013 (UTC)Ответить[ответить]
- На стр. 16 в той же публикации в разделе "4.1.1 Sentiment polarity and degrees of positivity" приводится обзор существующих подходов к классификации оценок:
- и про континуум между двумя крайними оценками,
- и бинарная классификация, которой дали названия "sentiment polarity classification" и "polarity classification".
- Эта информация будет хорошим дополнением к той информации, что уже есть сейчас у вас: "Примеры тональных оценок...". -- Andrew Krizhanovsky 09:52, 7 января 2014 (UTC)Ответить[ответить]
- Хорошо, я внимательно изучу этот раздел и добавлю его краткое описание в свою статью Belousov92 15:34, 7 января 2014 (UTC)Ответить[ответить]
- На стр. 16 в той же публикации в разделе "4.1.1 Sentiment polarity and degrees of positivity" приводится обзор существующих подходов к классификации оценок:
Субъективность/объективностьПравить
Цитирую: "Как бы то ни было, Панг (Pang, Lee, 2004, стр. 7) показал, что удаление объективных предложений из документа перед классификацией полярности помогло повысить точность результатов."
1) Что такое "объективные предложения"?
- Описание субъективности/объективности приводится в разделе субъективность/объективность. Объективные предложения - лишённые предвзятости и субъективного отношения, то есть они выражают какой-то факт.Belousov92 19:27, 18 января 2014 (UTC)Ответить[ответить]
2) Не нашёл на седьмой странице в PDF такого утверждения. Приведите текст на английском из этой публикации, который вы так перевели, пожалуйста. -- Andrew Krizhanovsky 17:37, 18 января 2014 (UTC)Ответить[ответить]
- Это предложение я перевел из английской версии этой статьи и в качестве подтверждения была ссылка на этот источник. Именно такого предложения в оригинальной статье по ссылке нет. Как я понял, этот вывод редактор английской версии делает исходя из всей статьи. Вот предложение, которое почти передает смысл. Utilizing contextual information via this framework can lead to statistically significant improvement in polarity-classification in polarity-classification accuracy. Ранее (на странице 4 встречается вот такое предложение As we will see, the use of subjectivity extracts can in the best case provide satisfying improvement in polarity classication, and otherwise can at least yield polarity-classication accuracies indistinguishable from employing the full review Belousov92 19:27, 18 января 2014 (UTC)Ответить[ответить]
Оценка качества анализа тональностиПравить
В статье японских учёных Kobayashi и др. используются понятия Aspect-Evaluation, поэтому A-E у них - это обоснованные сокращения. У вас буква "А" в формулах ни к чему не привязна... очевидно, она лишняя.
У вас из описания этого раздела не ясно - откуда берётся знаменатель в формуле точности: "total number of opinions"? Как он вычисляется для корпуса в 230 тысяч текстов про автомобили?
Что это за "класс А"? Какие ещё есть классы? -- Andrew Krizhanovsky 17:59, 18 января 2014 (UTC)Ответить[ответить]
- Сейчас внимательно прочитал и понял, что в процессе внесения вообще все понятия перепутал и его нужно переделать. Сделаю завтра с утра. Belousov92 19:40, 18 января 2014 (UTC)Ответить[ответить]
Исправил последние замечанияПравить
- Добавил описание WordNwt-affective, SentiNet и т.д
- Дополнил раздел оценка качества анализа тональности
- добавил описание бинарной шкалы. Belousov92 16:39, 18 января 2014 (UTC)Ответить[ответить]
Почему вы убрали ссылки на два источника: diff? "Окрас" звучит юмористически. -- Andrew Krizhanovsky 16:46, 20 января 2014 (UTC)Ответить[ответить]
Какой-то общий раздел (подзаголовок) для этих WordNet'ов необходим. А то сейчас они у вас случайно оказались в разделе "Подходы...". А это же не подходы. -- Andrew Krizhanovsky 09:42, 23 января 2014 (UTC)Ответить[ответить]
SenticNetПравить
Благодаря своему открытому формату, SenticNet очень легко встраивается в любое реальное приложение для извлечения семантики и sentics из текстов на естественном языке
- Что здесь подразумевается под "открытым форматом"?
- Выделенные "жирным" слова выдают рекламный стиль, что простительно авторам системы о своём детище, но излишне в энциклопедии.
- Согласен, удалил рекламное предложение. Belousov92 12:56, 27 января 2014 (UTC) СделаноОтветить[ответить]
...(стр 3)
Разве так страницы указывают?
- Упс, исправил. :) Belousov92 12:56, 27 января 2014 (UTC) СделаноОтветить[ответить]
... на перекрестке между «affect computing» и «common sense computing», который использует ...
- слово "который" относится к "перекрёстку"? Как "перекрёсток" может что-то "использовать"?
- слово "который" относится к словосочетанию "междисциплинарный подход". Для улучшения читабельности разбил предложение на 2 Belousov92 12:56, 27 января 2014 (UTC) ИсправленоОтветить[ответить]
- хорошо бы в скобках дать пояснения к этим двум английским словосочетаниям (пояснение - после каждого из них).
- привел ссылку на англовики для affect computing и нашел документ, описывающий common sense computing. СделаноBelousov92 12:56, 27 января 2014 (UTC)Ответить[ответить]
обрабатывать мнения и настроения через Интернет
Получается "обрабатывать ... настроения через Интернет". Что значит "настроение через Интернет"? Что ещё бывает "через Интернет"?
- Так было написано в научной работе на которую я ссылаюсь, возможно я где-то неправильно перевел. Предложение звучит так: "... better recognize, interpret, and process opinions and sentiments over the Web". я перевел over the Web - через интернет. Скорей всего здесь подразумевается, что обрабатываются текстовые документы из интернета. На всякий случай вообще убрал слово интернет из предложения. Belousov92 12:56, 27 января 2014 (UTC)Ответить[ответить]
Исправлено
...математику — для решения таких задач как обработка графов и сокращения многомерности;
Поставьте вики-ссылку, мне интересно, что это за задача такая "сокращения многомерности"? Да ещё множественное число?
- я перевел словосочетание multi-dimensionality reduction из оригинала статьи как снижение размерности. На этот раз воспользовался другим словарем. Поставил ссылку на англовики, так как аналога в русской вики не существует. 12:56, 27 января 2014 (UTC) Исправлено
...и наконец этику — за понимание природы ума...
Это предлог "за" выдаёт одессита, или уже пошёл тост? :)
- Улучшил перевод и немного изменил формулировку Belousov92 12:56, 27 января 2014 (UTC) ИсправленоОтветить[ответить]
...данные кодируются в RDF-триплеты с использованием синтаксиса XML. Данные представляются в виде concept — has Plesantness — pleasantnessValue, concept — hasPolarity — polarityValue, concept — hasDomain — DomainName, concept — isSemanticallyRelated — concept and concept — hasPrimaryMood -PrimaryMoodName
Без пояснений не ясно, что это за вид такой? Да, ясно - это тройки. Нет, это не XML. Что идёт на втором и третьем месте в тройках? Первым идёт всегда слово "concept"?
- Если честно, я сам не понял, из работы автора это непонятно. Сами концепты представляются вот в таком виде: http://sentic.net/api/en/concept/birthday/ . Может просто удалить это предложение и оставить вместо него вот эту ссылку http://sentic.net/api/en/concept/birthday/ ?? То есть будет "...данные кодируются в RDF-триплеты с использованием синтаксиса XML. Пример такой структуры вы можете посмотреть по ссылке[41]" и там уже будет ссылка http://sentic.net/api/en/concept/birthday/
- Исправлено Удалил перечисление concept — hasPolarity — polarityValue, concept — hasDomain — DomainName, concept — isSemanticallyRelated — concept and concept — hasPrimaryMood -PrimaryMoodName. Вместо этого привел пример структуры в xml. Теперь на мой взгляд стало понятнее. Belousov92 09:11, 28 января 2014 (UTC)Ответить[ответить]
...полезно для таких задач как авто-категоризация текстов
Поставьте вики-ссылку на задачу, пожалуйста. В англовики такая статья точно есть.
- Поставил Сделано Belousov92 12:56, 27 января 2014 (UTC)Ответить[ответить]
Начиная со слова "Pleasantness" число открывающих скобок не равно числу закрывающих. -- Andrew Krizhanovsky 10:21, 27 января 2014 (UTC)Ответить[ответить]
- Исправлено Belousov92 12:56, 27 января 2014 (UTC)Ответить[ответить]
Ещё актуальноПравить
1) В описании публикации Пазельской не указаны: название конференции, место проведения, номера страниц публикации в сборнике.
2) Вторая публикация (Bing Liu) - не указано название книги, не указаны редакторы.
3) Статья Goldberg - вовсе не ясен статус публикации! -- Andrew Krizhanovsky 09:49, 23 января 2014 (UTC)Ответить[ответить]
Из формулы вы букву "А" убрали, а текст не поправили в разделе "Оценка качества...". -- Andrew Krizhanovsky 10:05, 23 января 2014 (UTC)Ответить[ответить]
Все исправил. Исправлено. Кроме публикации Bing Liu. вы упорядочили по список литерату по алфавиту, так что теперь не понятно какая именно публикация Bing Liu требует редактирования 13:30, 27 января 2014 (UTC)
- 1) Это не сложно, достаточно посмотреть историю правок и взять версию до сортировки: версия от 25 января 2014, а именно: "Bing Liu Sentiment Analysis and Subjectivity".
- Не знаю куда писать редакторов, не нашел место в sfn шаблоне для упоминания редакторов. Можете добавить сами, если знаете куда. Редакторы: N. Indurkhya and F. J. Damerau Исправлено Belousov92 08:59, 28 января 2014 (UTC)Ответить[ответить]
- А для кого написана документация: {{книга}}? Там всё есть. Не нужно место работы автора статьи писать в параметр "место публикации", а отдел, где работает учёный - указывать как издательство.
- Не знаю куда писать редакторов, не нашел место в sfn шаблоне для упоминания редакторов. Можете добавить сами, если знаете куда. Редакторы: N. Indurkhya and F. J. Damerau Исправлено Belousov92 08:59, 28 января 2014 (UTC)Ответить[ответить]
- 2) А где информация по разделу "5.3 Машинное обучение без учителя". Сейчас там пусто. -- Andrew Krizhanovsky 19:14, 27 января 2014 (UTC)Ответить[ответить]
- Вернул на место ИсправленоBelousov92 08:58, 28 января 2014 (UTC)Ответить[ответить]
...более высокой областью уместности «События»...
Что значит "область уместности"? Приведите, пожалуйста, отрывок на английском, который вы так перевели? -- Andrew Krizhanovsky 09:23, 28 января 2014 (UTC)Ответить[ответить]
- high-level domain of pertinence - перевел как "высокой(high-level) областью(domain) уместности(pertinence)" Belousov92 09:56, 28 января 2014 (UTC)Ответить[ответить]
- ОК. Поправил. -- Andrew Krizhanovsky 10:22, 28 января 2014 (UTC)Ответить[ответить]
- high-level domain of pertinence - перевел как "высокой(high-level) областью(domain) уместности(pertinence)" Belousov92 09:56, 28 января 2014 (UTC)Ответить[ответить]
Машинное обучение без учителяПравить
Александр, вы пишите в статье:
В основе этого подхода лежит идея, что термины, которые чаще встречаются в этом тексте и в то же время присутствуют в небольшом количестве текстов во всей коллекции имеют наибольший вес в тексте. Выделив данные термины, а затем определив их тональность, можно сделать вывод о тональности всего текста{{sfn|Klecovina, Kotelnikov|2012|c=81}}.
Теперь смотрим, что было написано у Клековкиной (кстати, переврали фамилию, не "Klecovina"):
машинное обучение без учителя (unsupervised learning) [16]. Данный подход основан на идее, что наибольший вес в тексте имеют термины, которые чаще встречаются в этом тексте и в то же время присутствуют в небольшом количестве текстов всей коллекции.
Два серьёзных замечания:
1) Откуда брать информацию - конечно, из публикации [16], на которую ссылается Клековкина, а не из Клековкиной, где есть только пара строк об идее (маловато). Кстати, публикация [16] (Turney P. Thumbs up or thumbs down?) - уже есть в вашей статье.
2) Есть такая статья "Обучение без учителя". А есть ваша идея (курсив - выше), которую вы взяли у Клековкиной. Объясните, раскройте, пожалуйста, как эта идея связана с подходом "обучение без учителя" (в рамках анализа тональности текстов). Мне это не ясно. По-моему, Клековкина ошиблась и описала идею TF-IDF, а не "unsupervised learning". -- Andrew Krizhanovsky 09:38, 28 января 2014 (UTC)Ответить[ответить]
Мелочи: пунктуация, грамматика, логика повествованияПравить
1) предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки мнений авторов по отношению к объектам, речь о которых идёт в тексте
Предлагаю удалить "эмоциональной оценки", оставить просто "мнений авторов по отношению к объектам".
2) Эмоциональная оценка состоит из мнений.
Предлагаю удалить, выглядит нелогично в своем абзаце.
3) Какие именно свойства будут исследоваться, зависит уже от поставленной задачи.
Добавляю запятую.
4) где entity — объект, об аспекте или свойствах (feature) которого автор (holder) высказал свое эмоциональную оценку(orientation or polarity) в момент времени (time)
Предлагаю заменить "высказал свое эмоциональную оценку" на "высказал свое мнение" - в соответствии с правилами грамматики и стиля ("высказать оценку" - звучит не очень). Не хватает пробела перед скобкой.
Что можно добавить в статьюПравить
Использование нейронных сетей для определения тональности текста. http://habrahabr.ru/post/197890/ Belousov92 12:55, 1 февраля 2014 (UTC)Ответить[ответить]
Добавить подробное описание методов машинного обучения без учителя, которые можно применять для определения тональности текста. Belousov92 12:55, 1 февраля 2014 (UTC)Ответить[ответить]
Методы и средства оценкиПравить
Ещё (к указанному выше Белоусовым) не хватает раздела с описанием доступных дорожек и систем для проверки точности и полноты работы алгоритмов АТТ для текстов на русском и английском языках. Для примера можно посмотреть раздел Evaluation в задаче "Разрешение лексической многозначности".
При этом хотелось бы более детального описания дорожек с формулировкой постановки задачи.
+ Результаты дорожек на сегодня, т.е. какие алгоритмы показали себя лучше других на каких дорожках, в процентах. -- Andrew Krizhanovsky 04:31, 29 мая 2014 (UTC)Ответить[ответить]
Publicly Available Russian Sentiment Lexicons, 2018Править
Обзор доступных русских словарей с разметкой тональности в статье:
Kotelnikov, E., Peskisheva, T., Kotelnikova, A., & Razova, E. (2018, October). A Comparative Study of Publicly Available Russian Sentiment Lexicons. In Conference on Artificial Intelligence and Natural Language (pp. 139-151). Springer, Cham. --Andrew Krizhanovsky (обс.) 11:23, 18 декабря 2018 (UTC)Ответить[ответить]