Обсуждение:Поисковый индекс

Проект «Информационные технологии» (уровень 1, важность для проекта средняя)

Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями.

I

Уровень статьи по шкале оценок проекта: полная

Средняя

Важность статьи для проекта «Информационные технологии»: средняя

Эта статья содержит текст, переведённый из статьи Search engine indexing из раздела Википедии на английском языке.
Список авторов находится на странице истории правок оригинальной статьи. Информация о включении текстов из других источников и их авторах может быть размещена на странице обсуждения оригинальной статьи. Переведено из английской Википедии по состоянию на 10 ноября 2013.

Лексический анализ и токенизация Править

Последнее сообщение: 9 лет назад3 сообщения2 человека в обсуждении

Я перевожу статью с английского, и у меня возник вопрос. Как в русском употребить слово tokenization?

У меня есть вариант 'разбор на лексемы' или 'разбор текста на лексемы'. Возможно, tokenization синоним лексического анализа? petrinka 12:07, 4 ноября 2013 (UTC)Ответить[ответить]

В соответствии со статьёй w:Tokenization токенизация (т.е. разбиение на токены) является частью лексического анализа. Я согласен с этой точкой зрения. Когда будете упоминать в тексте токенизацию, можете поставить ссылку на статью в англовики, у нас такой статьи пока нет.

В Google Scholar 32 публикации с этим словом. -- Andrew Krizhanovsky 12:41, 4 ноября 2013 (UTC)Ответить[ответить]

Спасибо. Тогда так и буду писать токенизация. petrinka 13:11, 4 ноября 2013 (UTC)Ответить[ответить]

Недостаточно ссылок на АИ Править

Последнее сообщение: 9 лет назад3 сообщения2 человека в обсуждении

"Большие куски текста без викификации и ссылок на литературу вызывают подозрение..."

Переводя статью из англовики, я заметила, что большая часть второго раздела не содержит ссылок на литературу. Поскольку перевод дается мне нелегко, я хочу спросить, стоит ли переводить этот текст, или есть альтернативные варианты? petrinka 09:01, 7 ноября 2013 (UTC)Ответить[ответить]

Оксана, переводите.

Там есть хоть какая-то викификация. А главное, там есть сколько-то продуманная структура. Сомневаюсь, что мы с вами так с ходу изобретём что-то сильно лучше.

P.S. Спасибо, что обращаете внимание на мои комментарии :) -- Andrew Krizhanovsky 13:18, 7 ноября 2013 (UTC)Ответить[ответить]

Погуглила оригинальный текст, нашла некоторые АИ:) petrinka 13:41, 7 ноября 2013 (UTC)Ответить[ответить]

Приближаюсь к рецензированию Править

Последнее сообщение: 9 лет назад3 сообщения2 человека в обсуждении

Никак не получается перевести одно предложение, чтобы по-русски складно звучало:

Indexing low priority to high margin to labels like strong and link to optimize the order of priority if those labels are at the beginning of the text could not prove to be relevant.

Статью из англовики перевела целиком, остались некоторые стилевые правки. Нужно что-нибудь еще? petrinka 13:48, 10 ноября 2013 (UTC)Ответить[ответить]

В разделе "HTML Priority System" какой-то непонятный бред написан. Не переводите этот раздел. Статей в инете с таким заголовком почти ноль. Кто-то пошутил. Поставил в англовики шаблон на раздел, что в нём фуфло написано.

Отлично. Доделывайте стиль. Сообщите, когда статья будет готова. Я распечатаю и передам вашему рецензенту. -- Andrew Krizhanovsky 16:29, 10 ноября 2013 (UTC)Ответить[ответить]

Статья готова. petrinka 06:45, 11 ноября 2013 (UTC)Ответить[ответить]

Рецензирование статьи Поисковый индекс Править

Последнее сообщение: 9 лет назад15 сообщений4 человека в обсуждении

Хочу улучшить статью до статуса хорошей. Рассмотрю любые пожелания и замечания. petrinka 08:32, 15 ноября 2013 (UTC)Ответить[ответить]

Не совсем понятно определение 1.1. Скорость поиска: "Как быстро можно найти слово в инвертированном индексе. Скорость нахождения записи в структуре данных по сравнению с тем, как быстро можно обновить или удалить индекс, является центром информатики". Смущает второе предложение, возможно, его следует перефразировать. Bokanko 19:29, 17 ноября 2013 (UTC)Ответить[ответить]

Как тебе такая формулировка? Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса. petrinka 08:16, 18 ноября 2013 (UTC)Ответить[ответить]

Так гораздо читабельнее, мне нравится. Bokanko 08:46, 18 ноября 2013 (UTC)Ответить[ответить]

Исправлено petrinka 09:33, 18 ноября 2013 (UTC)Ответить[ответить]

Оксана, так как это перевод, то хорошо было бы, чтобы сохранялась викификация, например: в разделе Распознавание языка в скобках не хватает внутренней ссылки на части речи. Возможно ещё недостаёт ссылок, всю статью не читал!!! Gudach 14:28, 20 ноября 2013 (UTC)Ответить[ответить]

Илья, внутренняя ссылка на части речи есть в разделе Проблемы при обработке естественного языка. petrinka 15:04, 20 ноября 2013 (UTC)Ответить[ответить]

Добрый день! Заметил следующее:

Исправлено «информации время компенсирует дополнительную память» — может, наоборот, дополнительная память и время компенсируются уменьшением времени на обработку запроса?
Исправлено «Типы индексов бывают» — индексы бывают следующих типов?
Исправлено «Существует много удобных ситуаций для создания состояния гонки и когерентных отказов» — как-то криво. Как будто только и ждем ситуаций.
Исправлено архитектура поисковой системы может включать распределенные вычисления — поисковая система может основываться на архитектуре распределенных вычислений? Про унисон как-то коробит слух. Скоординированно?
частично Исправлено несколько опечаток и несогласований окончаний, стиль хромает в отдельных предложениях
Исправлено используют форму сжатия — ту или иную форму сжатия
раздел про сжатие неубедителен. «Сжатие является мерой стоимости»?

Исправлено АИ подтверждающих это не нашла.

частично Исправлено почему именно с 2006 года? В разделе Синтаксический анализ документа много слов «обычно», «многие», а источников нет (по всей статье слишком много таких слов)
Сделано каким образом yacc и lex помогают обработке естественного языка? Это кажется странным. Нужен источник
Сделано списки в разделе Анализ формата документов требует источников. Если убрать слово «многие», то, наверное, этот список почти тривиален (все видят, что гугл, например, индексирует все эти форматы)

Общие замечания: текст несколько более популярно изложен чем обычно в Википедии. У меня это создало впечатление поверхностности. К концу статья несколько потеряла фокус (часть информации относится к поисковой системе вообще, а не к индексу). Также есть ощущение, что тема раскрыта не полностью. Например, для геоинформации, поиска по изображениям, видео, аудио есть свои технологии поиска, свои подходы к индексированию. Перспективы индексирования тоже остались неясны. Едет ли оно в сторону все более точного принятия во внимание семантики текста, например? Какие для этого решения созданы? Голосовой поиск (Siri) — какие особенности индекса у поиска «с подсказками», и т. п. Поисковый индекс — это не только для поиска в Интернете (жтот момент слегка упущен). Стиль текста еще шероховат. Некоторые предложения выглядят то ли неудачным переводом, то ли результатом правок нескольких человек. Полагаю, что в статье могли бы быть схемы, скажем, некой архитектуры системы индексирования, схема с краулерами, узлами обработки и хранения индексов, и т. п. Стиль и оформление можно подправить в самый последний момент — могу в этом помочь когда основное содержимое устоится.

Надеюсь, критика поможет улучшить статью. В целом работа проделана большая и положительная! Желаю успехов. РоманСузи 17:58, 20 ноября 2013 (UTC)Ответить[ответить]

Спасибо, очень ценные замечания. Статья является переводом английской версии, в которой второй раздел, к сожалению, почти не содержит ссылок на литературу. Над стилем буду работать. petrinka 14:42, 24 ноября 2013 (UTC)Ответить[ответить]

Привет, Оксана! Спасибо за то, что помогаешь делать мир лучше и несешь знания в массы! С интересом прочитал статью, буду рекомендовать ее своим студентам для прочтения. Однако при прочтении у меня возникло несколько замечаний, поэтому внесу немного критики.(внимание, включаю зануда_режим)

1) В этом разделе Поисковый_индекс#.D0.A2.D0.BE.D0.BA.D0.B5.D0.BD.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F у тебя есть строчка "В отличие от грамотных людей, компьютеры не понимают структуру документа ". Здесь меня смущает сравнении с грамотными людьми по двум причинам: во-первых - что можно подразумевать под понятием "грамотным"? Если судить по определению, которые идет по ссылке, то тогда в категорию "неграмотных людей" попадает очень большое количество людей, например, в России(как и автор этого отзыва), но эта характеристика совсем не мешает им понимать структуру документа и даже, о боже, автоматически распознавать слова и предложения(правда не особо вникая в суть). Во-вторых, человек "грамотный" для своего родного языка может являться неграмотным для носителей другого языка, но это, в свою очередь совсем не мешает ему понимать и распознавать структуру документа на этом неродном языке. И в-третьих, я, как представитель "неграмотного" большинства просто возмущен тем, что на таком солидном сайте ставится в сомнении моя компетенция распознавать структуру документов на естественном языке. Это просто какой-то грамматический шовинизм и боюсь что он может задеть и ранить чувства других неграмотных людей. Поэтому рекомендую заменить эту метафору про "грамотного человека и компьютера" на какую-либо другую, так как она является не совсем точной.

Исправлено заменила грамотных на большинства. Здесь, конечно, подразумеваются люди, которые умеют читать и при этом понимают, что читают. Не думала, что задену чьи-то чувства. Хотя, по-моему скромному мнению, твое замечание — бред. Приношу свои извинения. petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

2)В разделе Поисковый_индекс#.D0.90.D0.BD.D0.B0.D0.BB.D0.B8.D0.B7_.D1.84.D0.BE.D1.80.D0.BC.D0.B0.D1.82.D0.B0_.D0.B4.D0.BE.D0.BA.D1.83.D0.BC.D0.B5.D0.BD.D1.82.D0.B0 в строчке "Некоторые поисковые системы" (сразу после первого списка раздела ) было бы здорово привести примеры этих поисковых систем и подкрепить эту информацию авторитетными ссылками.

Сделано добавила ссылки. petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

3)В разделе Поисковый_индекс#.D0.A0.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D0.B5_.D1.80.D0.B0.D0.B7.D0.B4.D0.B5.D0.BB.D0.B0 меня смущает вот эта строчка "Например, некоторый контент в Интернете представлен через JavaScript." Что значит представлена? Если имеет ввиду отображении контента пользователю, то в таком случае лучше написать "Что иногда для вывода контента на страницу в сети Интернет используется язык программирования Javascript".

Исправлено petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

4)Этом же разделе, далее, у тебя написано, что если поисковая система не видит контент, выведенный с помощью javascript, то индексация проходит неправильно. Очень хотелось бы, чтобы к такому громкому высказыванию была ссылка на авторитетный источник.

Сделано уточнение. petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

А то в следующем предложении уже упоминается "Учитывая, что некоторые поисковые системы не беспокоятся о проблемах...". То есть получается они его не видят этот "контент". То есть получается, что они индексируют неправильно(если судить по предыдущему предложению)? Если они индексируют неправильно, зачем вообще тогда делать упоминания об этих поисковых системах. В общем, мне кажется, что данный абзац требует небольшой переработки и изменению формулировок ,и поэтому прошу обратить на него твое внимание.

Повторюсь, что статья переводная. Если стиль изложения кривой, можешь подправить его как считаешь нужным. petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

P.S.: Ссылок на АИ действительно не хватает. Этот вопрос обсуждался ранее. petrinka 15:54, 1 декабря 2013 (UTC)Ответить[ответить]

Добавить тему