Школа анализа данных объявляет набор

Яндекс открывает новый набор в Школу анализа данных. Это двухгодичные вечерние курсы для тех, кто хочет получить образование в области обработки и анализа данных и извлечения информации из интернета. Школа требует хорошей математической подготовки и рассчитана прежде всего на студентов и молодых выпускников инженерных и математических специальностей.


В Школе анализа данных можно получить знания, которых нет в программах большинства университетов. Студенты школы изучают машинное обучение, методы обработки больших данных, компьютерное зрение, информационный поиск и другие области компьютерных наук под руководством специалистов, которые работают в IT-индустрии или занимаются современной наукой.

Если вы хотите поступить в ШАД, заполните анкету на сайте школы до 15 мая. После этого вы получите письмо со ссылкой на онлайн-тест по математике и основам программирования. Всех, кто успешно справится с тестом, мы пригласим на письменный экзамен, который состоится в конце мая – начале июня. Лучшим по результатам экзамена предстоит пройти собеседование, по итогам которого будет принято окончательное решение.

На сайте школы вы можете изучить экзаменационные задания прошлых лет и узнать, к чему стоит готовиться. Познакомиться с преподавателями школы и узнать о новом направлении «Большие данные» можно будет на Дне открытых дверей ШАД. Он состоится 19 апреля в московском офисе Яндекса, для участия необходимо зарегистрироваться.

Занятия в ШАД проводятся по вечерам в будние дни. Учиться в школе можно очно или заочно, по видеолекциям. Во время обучения или после окончания школы студенты могут пройти стажировку в Яндексе.

Школа анализа данных существует с 2007 года и выпустила более 300 специалистов, многие из которых занимаются наукой, работают в Яндексе и других крупных IT-компаниях в России и за рубежом. Отделения ШАД существуют в Санкт-Петербурге (в рамках Computer Science Center), Новосибирске, Екатеринбурге, Минске и Киеве.
РедактироватьУдалить
Показать комментарии
0
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Место под солнцем

В феврале 2015 года люди задали более 3,5 миллиона запросов о туристических поездках в поиске Яндекса. Это показывает, что спрос на путешествия вполне себе сохраняется. Конечно, люди стали экономить на отдыхе, но пока не отказываются от него полностью, а просчитывают разные варианты и выбирают наиболее выгодный. Чем больше возможностей для выбора — тем проще это сделать. Сегодня мы запустили новый сервис для поиска и выбора туров — Яндекс.Путешествия. С его помощью вы можете подобрать тур по множеству разных параметров и сравнить цену тура со стоимостью самостоятельной поездки.


Мы старались сделать Яндекс.Путешествия по-настоящему удобным сервисом, который не уступал бы привычному способу покупки туров — у менеджера в турагентстве. Как и многие другие наши сервисы, это метапоисковик — он агрегирует данные партнёров и представляет их в удобном виде так, чтобы вы могли сравнить все варианты и выбрать подходящий.

Технология персонализации, учитывающая ваши интересы к тем или иным направлениям, и гибкие настройки сервиса помогут выбрать то, что лучше отвечает вашим желаниям. Будь это неделя на пляже в Хургаде или свадебное путешествие на Мальдивы. Выбрав подходящее направление, вы можете отсортировать все предложения по цене тура, рейтингу отеля или его популярности.

Для каждого отеля Путешествия показывают разные варианты размещения, фотографии и положение на карте — чтобы вы могли оценить, например, расстояние до пляжа. Кроме того, на карте можно посмотреть отели по соседству и выбрать тот, который понравится больше. Также вы можете почитать отзывы других путешественников об отеле, собранные с сайтов партнёров. Отзывы мы показываем с помощью собственной технологии извлечения фактов. Благодаря этому сверху оказываются самые информативные фрагменты наиболее свежих отзывов.


Пользуйтесь Яндекс.Путешествиями и оставляйте ваши комментарии. Сервис только появился, и то, как он будет развиваться, во многом зависит от потребностей путешественников, то есть от вас и ваших отзывов.
РедактироватьУдалить
Показать комментарии
29
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Маркет без границ

На Яндекс.Маркете появилась возможность искать товары только в зарубежных магазинах. Для этого в трёх категориях наиболее востребованных заграничных товаров — «Гардероб», «Детские товары» и «Косметика и духи» — теперь есть специальный фильтр. В результатах поиска вы можете не спеша изучить предложения от разных магазинов и выбрать, например, итальянское платье или израильскую косметику.


Уточнить пожелания к покупке помогут дополнительные фильтры. Например, можно выбрать любимую марку и указать сумму, которую вы готовы потратить на новое платье. Цены на все товары указаны в рублях, а их описания доступны на русском языке. Расплатиться можно картой любого российского банка, некоторые магазины также принимают оплату через Яндекс.Деньги.

Как показало наше исследование с компанией GfK, иностранные интернет-магазины становятся в России всё популярнее. Если 2013 году товары за рубежом заказывало чуть больше трети онлайн-покупателей, то в 2014 доля таких пользователей достигла уже половины. Это неудивительно: очень часто — особенно это касается одежды и косметики — выбор за границей больше, качество товаров выше, а цена даже с учётом доставки получается ниже.

Сейчас на Маркете можно выбирать товары из Германии, Китая, Италии, Израиля, Чехии, Швейцарии, Эстонии и Финляндии. Среди партнёров сервиса Yoox.com, Witt-international.com, DHgate.com, Kidsroom.de и другие магазины, ассортимент которых насчитывает сотни тысяч моделей. Это и массовые товары, многие из которых не купить в России, и брендовая одежда, которая за границей часто бывает дешевле.

Конечно, при заказе товаров из-за рубежа стоит учитывать некоторые тонкости. Например, из-за колебаний курса стоимость заказа при оплате может измениться — как в большую, так и в меньшую сторону. Кроме того, доставка товаров из других стран, как правило, занимает чуть больше времени, чем доставка по России. Все подробности можно узнать здесь, а также уточнить у службы поддержки — она есть у всех магазинов, подключённых к Маркету.
РедактироватьУдалить
Показать комментарии
4
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Что спрашивают у Яндекса о разных странах

С какой страной у вас ассоциируются слова магазин, товар и доставка? Согласно нашему новому исследованию, эти три слова чаще всего встречаются в поисковых запросах с упоминанием Китая. Мы проанализировали запросы к Яндексу, в которых присутствуют названия стран, территорий и их жителей, и выяснили, какие слова чаще встречаются в запросах про определённые страны. Например, для Индии это фильм, сериал и любовь, для Болгарии — перец, рецепт и салат, а для Литвы — авто, княжество и бульвар. Теперь попробуйте догадаться, к какой стране относятся слова:
  • тур–массаж–бокс;
  • порно–кроссворд–авто;
  • кружево–музыка–паб;
  • государство–площадь–гвардия;
  • язык–песня–мясо;
  • флаг–женщина–конфликт;
  • дерево–кедр–операция.
Проверить себя можно на карте ассоциаций.


Поисковые запросы про страны очень разнообразны. Они показывают, что люди думают и знают о разных странах. Про Австралию и Монголию больше всего ищут факты и теоретические сведения — [единственная полноводная река в австралии], [социальная структура монгольского общества]. О некоторых странах — например, Доминиканской Республике или Шри-Ланке — спрашивают почти исключительно в связи с турами и отелями. Китай, Швейцария, Италия и Финляндия интересуют людей в первую очередь с точки зрения товаров, а Индия и Турция — с точки зрения кино.

О каких-то странах спрашивают много, о каких-то — совсем мало. На основе поисковых запросов к Яндексу мы составили карты мира: общую и для четырёх разных городов. Интерес к странам мира часто зависит от места проживания, поэтому у жителей Москвы, Санкт-Петербурга, Новосибирска и Владивостока они выглядят по-разному.


Видно, что жителей Санкт-Петербурга больше, чем жителей трёх других городов, интересуют страны Северной Европы: Финляндия, Эстония, Латвия, Литва и Норвегия. Новосибирцы чаще, чем в среднем по стране, спрашивают про страны Юго-Восточной Азии, а также про Казахстан и Монголию. Во Владивостоке преобладает интерес к странам Восточной и Юго-Восточной Азии: Филиппинам, Южной Корее, Сингапуру, КНДР, Японии и Камбодже.

Подробности о том, как люди ищут разные страны, и картинки на эту тему — на странице исследования «Разные страны в поиске Яндекса».
РедактироватьУдалить
Показать комментарии
6
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Что вы видите на этой картинке?

Распознавание изображений — одна из самых сложных задач для компьютера. Мы уже рассказывали о том, как устроено компьютерное зрение и как оно применяется в наших сервисах — например, при поиске похожих изображений в Яндекс.Картинках. Теперь технология компьютерного зрения работает и в Яндекс.Диске — благодаря ей вы можете найти изображения форматов JPEG, GIF и PNG, содержащие текст поискового запроса. Достаточно ввести в поисковую строку нужное слово, и система найдёт на Диске картинки, на которых оно встретится. В результатах поиска вы увидите изображения с этим словом, документы, в тексте которых оно содержится, а также файлы и папки, в названиях и описаниях которых есть это слово.

Когда на Диске тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, будь то объявление на двери подъезда или любопытный рекламный плакат в метро.

В основе поиска текстов на изображениях лежит технология оптического распознавания символов. Систем распознавания, опирающихся на эту технологию, много, и все они разные. Какие-то решают определённую задачу, например распознают партитуры, какие-то работают только с чистым текстом. Для Яндекс.Диска мы разработали свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и, главное, качеству.

Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор, глубокая нейронная сеть, отбирает из всех картинок те, на которых изображён текст. Он учится отличать их от прочих на огромной базе изображений. Использование машинного обучения позволяет добиться высокого качества распознавания — ведь алгоритм опирается не на какие-то вручную заданные правила, а на опыт анализа миллионов разных картинок. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст, — различать их помогает ещё одна нейронная сеть. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен.



Затем модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего. Языковая модель опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст, то есть соседние символы. Если из нескольких вероятных символов складывается известное системе слово, то она может принять решение, что на картинке написано именно оно. Даже если некоторые символы-кандидаты в этом слове менее вероятны, чем другие.



Конечно, точность распознавания текста (а значит, и успех поиска) зависит от типа изображения, его чёткости, фона, на котором находится текст, и многих других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений более 70%. Это неплохой результат, но мы будем работать над его улучшением.
РедактироватьУдалить
Показать комментарии
27
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Браузер. Бета

Почти четыре месяца назад, в конце ноября 2014 года, мы выпустили альфа-версию нового Яндекс.Браузера. Когда речь идёт о программном обеспечении, слово «альфа» означает предварительную версию. Это не готовый продукт, а скорее опытный образец. Альфа-версию можно сравнить с наброском картины: общий замысел художника понятен, но работы предстоит ещё очень много.

Обычно альфа-версии используются для закрытого тестирования: программу дают попробовать ограниченному числу испытателей-добровольцев, которые потом высказывают своё мнение. Мы, однако, решили открыть альфа-версию нового Яндекс.Браузера для всех желающих. У нас скопилось много идей о том, каким должен быть браузер будущего, и мы рассчитывали поделиться этими идеями с вами — чтобы послушать, что вы скажете в ответ.

Расчёт оказался верным: мы получили рекордное количество отзывов. Их оказалось даже больше, чем осенью 2012 года, когда вышел первый Яндекс.Браузер. Мы хотим сказать спасибо всем, кто оставлял замечания, сообщал о неполадках и вносил предложения — в блоге Яндекса, в клубе браузера, на «Хабрахабре», в социальных сетях или через форму обратной связи. Мы изучили все отзывы до единого и продолжаем работу над браузером — теперь с учётом ваших пожеланий.

С сегодняшнего дня новый Яндекс.Браузер переходит в стадию бета-тестирования. Если задачей альфа-версии было показать вам наше видение браузера будущего, то бета-версия — это следующий шаг. Её задача — сделать будущее настоящим. Это своего рода испытательный полигон, где мы будем улучшать уже сделанное и пробовать новое.

Мы объединили в одной бета-версии две разных сборки браузера: классическую и новую. После установки вы можете выбрать, в каком интерфейсе работать: в новом — с прозрачными панелями и «Изнанкой» — или в классическом интерфейсе Яндекс.Браузера.


В новый интерфейс мы внесли несколько доработок. Во-первых, обновился механизм работы со вкладками. Отыскать вкладки, которые вы открыли, но ещё не успели просмотреть, теперь стало проще — они помечаются кружком.


Во-вторых, в новом интерфейсе появились закладки. Чтобы увидеть панель закладок, нужно кликнуть по заголовку страницы или открыть новую вкладку.


Разработка браузера — это долгий, но увлекательный процесс. Если вы хотите принять в нём участие — загружайте бета-версию для Windows и OS X и не забывайте рассказывать нам о том, что вам нравится, что не очень и что вы хотели бы изменить или добавить.
РедактироватьУдалить
Показать комментарии
70
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.

Как это работает? Рекомендации в Яндекс.Музыке

Все люди, вне зависимости от того, какую музыку они любят и сколько часов в день проводят в наушниках, иногда сталкиваются с одной и той же проблемой: личная фонотека заслушана до дыр и хочется чего-нибудь новенького. С одной стороны, выбор огромен — музыкальные каталоги в интернете насчитывают десятки миллионов треков и пополняются каждый день. С другой стороны, сориентироваться в этом разнообразии бывает непросто: музыки много, а вы один.

С сентября 2014 года в Яндекс.Музыке работает система музыкальных рекомендаций. Она даёт ответы на вопрос «Что бы ещё послушать?». У системы есть две ключевые особенности. Во-первых, её советы персональны — то есть составляются с учётом интересов каждого конкретного пользователя. А во-вторых, система самообучается: чем больше вы слушаете музыку, тем точнее будут рекомендации.

Как выявляются предпочтения
Прежде чем советовать пользователю ту или иную музыку, необходимо составить представление о его музыкальных вкусах. Самый простой способ сделать это — посмотреть, какие треки на Яндекс.Музыке он уже послушал. Это самая важная информация для рекомендательной системы; по истории прослушиваний можно установить, каких исполнителей и какие жанры человек предпочитает. Однако чтобы составить более полную картину, неплохо ещё понимать, что ему нравится больше, а что — меньше.

Для этого мы используем дополнительные данные. Один из источников таких данных — оценки «Нравится» и «Не нравится», которые ставят пользователи. Оценку «Нравится» в Яндекс.Музыке можно ставить трекам, альбомам, исполнителям и целым музыкальным жанрам. Оценка «Не нравится» есть в жанровом радио и в радио по исполнителю: с её помощью можно отметить треки, которые пришлись не по душе.

Как правило, люди оценивают музыку, которая вызвала у них сильный эмоциональный отклик — неважно, положительный или отрицательный. Поэтому оценки довольно точно отражают пристрастия человека. Но одних оценок недостаточно: во-первых, люди ставят их далеко не всегда, а во-вторых, в шкале не хватает полутонов — есть только или «хорошо» («Нравится»), или «плохо» («Не нравится»).

Поэтому, помимо оценок и прослушиваний, мы обращаем внимание и на другие действия пользователя: пропуски треков (например, в альбоме, подборке или радио) и добавления треков в плейлисты.


Все действия мы разделяем на положительные и отрицательные. Положительные — прослушивание, оценка «Нравится», добавление в плейлист — говорят о том, что музыка нравится пользователю, а отрицательные — пропуск и оценка «Не нравится» — наоборот. Важно понимать, что действия неравнозначны: например, пользователь может пропустить трек, который в целом ему по душе, но сейчас не подходит под настроение. Поэтому каждому действию мы присваиваем вес: у оценки «Нравится» он максимальный, а у пропуска — минимальный.

Как строится прогноз
Алгоритм анализирует профиль пользователя (то есть данные о его музыкальных предпочтениях) и предсказывает, какие треки и исполнители могут ему понравиться. Кроме того, алгоритм умеет дообучаться в режиме реального времени. Каждый раз, когда вы совершаете новое действие — слушаете трек или добавляете его в плейлист, — профиль обновляется, и прогноз строится заново. Это позволяет быстро подстраиваться под вкусы и предлагать музыку, которая отвечает сегодняшнему настроению.

Делая прогноз, алгоритм также учитывает информацию о том, как связаны друг с другом объекты из каталога Яндекс.Музыки: треки, альбомы, исполнители, жанры. Благодаря этим данным можно советовать человеку новых исполнителей в его любимом жанре. Кроме того, система сравнивает профили всех пользователей Яндекс.Музыки. Это делается для того, чтобы выявить людей со схожими музыкальными предпочтениями: то, что нравится одному, может понравиться и другому.


Как составляются рекомендации
Обработав данные, алгоритм выдаёт список треков и исполнителей, которые могут понравиться пользователю. Считать его окончательной рекомендацией, однако, нельзя. Во-первых, список слишком длинный — чтобы прослушать все треки, которые система выбрала за раз, не хватит и суток. Во-вторых, мы считаем, что рекомендации должны быть разнообразными: они должны включать в себя не только советы вида «раз вам понравилось X, послушайте Y», но и что-то ещё, что помогло бы сориентироваться в мире музыки — скажем, сообщения о новых релизах любимых исполнителей или чарты треков в жанрах, которые вам нравятся.

Поэтому прогноз, построенный алгоритмом на основе профиля пользователя, мы «разбавляем» информацией из других источников. Это могут быть сведения о том, что слушают друзья из социальных сетей, актуальные подборки — саундтрек к только что вышедшему фильму или сборник композиций, прозвучавших на недавнем музыкальном фестивале, — или списки треков, которые рекомендуют любимые исполнители.


Окончательный список рекомендаций составляется с помощью Матрикснета — разработанного в Яндексе метода машинного обучения. Матрикснет обрабатывает список всех возможных рекомендаций — как полученных прогнозированием, так и составленных по другим источникам — и определяет, какие именно следует показать пользователю на главной странице Яндекс.Музыки и в каком порядке их расположить. Формула, по которой составляется лента рекомендаций, учитывает множество факторов — от сведений о том, сколько раз человек прослушал тот или иной трек, до времени суток: бывает так, что утром нравится одна музыка, а вечером — другая.

***
Задача рекомендаций в Яндекс.Музыке — помогать людям открывать для себя новую музыку. Новую не значит современную — система может посоветовать вам и треки, выпущенные в этом году, и музыку, написанную в XVIII веке. Главное — это будет музыка, которую вы ещё не слышали, но которая вам, скорее всего, понравится.
РедактироватьУдалить
Показать комментарии
24
Скрыть комментарии
Авторизуйтесь, чтобы оставить комментарий.
Авторизуйтесь, чтобы оставить комментарий.
Больше записей