Блог о Hadoop

воскресенье, 28 апреля 2013 г.

Когда же будет релиз hadoop 2.0

В пятницу 26 апреля Аруном Мурфи был проанонсирован выход версии hadoop 2.0.4-alpha.

Основные исправления новой версии касались проблем с интеграциями с другими проектами.

Подробности можно посмотреть в Release Notes.

Сообщество хадупа готовится к окончательной стабилизации релиза и ожидается что следующем месяце или около того выйдет версия 2.0.5-beta.

Выход стабильного релиза hadoop 2.1 ожидается этим летом.

среда, 13 марта 2013 г.

Фестиваль Big Data Week

22-28 апреля во всем мире проходит фестиваль
"Неделя больших данных"

Московская секция пройдет 25-27 апреля
http://bigdataweek.com/moscow/

Сейчас к сообществу у нас есть три вопроса:

Какие темы для вас интересны, (чтобы программа была полезной)?
Кого бы вы хотели послушать? (мнение каких экспертов вам интересно)
Какую тему вы могли бы рассказать сами?

Мы ищем специалистов и экспертов, которые хотят
поделиться своим опытом работы с большими данными.

Если вам интересна эта тема и вы хотите поучаствовать
не только как слушатель, но и как докладчик,
пишите заявку на BDW13 @ rambler.ru или мне pavel @ mezentsev.ru

вторник, 13 ноября 2012 г.

Lifehack: сдаем CCHD и CCHA экзаменты

Какой то добрый человек выложил в сети тренировочные примеры клаудеровских экзаменов на Hadoop админа и Hadoop разработчика.

Решаемые задания теста максимально близки к тому, с чем мне пришлось столкнуться на экзамене. В тренировочном тесте вас ожидает 30 вопросов вместо 60, которые надо решить за час своего времени, вместо полутра.

Это конечно примеры тестов на хадуп разработчика под CDH 3.x, который проводится только до конца этого года. Я надеюсь, что в скором времени появится что-то подобное и для тестов на CDH 4

суббота, 10 ноября 2012 г.

Hadoop User Group Meetup

Вчера, 8 ноября на монсарде Рамблера состоялся Hadoop User Group Meetup.

Эта была первая встреча, никто не знал до этого как и в каком виде надо проводить подобные сборища. На первый раз у нас получилась мини конференция, на которойбыло 4 доклада:

Мой - про машинное обучение на MapReduce

Ильи Трофимова из Яндекса - про быстрое машинное обучение на подхаченном Hadoop'е

Владимир из Microsoft рассказал про hadoop в Windows Azure,

В конце Алексей из Doichebank'а поделился своим опытом развертывания hadoopa, hbase и других компонент.

Дальше »

понедельник, 29 октября 2012 г.

Hadoop в реальном времени

На прошлой неделе в Нью Йорке состоялась конфа Hadoop World 2012.
На этой конфе клаудера презентовала свою новую разработку Cloudera Impala (анг. "Чернопятая антилопа"). Эта система для выполнения SQL подобных запросов на данных в HDFS в реальном времени.

С точки зрения пользователя - Impala - это облегченый hiveQL. Однако в отличие от Hive - Impala не является оберткой вокруг map-reduce, а независимой утилитой, инстансы которой ставятся на все машины кластера.
Об архитектуре Impala написано очень скупо, приведена лишь такая вот диаграмма

на схеме MPP скорее всего означает "Massive Parallel Processing" - массово паралельную систему вычислений. В блоге cloudera сказано, что так реализован движок распределенных запросов, который очень похож на то, на чем строятся коммерческие паралельные СУБД.

Фичи Impala:

100% open source
может работать с данными как из hdfs, так и из hbase
можно настроить единое хранилище метаинформации для нее и для hive'а, тогда она будет работать с теми же таблицами, что и hive
умеет делать join'ы таблиц

По сравнению с hive:

в задачах ввода-вывода скорость выше в 3-4 раза
в одиночных джойнах в 7-45 раз
в джойнах, когда данные помещаются в память - в 20-90 раз

Я немножно потестировала impala сам, скачав настроенную виртуалку с сайта cloudera.

над простой тестовой задачей "select * from table" Impala работала 0.7 секунд, когда hive'у потребовалось около 12.
с задачей посложнее, где надо было сделать 6 джойнов, Impala думала 16 секунд, а hivе отправил виртуалку в жесткий свап.

Технические органичения на бету строгие: только RHEL или CentOS, причем определенныой версии.

Вот такая вот штука. Будем ждать релиза и облизываться.

Ссылки по теме:

среда, 24 октября 2012 г.

Гитлер и Хадуп

Вот что может случиться, когда неправильно понимаешь архитектуру hadoop кластера :)))

воскресенье, 21 октября 2012 г.

Я прошел Cloudera Certified Hadoop Developer!!!

В пятницу, 19 октября, я ходил сдавать экзамен Cloudera Ceritfied Hadoop Developer в центре "Специалист". Сдал его успешно, дав 56 правильных ответов из 60.

Чем был мне полезен этот экзамен:

Во первых это моя первая сертификация и мой первый сертификат специалиста

Во вторых, при подготовке к экзамену мне пришлось целенаправлено проштудировать Hadoop The Definitive Guide.

В итоге узнал для себя новое о хадупе, например что такое Data Locality, Speculative Execution, что делает маппер, если очередная строка текстового файла оказалась разбита по разным файлам, как реализовать join, чтобы разные входные данные обрабатывались разными мапперами.

В третьих в процессе самого экзамена я встретил несколько "хрен знает как ответить" вопросов. Перед началом экзамена я дал тестирующей программе обещание хранить содержимое экзамена в тайне, поэтому говорить о них не буду :)))

Общее впечатление от экзамена: экзамен легкий, расчитан на то, чтобы новичок в этом деле сдал его, как следует изучив матчасть. Для специалиста, проработавшего с Hadoop не один год большинство вопросов кажутся очевидными, из серии "что делать человеку, который очень хочет запускать задачки на Hadoop, но значет только SQL?".

Несколько слов о том, как готовиться к экзамену. Мне для подготовки вполне хватило информации из Hadoop The Definitive Guide. Экзамен построен на 3й версии клаудеровского дистрибутива hadoop, поэтому вопросы относятся только классическому Map-Reduce и старой версии Hadoop API. Список тем, приведенный на сайте полностью покрывает все вопросы теста.

Ну вот как-то так. На все вопросы про экзамен готов ответить в комментах.

Update: в сети появились примеры экзаменационных вопросов.

воскресенье, 28 апреля 2013 г.