from Stas Fomin on Vimeo.
Презентация
View more presentations from Vladimir Klimontovich.
Владимир Климонтович поделится своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.
- История вопроса.
- Почему проблема обработки большего объема данных становится все
более актуальный (пример роста количества данных в разных областях). - Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
- Краткое описание смежных областей (distributed file system, bigtable-like storage).
- История и краткое описание платформы Apache Hadoop.
- Почему проблема обработки большего объема данных становится все
- Примеры использования.
- Использование платформы hadoop в трех отдельно взятых областях: в
last.fm (построение charts), в online-advertising'e (построение
статистики), в Yahoo (построение поискового индекса). - Описание традиционного подхода (SQL базы данных) и похода с
использованием Hadoop для каждой из вышеобозначенных проблем.
Достоинства и недостатки SQL/Hadoop подхода - Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.
- Использование платформы hadoop в трех отдельно взятых областях: в
- Платформы, построенные поверх Hadoop.
- Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop.
- Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL походом
- Проблемы с real-time доступом к данным при использовании Apache Hadoop.
- Описания случаев, когда real-time нужен, а когда нет.
- Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
- Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.
- Hadoop как тренд.
- Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
- Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.
Комментарии