Это не официальный сайт wikipedia.org 01.01.2023

Cloudera — Википедия

Cloudera

(перенаправлено с «Apache Impala»)

Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop.

Cloudera, Inc.
Изображение логотипа
Тип Публичная компания
Листинг на бирже NYSE: CLDR
Основание 2009
Основатели Кристофе Бишилья,
Амр Авадалла,
Джеффри Хаммербахер,
Майкл Ольсон
Расположение  США: Пало-Альто
Ключевые фигуры Рейли, Том (генеральный директор),
Дуг Каттинг (главный архитектор)
Отрасль разработка программного обеспечения (МСОК6201)
Продукция Коммерческая версия Hadoop, Cloudera Impala[en]
Оборот ▲$301 млн (2018)
Операционная прибыль ▼−$389 млн (убыток, 2018)
Чистая прибыль ▼−$386 млн (убыток, 2018)
Капитализация $2,66 млрд (7 сентября 2018)[1]
Сайт cloudera.com
Логотип Викисклада Медиафайлы на Викискладе

Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений[2][3]. С бумом технологий «больших данных», Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса[4][5].

В 2018 году поглотила основного конкурента на рынке Hadoop-дистрибутивов — американскую компанию Hortonworks[en].

ИсторияПравить

Компания была основана в октябре 2008 года в Бёрлингейме (штат Калифорния) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop. Основатели компании — Кристофе Бишилья (англ. Chirstophe Bischiglia), ранее работавший в Google, Амр Авадалла (Amr Awadallah, вице-президент корпорации Yahoo, отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер (Jeff Hammerbacher, менеджер проекта Hive в компании Facebook) и Майкл Ольсон (Michael Olson), вице-президент корпорации Oracle, ранее генеральный директор Sleepecat, разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle)[6]. Хаммербахер организовал начальное финансирование проекта фондом Accel Partners, а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы Гидеон Ю (Gideon Yu) и Катерина Фейк (Caterina Fake)[7].

Среди нанятых в первые месяцы сотрудников были создатели Hadoop Дуг Каттинг (англ. Doug Cutting) и Майкл Кафарелла (Mike Cafarella), бывшие руководители компаний VMware (Дайен Грин, Diane Green) и MySQL AB (Мартен Микос, Marten Mikos)[8]. Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop»[9].

В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek[10], а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году. При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций[11].

В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн[12], в декабре 2012 года — ещё $65 млн[13], среди инвесторов очередных раундов указываются Ignition Partners, Greylock, Accel, Meritech Capital Partners и In-Q-Tel[14][13].

В октябре 2012 года компания представила продукт Impala[⇨], обеспечивающий доступ на языке SQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL (англ. old SQL, по созвучию со «старой школой» — old school)[15].

В июне 2013 года на должность генерального директора приглашён Том Райли (Tom Reilly), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма ArcSight[en] была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению, либо продаже бизнеса[16]. Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx, основанную Шоном Оуэном (Sean Owen), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout[en], объявлено о назначении Оуэна на должность «директора по науке о данных» (англ. director of data science)[17].

К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн[16], а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн[18]. В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд[19]; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera[18]. В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang[20].

В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже, в результате которого привлекла $215 млн[21]. Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson, и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks[22].

В октябре 2018 года объявлено о слиянии с Hortonworks, притом структура сохранила наименование Cloudera, листинг на бирже и генерального директора, а акционеры Hortonworks получили 40 % акций объединённой компании[23]. Сделка завершена 3 января 2019 года, несмотря на суммарную оценку двух компаний в момент объявления в $5,2 млрд, по её завершению капитализация объединённого бизнеса составила около $3 млрд[24]. Поглощение фактически завершило этап консолидации на рынке коммерческих дистрибутивов Hadoop (из сколь-либо заметных других участников рынка осталась только компания MapR[en] с годовым оборотом около $175 млн за 2018 год), сместив фокус конкуренции на более широкие сегменты — инструментов больших данных и аналитических платформ[25].

В конце 2020 года компания совершила обратный выкуп акций у Intel за $314 млн (что на $426 млн дешевле инвестиций 2014 года)[26].

CDHПравить

CDH (англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутивов Linux (Red Hat Enterprise Linux, CentOS, Ubuntu, SuSE SLES, Debian). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: Flume, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, Zookeeper. Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager[⇨], включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах (Rackspace, Amazon EC2, Softlayer[en]), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven.

К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса Oracle Big Data appliance[27], притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle, а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN), в состав CDH4 включены также три собственных продукта фирмы — Hue[en] (браузерный интерфейс управления Hadoop-кластером), Impala[⇨] и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров)[28].

ImpalaПравить

Cloudera Impala[en] — массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase, распространяется по лицензии Apache 2.0. В отличие от Hive, обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce.

Cloudera ManagerПравить

Cloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера[29]. Для Cloudera Manager существует бесплатная редакция (англ. free edition), работающая только на кластерах, состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos).

Тематические продуктыПравить

Вслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных, с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase, Kudu[en] и Spark), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач «науки о данных»), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс каталог данных на основе собственного компонента SDX).

Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Engineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub.

ПримечанияПравить

  1. Cloudera Inc  (неопр.). Morning Star (7 сентября 2018). Архивировано 7 сентября 2018 года.
  2. Малик, 2009, I see some interesting parallels between Hadoop and Red Hat, which rose to prominence on the back of Red Hat Linux, a version of Linux optimized for corporate users.
  3. Рао, 2011, Cloudera helps distribute Hadoop, and provides practical services around the technology, similar to what Red Hat does for the Linux framework.
  4. Нэрн, 2010, Storage giant EMC has teamed up with Cloudera, a specialist in database software, to create technologies to better support “big data” … Startup Cloudera is using the open source Hadoop software package to analyse very large sets of data.
  5. Вэнс, 2011, “It will be guys like Jeff who understand what to do with big data”.
  6. Прикетт-Морган, 2009, …Christophe Bisciglia, who led the partnership between Google, IBM, and the National Science Foundation to create Hadoop grids for academics to play around with; Amr Awadallah, a former Yahoo vice president of engineering that led the data warehousing and analytics effort behind that company's mail, search, finance, and news services; - Mike Olson, formerly the chief executive officer of open source database maker Sleepycat Software (now owned by Oracle); and Jeff Hammerbacher, formerly of social networking giant Facebook and the manager who created the Hive project, which is a data warehousing layer that works in conjunction with Hadoop and that Facebook uses to do data analysis on its many petabytes of information stored in its user data warehouse.
  7. Businessweek, 2010, Funding: $11 million from Accel Partners, Greylock Partners, and angel investors that include Gideon Yu and Caterina Fake.
  8. Прикетт-Морган, 2009, …Doug Cutting and Mike Cafarella as advisors as well as Diane Green (founder and former CEO at virtualization specialist VMware) and Marten Mikos.
  9. Handy, Alex. Hadoop creator goes to Cloudera (англ.) (недоступная ссылка — история). SD Times (9 октября 2009). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
  10. Businessweek, 2010, Cloudera co-founder Christophe Bisciglia was one of Bloomberg BusinessWeek's Best Young Tech Entrepreneurs of 2009.
  11. Businessweek, 2010, Toughest decision: Changing Cloudera's business model to make it into a software vendor.
  12. Worthen, Ben. Tide Shifts on Web Start-Ups (англ.), N. Y.: The Wall Street Journal (22 November 2011). Архивировано 25 декабря 2011 года. Дата обращения: 28 декабря 2011. «More big-funding deals have been struck since then, including $85 million for human-resources-software maker Workday Inc., $81 million for online file-sharing site Box.net Inc., $50 million for marketing company Marketo Inc. and $40 million for data-management company Cloudera Inc».
  13. 1 2 Darrow, Barb Cloudera snares $65M more to boost international, enterprise growth (англ.) (недоступная ссылка — история). Gigaom (6 декабря 2012). — «The funding round was led by Accel Partners with help from Greylock Partners, Ignition Partners, In-Q-Tel, and Meritech Capital Partners». Дата обращения: 10 декабря 2012. Архивировано 17 декабря 2012 года.
  14. Рао, 2011, Cloudera just announced $40 million in new funding led by Ignition Partners, Greylock, Accel, Meritech Capital Partners, and In-Q-Tel.
  15. Brust, Andrew Cloudera’s Impala brings Hadoop to SQL and BI. Big Data darling Cloudera's Impala product promotes SQL to peer-level with MapReduce (англ.). ZDNet (25 октября 2012). — «Instead of beckoning “old school” database and BI professionals (i.e. the majority of enterprise developers and DBAs) to move to Hadoop, it announced the beta of a new product, Impala, that brings Hadoop to them». Дата обращения: 1 января 2014. Архивировано 2 января 2014 года.
  16. 1 2 Prickett Morgan Cloudera taps new CEO for inevitable IPO push or acquisition. Former CEO becomes chairman and chief strategist (англ.). The Register (20 июня 2013). Дата обращения: 1 января 2014. Архивировано 2 января 2014 года.
  17. Clark, Jack Cloudera acquisition: It’s a Myrrix (cle). Elephant snorts baby elephant for machine learning skills (англ.) (недоступная ссылка — история). The Register (16 июля 2013). Дата обращения: 17 июля 2013. Архивировано 31 августа 2013 года.
  18. 1 2 Harris, Dereck Intel jettisons its Hadoop distro and puts millions behind Cloudera (англ.). Gigaom (27 марта 2014). Дата обращения: 1 апреля 2014. Архивировано 30 марта 2014 года.
  19. Clark, Jack Don’t touch my trunk! Intel is $740m lighter after Cloudera cash shot. Huge funding deal keeps Oracle, IBM away from upstart’s yellow elephant (англ.). The Register (31 марта 2014). Дата обращения: 1 апреля 2014. Архивировано 4 апреля 2014 года.
  20. Liam Tung. Cloudera buys big data encryption outfit Gazzang. Cloudera buys Gazzang to offer enterprise customers encryption for data at rest in Hadoop clusters  (неопр.). ZDNet (15 июня 2014). Дата обращения: 23 сентября 2018. Архивировано 25 сентября 2019 года.
  21. Anita Balakrishnan. Cloudera shares close more than 20% higher on Day 1  (неопр.). CNBC (28 апреля 2017). Дата обращения: 23 сентября 2018. Архивировано 23 сентября 2018 года.
  22. Rebecca Hill. Cloudera bags AI biz, eyes up IBM customers… and continues to report operating losses. Someone’s noticed Big Blue’s deal with Hortonworks  (неопр.). The Register (8 сентября 2017). Дата обращения: 23 сентября 2018. Архивировано 23 сентября 2018 года.
  23. Kevin Kelleher. Cloudera, Hortonworks Stocks Soar as the Big-Data Rivals Announce a $5.2B Merger  (неопр.). Fortune (3 октября 2018). Дата обращения: 4 октября 2018. Архивировано 4 октября 2018 года.
  24. Rebecca Hill. Cloudera, Hortonworks merge into amorphous data-managing blob after stockholder vote. New-look firm turns attention to PR offensive  (неопр.). The Register (7 января 2019). Дата обращения: 7 января 2019. Архивировано 8 января 2019 года.
  25. Andrew Brust. Cloudera and Hortonworks' merger closes; quo vadis Big Data? The two biggest Hadoop distribution vendors are now one. What does this mean for the Big Data world, for customers and for Apache Hadoop?  (неопр.) ZDNet (4 января 2019). Дата обращения: 7 января 2019. Архивировано 31 января 2019 года.
  26. Max A. Cherney. Cloudera Buys Back $314 Million Intel Stake. Here’s What It Means for the Stock  (неопр.). Barron’s (23 декабря 2020). Дата обращения: 25 декабря 2020. Архивировано 25 декабря 2020 года.
  27. Pricket Morgan, Timothy Oracle mounts Cloudera's elephant for big data ride (англ.) (недоступная ссылка — история). The Register (10 января 2012). Дата обращения: 13 января 2012. Архивировано 6 сентября 2012 года.
  28. Tony Baer. Cloudera Enterprise 6 hits the streets. Hadoop 3.0 takes a starring role in the next release of Cloudera's platform  (неопр.). ZDNet (22 мая 2018). Дата обращения: 23 сентября 2018. Архивировано 27 ноября 2020 года.
  29. Pricket Morgan, Timothy. Cloudera gets proactive with Hadoop management (англ.) (недоступная ссылка — история). The Register (8 сентября 2011). Дата обращения: 15 апреля 2013. Архивировано 18 апреля 2013 года.

СсылкиПравить