WikiSort.ru - Программирование

ПОИСК ПО САЙТУ | о проекте

MapReduce — модель распределённых вычислений, представленная компанией Google, используемая для параллельных вычислений над очень большими, вплоть до нескольких петабайт,^[1] наборами данных в компьютерных кластерах.

Обзор

MapReduce — это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер.

Работа MapReduce состоит из двух шагов: Map и Reduce, названных так по аналогии с одноименными функциями высшего порядка, map и reduce.

На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом — master node) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам — worker node) для предварительной обработки.

На Reduce-шаге происходит свёртка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат — решение задачи, которая изначально формулировалась.

Преимущество MapReduce заключается в том, что он позволяет распределенно производить операции предварительной обработки и свертки. Операции предварительной обработки работают независимо друг от друга и могут производиться параллельно (хотя на практике это ограничено источником входных данных и/или количеством используемых процессоров). Аналогично, множество рабочих узлов может осуществлять свертку — для этого необходимо только чтобы все результаты предварительной обработки с одним конкретным значением ключа обрабатывались одним рабочим узлом в один момент времени. Хотя этот процесс может быть менее эффективным по сравнению с более последовательными алгоритмами, MapReduce может быть применен к большим объёмам данных, которые могут обрабатываться большим количеством серверов. Так, MapReduce может быть использован для сортировки петабайта данных, что займет всего лишь несколько часов. Параллелизм также дает некоторые возможности восстановления после частичных сбоев серверов: если в рабочем узле, производящем операцию предварительной обработки или свертки, возникает сбой, то его работа может быть передана другому рабочему узлу (при условии, что входные данные для проводимой операции доступны).

Фреймворк в большой степени основан на функциях map и reduce, широко используемых в функциональном программировании,^[2], хотя фактически семантика фреймворка отличается от прототипа.^[3]

Пример

Канонический пример приложения, написанного с помощью MapReduce, — это процесс, подсчитывающий, сколько раз различные слова встречаются в наборе документов:

// Функция, используемая рабочими нодами на Map-шаге
// для обработки пар ключ-значение из входного потока
void map(String name, String document):
    // Входные данные:
    //   name - название документа
    //   document - содержимое документа
    for each word w in document:
        EmitIntermediate(w, "1");
 
// Функция, используемая рабочими нодами на Reduce-шаге
// для обработки пар ключ-значение, полученных на Map-шаге
void reduce(String word, Iterator partialCounts):
    // Входные данные:
    //   word - слово
    //   partialCounts - список группированных промежуточных результатов. Количество записей в partialCounts и есть 
    //     требуемое значение
    int result = 0;
    for each v in partialCounts:
        result += parseInt(v);
    Emit(AsString(result));

В этом коде на Map-шаге каждый документ разбивается на слова, и возвращаются пары, где ключом является само слово, а значением — «1». Если в документе одно и то же слово встречается несколько раз, то в результате предварительной обработки этого документа будет столько же этих пар, сколько раз встретилось это слово. Сформированные пары отправляются на дальнейшую обработку, система группирует их по ключу (в данном случае — ключом является само слово) и распределяет по множеству процессоров. Наборы объектов с одинаковым ключом в группе попадают на вход функции reduce, которая перерабатывает поток данных, сокращая его объёмы. В данном примере функция reduce просто складывает вхождения данного слова по всему потоку, и результат — только одна сумма — отправляется дальше в виде выходных данных.

Примечания

↑ Google spotlights data center inner workings | Tech news blog — CNET News.com
↑ «Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.» -«MapReduce: Simplified Data Processing on Large Clusters», by Jeffrey Dean and Sanjay Ghemawat; from Google Labs
↑ «Google’s MapReduce Programming Model — Revisited» — статья Ральфа Леммеля из Microsoft

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] Google spotlights data center inner workings | Tech news blog — CNET News.com

[map-2] «Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.» -«MapReduce: Simplified Data Processing on Large Clusters», by Jeffrey Dean and Sanjay Ghemawat; from Google Labs

[3] «Google’s MapReduce Programming Model — Revisited» — статья Ральфа Леммеля из Microsoft

Google Inc.
Председатель совета директоров: Эрик Шмидт Директор, президент по технологиям и сооснователь: Сергей Брин Главный исполнительный директор и сооснователь: Ларри Пейдж Материнская компания: Alphabet
Реклама	AdMob Adscape^[en] AdSense Advertising Professional^[en] Ads Analytics DoubleClick Insights for Search^[en] Trends Wallet Google Университет^[en]
Коммуникации	Google+ Calendar Friend Connect Gmail Inbox Groups Hangouts Joga Bonito Panoramio Picasa Вопросы и ответы^[en] Talk Translate Voice
ПО	Chrome Chromium Earth Gadgets Goggles Gmail Mobile Now Picasa SketchUp Talk Google Assistant Toolbar
Платформы	Account Android App Engine Apps BigTable Chromecast Chrome OS Пользовательский поиск Native Client GFS Nexus OpenSocial Pixel Play Public DNS TV Fuchsia
Инструменты разработки	Android Studio Dart Gadgets API^[en] GData^[en] Go Googlebot Guice GWS Highly Open Participation Contest^[en] KML MapReduce Mediabot^[en] Pinyin^[en] SketchUp Ruby^[en] Sitemaps (index) Summer of Code AtGoogleTalks^[en] Web Toolkit Website Optimizer^[en]
Публикация	Alerts^[en] Blogger Bookmarks^[en] Документы FeedBurner Library Project^[en] Map Maker Sites YouTube Диск Фото Keep
Поиск (PageRank, руководства)	Appliance Audio^[en] Books Images Maps (Mars^[en] Moon^[en] Ocean^[en] Sky Street View) News Patents^[en] Покупки Scholar Usenet Video Web
Тематические проекты	Finance Google Glass Беспилотный автомобиль Google Проект Loon Проект Tango Google Cardboard Noto Code Jam
Закрытые проекты	Вопросы и ответы^[en] Browser Sync Base Buzz Checkout Click-to-call^[en] Code Desktop Dodgeball^[en] Gears GOOG-411^[en] Health iGoogle Image Labeler^[en] Jaiku Knol Labs Lively^[en] Mashup Editor^[en] Notebook Orkut Pack Page Creator^[en] Picnik^[en] Reader SearchWiki^[en] Updater Video Marketplace^[en] Wave Web Accelerator
См. также	История Поглощения Список сервисов и инструментов Логотип Doodle Цензура^[en] Ara Art Project Calico Current^[en] Earth Outreach^[en] Foundation (Google.org) Google China^[en] Googleplex Google X Lunar X Prize I/O WiFi^[en] Zeitgeist^[en] «Бомбы» Гуглизация