Diskussion:MapReduce

Einleitung dieser Diskussionsseite anzeigen

kann es sein, dass in dem wordcount beispiel die ganzen parameternamen überhaupt nicht mit den kommentaren übereinstimmen??? (nicht signierter Beitrag von 91.61.76.246 (Diskussion) 18:06, 14. Jul 2010 (CEST))

Artikel angelegt Bearbeiten

Letzter Kommentar: vor 15 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich habe erstmal einen Grossteil aus der englischen Version übersetzt und übernommen. Mehr in den nächsten Tagen.

--Marc van Woerkom 15:03, 11. Sep. 2008 (CEST)Beantworten

Bildbeschreibung fehlt bei [[Bild:mapreduce.png]] Bearbeiten

Letzter Kommentar: vor 15 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Bild:mapreduce.png]] und ergänze sie.

Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:

Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen Bild: und Image: in Datei:.
Skalierung: Außerhalb von Infoboxen sollten keine festen Bildbreiten (zum Beispiel 100px) verwendet werden. Für den Fließtext im Artikelnamensraum gibt es Thumbnails in Verbindung mit der automatischen Skalierung. Um ein Bild/eine Grafik in besonderen Fällen dennoch größer oder kleiner darzustellen, kann der „upright“-Parameter verwendet werden. Damit erfolgt eine prozentuale Skalierung, die sich an den Benutzereinstellungen orientiert. --SpBot 23:43, 1. Mär. 2009 (CET)Beantworten

Das Beispiel ist verwirrend oder enthält Fehler Bearbeiten

Letzter Kommentar: vor 6 Jahren5 Kommentare5 Personen sind an der Diskussion beteiligt

Mal abgesehen davon, dass ich nicht verstehe, warum in der Zwischenergebnisliste zweimal "T_der" vorkommt, einmal mit 2 Treffern und einmal mit 3 Treffern, ist mindestens das Ergebnis falsch: ("der", 3), denn "der" kommt im Text 4 mal vor. (nicht signierter Beitrag von 82.82.176.39 (Diskussion | Beiträge) 00:11, 21. Jan. 2010 (CET)) Beantworten

Wenn bei jedem Wort das Wort und eine 1 abgelegt wird (anstatt einen Zähler zu inkrementieren), könnte man sich doch die 1 sparen, oder? (nicht signierter Beitrag von 79.213.236.85 (Diskussion | Beiträge) 15:01, 24. Jan. 2010 (CET)) Beantworten

Nein, da bei verketteten Vorgängen, und das ist es spätestens im nächsten Schritt, nicht mehr eine 1 dasteht, sondern die Ergebnisse von Reduziervorgängen, also z.B. eine 5... Generell sollten diese Vorgänge imemr austauschbar sein. --Bitsandbytes 16:47, 24. Jan. 2010 (CET)Beantworten

Eigentlich gibt es keine T_wort-Listen, so dass die (wort, 1)-Paare unsortiert im Speicher jedes Map-Prozesses stehen. Daher braucht man auch aus diesem Grund die 1en. Am Ende des Map-Prozesses kann man sogenannte Combiner benutzen, um vorweg zusammenzufassen. Ich habe jetzt die angesprochenen offensichtlichen Fehler und Unklarheiten korrigiert (verifiziert mit Hadoop-Ausgabe: hadoop/bin/hadoop jar hadoop/examples.jar wordcount Das_Lied_von_der_Glocke-Anfang.txt Ausgabe_ohne_Normalisierung/), trotzdem ist der beschriebene Ablauf noch irreführend. Beispielsweise gibt es keinen Lockstep, keine einzelnen Zwischenergebnis-Listen, die erste Unterteilung in Sätze ist unrealistisch, die Normalisierung würde der Map-Prozess mit erledigen, ... 132.231.64.78 23:30, 3. Mai 2011 (CEST)Beantworten

Das Beispiel entspricht keiner gängigen Pseudocode Notation.. Vielleicht wäre es sinnvoll, nicht nur ein Pseudocode-Beispiel sondern auch ein sehr simples 'echtes' anzubieten. --185.67.228.2 11:27, 24. Jul. 2017 (CEST)Beantworten

Andere Anwendungsgebiete Bearbeiten

Letzter Kommentar: vor 13 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Bei MapReduce wird hier nur von der Häufigkeitsanalyse gesprochen. Gibt es noch andere Anwendungsgebiete, in denen es nicht alleine um das suchen der Häufigkeiten geht? Kann man MapReduce z.B. auch andere, nicht-textuelle Daten anwenden? Zum Beispiel auf Sequenzen, die sich schwer in "Worte" teilen lassen? Ich denke dabei an Signale (Schwingungen) in denen man Muster erkennen will. Oder mehrdimensionale Daten wie Bilder? --Stueckseln 15:11, 11. Sep. 2010 (CEST)Beantworten

schwer zu verstehen Bearbeiten

Letzter Kommentar: vor 8 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Ich bin Informatiker, aber ich verstehe es nicht. Zu viel Detail, zu wenig Überblick.
JMS (Diskussion) 20:56, 10. Mai 2012 (CEST)Beantworten

Ich finde auch, dass man hier mehr Überblick schaffen und klarere Formulierungen verwenden sollte. Ich glaube aber auch, dass sich die hohe Abstraktion des Algorithmus und der Begriffe "Map" und "Reduce" negativ auf die Verständlichkeit auswirkt. --79.226.156.87 18:36, 29. Aug. 2012 (CEST)Beantworten

Während es viel Arbeit macht, den Artikel auch nur ins Deutsche zu übersetzen, ist er fachlich wertfrei. Welche Problemklassen können bearbeitet werden? (TSP z.B. nicht) Wo ist der Vorteil gegenüber anderen Verfahren? Wie gross sind die Kosten für Datentransport? Wie skaliert er mit Knotenzahl und Problemgrösse? Bis auf das Beispiel ist hier Rätselraten angesagt. Und das Beispiel könnte handlicher sein. Fahnder99 (Diskussion) 09:54, 7. Jun. 2015 (CEST)Beantworten

Vorteile gehört überarbeitet Bearbeiten

Letzter Kommentar: vor 6 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Momentan steht im Abschnitt "Vorteile" folgendes:

"Die MapReduce-Formulierung hat den Vorteil, dass sich mit den zwei Phasen in natürlicher Weise jeweils eine Parallelisierungsmöglichkeit ergibt, welche man mit einem Cluster für eine beschleunigte Berechnung verwenden kann. Bei sehr großen Datenmengen ist die Parallelisierung unter Umständen bereits erforderlich, weil die Datenmengen für einen einzelnen Prozess (und das ausführende Rechnersystem) zu groß sind."

Folgendes stört mich daran, bzw. folgende Fragen werfe ich auf:

Dabei fehlt mir erst einmal eine Referenz mit was genau verglichen wird. Mit sequenziellen Vorgängen? Mit parallelen aber stellenweise synchronisierten Vorgängen? Mit anderen Algorithmen für parallele Datenverarbeitung?
Dann ergibt sich angeblich "eine Parallelisierungsmöglichkeit" und das gleich "in natürlicher Weise".
1. Ergibt sich die "Parallelisierungsmöglichkeit" nur bei MapReduce?
2. Wie ergibt sie sich genau?
3. Warum in natürlicherweise? Was ist das überhaupt?
Wenn die Parallelisierung bei großen Datenmengen erforderlich ist, was genau ist daran MapReduce spezifisch?

Kritik an der Einleitung Bearbeiten

Für ein Lexikon ist es in der Einleitung eines Artikels essentiell, erst einmal Klarheit über den zu erklärenden Begriff zu schaffen. Und das wäre hier in diesem Falle eine Übersetzung ins Deutsche: Welche Bedeutung hat „map“ und „reduce“ im Zusammenhang mit der Technologie von MapReduce? Kann das jemand mal erklären und einen Zusammenhang schaffen für alle Artikelleser? Danach käme der Schritt, den der Diskutant weiter unten in diesem Abschnitt erwähnt -> --217.95.204.25 11:37, 19. Mai 2017 (CEST)Beantworten

Beim Schreiben dieser Zeilen ist mir aufgefallen das auch nicht klar differenziert wird, was MapReduce genau ist. Ich habe es jetzt als Algorithmus betrachtet. In der Einleitung steht aber, dass es ein Framework ist. Davon gibt es aber Implementierungen in verschiedenen Programmiersprachen!?

Vergleich zur englischsprachigen Wikipedia (Einleitung):

"MapReduce is a programming model for processing large data sets, and the name of an implementation of the model by Google. MapReduce is typically used to do distributed computing on clusters of computers.[1] The model is inspired by the map and reduce functions commonly used in functional programming,[2] although their purpose in the MapReduce framework is not the same as their original forms.[3] MapReduce libraries have been written in many programming languages. A popular free implementation is Apache Hadoop."

Wenn ich das richtig verstehe ist es einerseits ein Modell + Algorithmus und gleichzeitig gibt es eine gleichnamige Implementierung von Google. Nach meinem Verständnis sollte nur letztere als Framework bezeichnet werden. --79.226.156.87 19:04, 29. Aug. 2012 (CEST)Beantworten

Neues Beispielbild Bearbeiten

Letzter Kommentar: vor 10 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich finde das aktuelle Bild und das Beispiel ein wenig verwirrend und habe deswegen für eine Einführung in MR das folgende Bild entworfen.

Man könnte nun noch überlegen den entsprechenden Text des Beispiels so umzuschreiben, dass er besser auf das Bild passt. Kommentare und Feedlback willkommen. --Grundprinzip (Diskussion) 15:03, 27. Jun. 2013 (CEST)Beantworten

Definition der Map- und Reduce-Funktionen Bearbeiten

Letzter Kommentar: vor 10 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Die Definitionen der Map- und Reduce-Funktion sind sehr merkwürdig und meiner Ansicht nach nicht passend zu der Definition der MapReduce-Funktion darüber. Woher kommt das X bei der Reduce-Funktion, dazu fehlt die Beschreibung. Wie kann es sein, dass die MapReduce-Funktion nach L x W abbildet die Reduce aber nach X. Verkettet man Map und Reduce und lässt das Framework den jeweiligen Schlüssel dazu bringen kommt man auf L x X. Wenn ich mich nicht irre sollte das X ein W sein, wenn man sich auf das Original Paper von Google "MapReduce: Simpliﬁed Data Processing on Large Clusters" bezieht: "Furthermore, the intermediate keys and values are from the same do- main as the output keys and values." Außerdem ist oben definiert, dass die w_j aus W sind. Da auch die Quelle fehlt für die Definitionen, kann ich das ganze nicht nachvollziehen, und vermute daher, dass es so wie es jetzt ist, falsch oder zumindest unvollständig ist. (nicht signierter Beitrag von JJ-Author (Diskussion | Beiträge) 15:58, 16. Feb. 2014 (CET))Beantworten

Fehler in reduce Bearbeiten

Letzter Kommentar: vor 9 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Kann es sein, dass im Codebeispiel zu reduce anstelle von result++ eigentlich result+=v gemeint ist ? Apropos: sollte man beim Missbrauch von C ähnlichen Sprachen als Pseudocode nicht besser auf sprachspezifische Spezialoperatoren verzichten und so was wie result=result+v schreiben, damit es mehr nicht-Nerds verstehen ? --89.13.190.249 01:06, 28. Aug. 2014 (CEST)Beantworten

Für das spezielle Beispiel macht dies keinen Unterschied da die Werte von v stets 1 sind (es sei denn man verwendet einen Combiner, von dem in diesem Beispiel aber keine Rede ist) --JJ-Author (Diskussion) 12:56, 15. Mär. 2015 (CET)Beantworten

Diskussion: Software Bearbeiten

Hier sollten die Reactive Extensions ergänzt werden, welche für fast jede Programmiersprache eine Implementierung des MapReduce bieten. Ich bin mir allerdings nicht sicher, in wie weit das mit dem Original MapReduce übereinstimmt.

Literatur Bearbeiten

Letzter Kommentar: vor 6 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Sollte wie üblich mit dem Zeitschrift, Band, Jahr, Seite zitiert werden und nicht irgendwelche Orte, wo sie Online herunterladbar sind (bei der Originalarbeit habe ich das ausgebessert, ist aber auch an anderen Stellen).--Claude J (Diskussion) 07:35, 9. Jul. 2017 (CEST)Beantworten

Es muss W* statt X* heißen, oder? Bearbeiten

Hallo,

kann es sein, dass es im Abschnitt "Definition der Map- und Reduce-Funktion" in der Definition von "Reduce" in Wahrheit "W*" statt "X*" heißen muss? X wurde vorher nicht eingeführt, und im Text danach steht, dass die x_i den gleichen Typ haben wie die w_j.

Abschnitt hinzufügen