Wikipedia Diskussion:WikiProjekt Vorlagenauswertung/Archiv/2008

Neuer Dump

Letzter Kommentar: vor 16 Jahren5 Kommentare3 Personen sind an der Diskussion beteiligt

Es gibt wieder einen neuen Dump der deutschsprachigen Wikipedia. Ich weiß nicht, wie aufwändig eine neue Auswertung ist. Es wäre aber schön, eine Aktualisierung zu erhalten. Ich habe alle falschen Parameter der Vorlage Taxobox korrigiert und möchte dies nun mit der neuen Auswertung volenden. Vielen Dank für Eure Arbeit! Andim 20:11, 23. Jan. 2008 (CET)

Besten Dank für die Info. Ich muss mal schauen was sich da auf die Schnelle machen lässt. -- sk 23:05, 26. Jan. 2008 (CET)

Der neue de-Dump vom 21.01.2008 ist jetzt eingespielt. Es gab einen Anstieg von 3.7 auf 5.2 Mio. Parameter. --Kolossos 22:58, 4. Feb. 2008 (CET)

Vielen Dank, Andim 23:11, 4. Feb. 2008 (CET)

Das Wachstum war doch nicht so heftig, es ging nur von 5.2 auf 5.6 Mio Parameter. Da habe ich durch die DB-Server Umstellung etwas falsch gekuckt. --Kolossos 19:26, 6. Feb. 2008 (CET)

Fragen/Probleme zum neuen Dump (21.01.08)

Letzter Kommentar: vor 16 Jahren6 Kommentare3 Personen sind an der Diskussion beteiligt

ist es möglich die hier am anfang stehen den mit # beginnen zugänglich zu machen? Gab es bei früheren Datenbeständen nicht auch Seiten mit ifs oder wurden die abgearbeitet? Denn die Parserfunktion sollten ja nicht direkt im Artikelnamensraum auftauchen, da sie nur zur Vorlagenprogrammierung dienen sollten. Eine weitere Vorlage mit raute ist hier. Es scheint auch probleme mit den spitzen Klammern zu geben, siehe diesen aufruf: (siehe Quelltext) . Wie kommen die Einträge in error zustande? Die Vorlage Gutenberg Name erzeugt zwei einträge, da sie einmal mit einem Leerzeichen und einmal mit zwei Leerzeichen geschrieben wurde. MediaWiki interpretiert dies als eine Vorlage, wäre es möglich diese zusammenzufassen? Das gleiche ergibt sich mit und ohne Unterstrich als Leerzeichen oder den Anfangsgroß- und -kleinbuchstaben. Beispiele in nowiki sollten auch nicht auftauchen, siehe hier. Wie sieht es mit Vorlagen in Parametern aus? Diese werden anscheind nicht mit ausgewertet. Es sind viele Fragen und Anregungen. Über antworten würde ich mich freuen. Ich hoffe es ist teilweise technisch umsetzbar und der Aufwand lohnt sich dafür. Vielen Dank. Der Umherirrende 14:44, 5. Feb. 2008 (CET)

Die "#if..." habe ich bewußt rausgeworfen, ich dachte nicht, dass das einen Sinn haben könnte. Bei dem #-Route ist in der URL-Auswertung Schluß, da das wohl als HTML-Anker gedeutet wird, da muß ich mal schauen.

Zu den Error-Einträgen müßte sich Stefan mal äußern. Die 5 Gutenbergs mit 2 Leerzeichen sollten auf ein Leerzeichen korrigiert werden, da mir da das Mediawiki echt zu tolerant erscheint. Die Underlines sollten wir beim nächsten Dump im Gegenzug in Leerzeichen umwandeln. Bei den Anfangsgroß- und -kleinbuchstaben weiß ich noch nicht genau. Vorlagen in Parametern stehen auch bei mir ganz oben in der Wunschliste, schon weil wir Koordinatenvorlagen in den Infoboxen haben. Das Extraskript wird durch die rekursive Arbeitsweise aber ggf. auch langsamer und fehleranfälliger, das ist auf jedenfall eine komplexere Umstellung. --Kolossos 15:38, 5. Feb. 2008 (CET)

Ich fände es schon sinnvoll die "#if.."s zugänglich zu machen, um mal zu schauen was sich so im Artikel befindet. Ist es möglich auf einer (Unter-)Seite die Artikel zu nennen? Oder kann man ein skript über die datenbank laufen lassen, welches einfach alle Rauten entfernt, danach kann man die Seiten unter "if" wiederfinden. Machbar? Der Umherirrende 00:12, 12. Feb. 2008 (CET)

Das Entfernen der Rauten ist keine schlechte Idee, beim nächten Einspielen kommen die If's wieder rein, versprochen. --Kolossos 08:59, 12. Feb. 2008 (CET)

Schön, dass ihr weiterhin so fleißig bei der Arbeit seid. Noch eine Frage von mir: Ich hatte versucht die Namen von Vorlagen aus meiner lokalen Installation zu ermitteln. Die basiert auf einem älteren Dump von April 2007. Vorgagangen bin ich wie folgt: Sobald die beiden Zeichen "{{" im Text gefunden wurden, wurden anhand des Artikelnamens aus eurem Datndump die Namen der Vorlagen ermittelt. Allerdings habe ich so nur rund 20% der tatsächlich in dem jeweiligen Artikel vorhandenen Vorlagen gefunden. Kann das mit den verschieden alten Dumps zusammenhängen? Maziminke 00:44, 7. Feb. 2008 (CET)

Die Ursache liegt vielleicht darin, dass wir nur Vorlagen mit wenigstens einem Parameter auslesen. Also muss nach dem "{{" wenigstens ein "|" kommen. Für alle anderen Vorlagen steht ja alles in der Mediawiki-DB, da müssen wir nix auslesen. Seit April 2007 hat die Vorlagenverwendung ganz schön zu gelegt, vielleicht um 50%, die von dir angesprochenen 20% erklären sich damit aber wohl nicht. Beantwortet das deine Frage? --Kolossos 09:03, 7. Feb. 2008 (CET)

Fehlende Vorlage?

Letzter Kommentar: vor 16 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo, beim Durchsuchen der Liste der erfassten Vorlagen fehlte mir eine: Die Vorlage:Portal-head2 taucht weder hier noch hier (Vorlagen mit kleinem p) auf. Dabei könnten mir die Daten momentan echt weiterhelfen. Woran mag das Nichtvorhandensein liegen? Grüße, --CyRoXX ^(? ±) 14:52, 2. Mär. 2008 (CET)

Hmm! Wenn ich das richtig sehe, dann wird die Vorlage nur auf Portal-Seiten benutzt. Wenn ich mich richtig erinnere lese ich nur Artikel-Seiten aus. Das heißt alles was mit "Bild:", "Diskussion:" oder eben "Portal:" anfängt wird nicht mit eingelesen. Der Grund dafür ist die Möglichkeit, dass auf solchen Seiten viel mehr Vorlagen-Müll zu finden ist, als wirklich mit Informationen versehene Vorlagen. Da ja dort auch sehr häufig erläutert wird wie so eine Vorlage aufgebaut werden und einzelne Code-Schnipsel im Text zu finden sind, die nicht sauber als solches vom Rest zu trennen sind, müsste ich viel Mühe in das Abfangen von Fehlern aufwenden. --sk 15:07, 2. Mär. 2008 (CET)

Zeitpunkt neuer Dumps

Letzter Kommentar: vor 16 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo! Gibt es eine Möglichkeit zu erfahren, wann ein neuer Dump vorliegt, und wann kann man auf diesen zugreifen?. Grüße --cwbm 01:17, 3. Mär. 2008 (CET)

Ich habe gerade geupdated. Wenn du dir Wikipedia:WikiProjekt Vorlagenauswertung/news auf die Beobachtungsliste setzt, kannst du immer auf dem aktuellen Stand bleiben. --Kolossos 22:41, 3. Mär. 2008 (CET) P:S: Bitte verlinke deine Unterschrift zu deiner Benutzerseiten, das vereinfacht die Kommunikation. --Kolossos 22:43, 3. Mär. 2008 (CET)

Super, danke!--cwbm 22:46, 3. Mär. 2008 (CET)

Unter http://download.wikipedia.org/dewiki/20080320/ gibt es wieder einen neuen Dump. Andim 02:46, 22. Mär. 2008 (CET)

For English WP: http://download.wikimedia.org/enwiki/20080312/ -- User:Docu

Unter http://download.wikipedia.org/dewiki/20080422/ gibt es wieder einen Dump der deutschsprachigen Wikipedia. Andim 22:50, 23. Apr. 2008 (CEST)

Interwiki-Commons-Auswertung

Letzter Kommentar: vor 16 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Auf der Frontseite heißt es so schön: „Ein Vergleich der Nutzung zweier gleicher Vorlagen in verschiedenen Sprachen über die Interwikilinks wäre sicher auch spannend.“ Allerdings! :-)

Es ist manchmal schwierig, auf Commons die richtige Seite/Kategorie zu einem Artikel zu finden – und bei dem Nichtfund noch viel schwieriger sich sicher zu sein, dass man nichts übersehen hat. Eine Arbeitserleichterung wäre da eine Liste aller Artikel in dewp, die keine Vorlage der Commons…-Familie enthalten, aber einen Interwikilink aufweisen, der wiederum eine Commons…-Vorlage verwendet.

Die Auswertung könnte man sicherlich auf den bestehenden Tabellen fahren, von der Performanceseite wäre es allerdings wahrscheinlich besser, bei dem Einlesen des Dumps bei jedem Artikel ein zusätzliches Attribut „Verweist auf Commons“ zu speichern und dann daraus die Liste zu erstellen. --Tim Landscheidt 13:06, 23. Mai 2008 (CEST)

Ich dachte, in die Richtung geht schon FIST, was du dir als Gadget vom Toolserver einbinden kannst. Allerdings wäre http://tools.wikimedia.de/~kolossos/templatetiger/tt-table4.php?template=Commons&lang=de&where=&is= sicherlich auch interessant mit der engl. Version zu vergleichen. Die Datenbanktabellen samt der IWL-Tabellen sind für jeden mit Toolserver-Account zugänglich. Und sicherlich nicht allzu schwierig umzusetzen. Momentan fehlt mir etwas die Zeit, prinzipiell würde ich aber gerne eine bessere Commonseinbindung unterstützen. --Kolossos 15:04, 23. Mai 2008 (CEST)

Ja, aber bei FIST muss ich jeden Artikel ohne Commons…-Vorlage aufrufen, das FIST-Gadget anklicken und überprüfen, ob Medien auf Commons vorhanden sind. Das möchte ich ja gerade automatisieren! :-) Und zwar genau so, wie Du es vorschlägst: Die Liste der deutschen Commons/Commonscat-(Nicht-)Einbindungen mit denen der entsprechenden Interwikis abgleichen. Leider ist mein Toolserver-Account noch in der Warteschleife, und über den Query Service eine solche Abfrage zusammen zu basteln macht keinen Spaß. --Tim Landscheidt 15:23, 23. Mai 2008 (CEST)

Frage zu komplizierter Kombination von Vorlagenwerten

Letzter Kommentar: vor 16 Jahren10 Kommentare3 Personen sind an der Diskussion beteiligt

Hallo zusammen, ich brauche eine Kombination von Daten, die ich hoffe aus den Vorlagendaten extrahieren zu können. Zunächst bräuchte ich eine Liste der am häufigsten gesprochenen Sprachen. Es müsste doch zu jedem Land die offizielle Landessprache sowie die Einwohnerzahl zu ermitteln sein, oder? Weiterhin bräuchte ich zu jedem Land die Anzahl der vorhandenen Internetanschlüsse, sofern diese Daten überhaupt innerhalb der Wikipedia verfügbar sind?! Die Daten würde ich mir gerne kombinieren, so dass ich eine Liste habe, die die Anzahl der Internetanschlüsse je Sprache enthält. Die Daten müssen nicht 100%ig genau und vollständig sein. Geht das irgendwie? Mir würden natürlich auch die Teildaten genügen, so dass ich mir das selbst zusammen stellen kann. Maziminke 01:30, 22. Mai 2008 (CEST)

Sprachen und Einwohnerzahlen sollten mit Vorlage:Infobox Staat (AMTSSPRACHE, EINWOHNER) zu machen sein. Für Internetanschlüsse seh' ich in der WP eher schwarz. Die gibt's dort nicht und Liste der Internetanschlüsse auch nicht. Hier etwas für A (via Google gefunden). Ansonsten bleibt dir wohl nur der (steinige) Weg zu Statistischen Zentralämtern, Ministerien oder sonstigen Einrichtungen die sich mit Statistiken befassen, von denen ich dir aber jetzt keine nennen könnte. --Geri ✉, 05:21, 22. Mai 2008 (CEST)

Danke für die Info, das hilft mir schon ein wenig weiter. Da die Anzahl der Internetanschlüsse wohl kaum zu ermitteln ist, kämen alternativ auch andere Parameter in Frage, die ebenfalls in der Formatvorlage Staat vorhanden sind wie Bruttosozialprodukt/Kopf oder Human Development Index. Leider sind diese Parameter optional. Gibt es da Erfahrungswerte, bei wie vielen der Länder einer oder beide Parameter vorhanden sind oder kann man das irgendwie abfragen? Vielen Dank für die Hilfe! Maziminke 04:35, 23. Mai 2008 (CEST)

Was wir nicht wissen, weiß noch nur die CIA.;-) Über Internetanschluss kam ich auf the world fact-book dort steht wieviele Internet-users es in Algerien, etc. gibt. So dynamisch wachsende Zahlen sind wohl auch nix für die Wikipedia. Ansonsten kannst du auch dir die neuen [http://stats.grok.se/de/200802/Beispiel Zugriffsstatistiken ranziehen, davon gibt es auch Dumps die auf eine Auswertung warten. --Kolossos 07:39, 23. Mai 2008 (CEST)

Hallo Kolossos, das könnte ich als weitere Quelle heranziehen. Ist es denn mit eurer schönen Vorlagenauswertung möglich, zu jedem Land die Sprache sowie das BIP/Kopf und/oder den Human Development Index zu bestimmen? Wie ist da so die Datendichte?Maziminke 15:39, 23. Mai 2008 (CEST)

Da mußt du echt mal selber schauen, keine Ahnung. --Kolossos 15:45, 23. Mai 2008 (CEST)

Ich habe mal ein bisschen herumgespielt und bin schon zu ersten Ergebnissen gekommen, siehe Beispielabfrage. Eine letzte Frage hätte ich noch: Wie kann ich nach BIP/Kopf filtern, so dass nur Einträge mit BIP/Kopf > 1000 angezeigt werden? Das müsste doch auch irgendwie funktionieren? Ich finde aber nur Filterfunktionen mit Spaltenname = xyz und nichts mit Spaltenname > zyx!? Maziminke 11:39, 25. Mai 2008 (CEST)

Die Abfrage sieht schon mal gut aus. Mathematische Vergleiche sind sehr schwierig, da in den Feldern auch noch Text drinnen steht: Mio., Mrd., Währung (vor oder hinter der Zahl), (Stand von ...), (sonstige Anmerkungen), etc.

Da müßte man über eine komplizierte Kombination von DB-Funktionen, oder über eine selbst geschriebene gespeichterte Funktion, erst die richtige Zahl herausfiltern, und die dann für den Vergleich verwenden. Ein sehr, sehr großer Aufwand, da man alle möglichen Fälle von Zahl/Text-Kombinationen + die Multiplikatoren (Tsd., Mio., Mrd.) berücksichtigen müsste. Ganz abgesehen davon, dass z.B. bei Österreich dort mehrere Werte drin stehen. --Geri ✉, 17:24, 25. Mai 2008 (CEST)

Ich würde auch vorschlagen, dass du dir das in eine Tabellenkalkulation kopierst und da dann alles weitere treibst was wirklich recht spezifisch ist. --Kolossos 22:55, 25. Mai 2008 (CEST)

Tabellenkalkulation wird wohl die beste Möglichkeit sein. Besten Dank für eure Hilfe und Vorschläge. Maziminke 23:07, 25. Mai 2008 (CEST)

Filter auf leeren Parameter

Letzter Kommentar: vor 15 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Kann man auf einen leeren Parameter filtern? &where=field&is=^$ führte leider nicht zu dem gewünschten Ergebnis. Tim Landscheidt 00:12, 14. Apr. 2008 (CEST)

Aufgrund des Datenbankaufbaus ist das wohl nicht ganz einfach, da eine Vorlage über mehrere Datensätze verteilt ist. Leere oder nicht vorhandene Parameter werden demnach nicht unbedingt in der Datenbank gespeichert. Ggf. könnte man über den Trick: "zeige mir alle Artikel minus die die einen Parameter haben an" zu einer Lösung kommen. Allerdings fehlt mir zur Umsetzung momentan die Zeit, zumal das die Performance killen könnte. --Kolossos 08:33, 14. Apr. 2008 (CEST)

Nein, der Parameter ist schon vorhanden, aber leer. Sonst (bei „nicht vorhandenem Parameter“) könnte ich ja den Weg über „Parameter“ → „without“ gehen, der funktioniert. Leider sind meine MySQL-RegExp-Kenntnisse zu sehr eingerostet, als dass ich jetzt aus der Ferne sagen könnte, was man an LIKE '%{{{is}}}%' ändern müsste. Hmmm. Tim Landscheidt 08:53, 14. Apr. 2008 (CEST)

Da fiel es ihm wie Schuppen von den Augen: Ein &where=field&is=^$&regexp=yes tut, was es soll. Das Leerzeichen an dem Dateiende bei CSV-Ausgaben, was ich weiter oben bemängelt hatte, ist allerdings noch da … :-) --Tim Landscheidt 23:09, 5. Jul. 2008 (CEST)

Abschließendes Leerzeichen in CSV-Ausgabe

Letzter Kommentar: vor 15 Jahren6 Kommentare2 Personen sind an der Diskussion beteiligt

(BTW: Wunderbares Tool, danke!) Ich habe festgestellt, dass an jede CSV-Datei ein einzelnes Leerzeichen angehängt wird – könnte man das entfernen? Es stört sehr in der weiteren Verarbeitung. Tim Landscheidt 01:39, 9. Apr. 2008 (CEST)

Dieses einzelne Leerzeichen kann man auch in dem Quelltext als   an dem Dateiende „sehen“. Und es wäre wie gesagt schön, wenn es jemand entfernen könnte … --Tim Landscheidt 08:54, 13. Jul. 2008 (CEST)

Ich steh da gerade auf dem Schlauch. Wo hast du das im Quelltext genau gefunden? Eigentlich müßte es ja im folgenden Bereich stehen:

if ($format=="csv")
{

echo "article    ";
 foreach($bezeichner as $valuename){
      echo $valuename.'    ';
    } 
echo "\n";
 
 foreach($namen as $name){
         echo "$name    ";

    foreach($bezeichner as $valuename){
     if ($ausgabe [$name][$valuename]=="")
     {echo '    ';} else
     {echo $ausgabe [$name][$valuename]."    ";}
    }
    echo "\n";
  }
}

Sorry, das deine Anfrage im April wohl verschütt gegangen war. Wenn ich die Stelle fände, würde ich dir gerne helfen. Vielleicht wäre auch "\t", also das Tabulatorzeichen, das bessere Trennzeichen. --Kolossos 11:47, 13. Jul. 2008 (CEST)

Kein Problem; es geht um das Dateiende der PHP-Datei. Dort scheint mir nach dem ?> ein Leerzeichen zu stehen, denn der „schön formatierte“ Quelltext lautet an dieser Stelle in seinem HTML-Quelltext  ?> . Dieses Leerzeichen wird dann unverändert nach der CSV-Ausgabe ausgegeben.

Die MediaWiki-Quellen umgehen solche und ähnliche Probleme übrigens, indem sie normalerweise ohne Schließen der „<?php“-Struktur aufhören; das sieht zwar nicht sonderlich sauber aus, man muss sich aber dadurch auch keine Gedanken machen, wenn der Editor beispielsweise gerne automatisch einen Zeilenvorschub als letztes Zeichen einer Datei anhängt.

Deine Frage wegen des Trennzeichens verstehe ich nicht; momentan sind die Felder doch per Tabulatoren getrennt? --Tim Landscheidt 12:25, 13. Jul. 2008 (CEST)

Done. Mit dem Tabulator hast du natürlich auch recht. --Kolossos 12:35, 13. Jul. 2008 (CEST)

Besten Dank. --Tim Landscheidt 10:46, 14. Jul. 2008 (CEST)

TigerGui RegExp

Letzter Kommentar: vor 15 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

hallo, ich hab probleme mit der: ich hab eine RegExp mit http://regexp-evaluator.de/evaluator/ getestet, aber dort klappt sie nicht - hat die Gui da eine macke, oder gibt es noch irgendwelche sonderregeln zu beachten? gruß --W!B: 13:04, 27. Aug. 2008 (CEST)

Was die von dir angegebene Webseite macht, weiß ich nicht. Wir geben die RegExp einfach nur an MYSQL weiter. --Kolossos 13:54, 27. Aug. 2008 (CEST)

wir haben bei Vorlage:Internetquelle diskutiert, ob TemplateTiger eine nachkontrolle machen kann, ob die datumsangaben in den zitier-vorlagen korrekt sind (geht um en:WP-importdaten)

zuletzt hab ich eine RegExp angegeben, kurzfassung:

^[1-9]{1,2}\.{1}(\s| ){1}.*$ - ein oder zwei Zahlen, ein Punkt, ein space oder nbsp

sollte mal die meisten en-daten ausfiltern

geb ich das aber in der TigerGui ein

Vorlage =Internetquelle

Suchfeld =datum

in Übereinstimmung mit =obiges

regex=yes

gibt aber kein treffer [1], und mit

not=yes

sollte eigentlich kein datum dieser form erscheinen: tuts aber [2] - was mach ich falsch?

übrigens hab ich auch obeiges

in Übereinstimmung mit =^$ … für leereinträge

probiert, aber da kommt auch kein ergebnis [3] --W!B: 15:14, 27. Aug. 2008 (CEST)

Ich kenne zwar die TigerGui nicht, hatte aber ein ähnliches Problem mit \d aus den XML-Vorlagenbeschreibungen, das in JavaScript (und den meisten modernen Sprachen) als Ziffer gewertet wird, aber von MySQL nicht unterstützt wird. Wenn man \d (und auch die merkwürdige, aber in JavaScript zulässige Schreibweise [\d]) durch [0-9] ersetzte, lösten sich die Probleme aber in Luft auf. Vielleicht versuchst Du einmal, in Deinem regulären Ausdruck das \s, das auf Leerzeichen & Co. passen sollte, durch ein Leerzeichen (und gegebenenfalls einen Tabulator und dergleichen) zu ersetzen. --Tim Landscheidt 12:51, 22. Sep. 2008 (CEST)

Kontinuierlicher Import?

Letzter Kommentar: vor 15 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Da der letzte Datenbankdump ja schon etwas länger her ist und dessen Regelmäßigkeit sowieso problematisch ist: Habt Ihr schon einmal über einen (quasi) kontinuierlichen Import nachgedacht? I. e., jeden Tag/jede Woche die Artikel, die an dem Vortag/in der Vorwoche geändert wurden, neu zu importieren? --Tim Landscheidt 12:54, 22. Sep. 2008 (CEST)

Wie du hier sehen kannst gibt es derzeit keine aktuellen Dumps. Deshalb ist das mit der Auswertung nicht kontinuierlich möglich, da die Skripte auf dem Dump aufbauen. Außerdem wurde durch die Umstellung des Toolservers die Filterung der englischen Wikipedia derzeit unmöglich gemacht. Das Skript hat nicht genug Speicher zur Verfügung und bricht ab. Hier will ich mein Skript umschreiben, aber das hat auf meiner To-Do-Liste nicht die höchste Priorität. Wenn neue Dumps verfügbar sind, spielen wir die eigentlich auch immer Zeitnah ein. -- sk 22:13, 22. Sep. 2008 (CEST)

Ja, das meinte ich ja mit dem „länger her“: Es werden derzeit (und wohl noch mindestens eine Woche) keine Dumps produziert; und da das ein regelmäßiges Problem ist, die Frage, ob man nicht auf ein anderes, kontinuierliches Importverfahren umstellen könnte, bei dem nicht ein kompletter Dump importiert wird, sondern nur die Artikel, die an dem Vortag/in der Vorwoche geändert wurden (recentchanges), neu aus der Live-Wikipedia eingelesen werden. --Tim Landscheidt 23:19, 22. Sep. 2008 (CEST)

Vorlagen als Parameter werden gesplittet

Letzter Kommentar: vor 15 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Wenn ein Parameter eine Vorlage ist, wird der Wert gesplittet und aus dem }} ein neuer (namenloser) Parameter, Beispiel: Histidin und Vorlage:Infobox Chemikalie. --Tim Landscheidt 12:58, 22. Sep. 2008 (CEST)

Naja es sind nicht alle Vorlagen, sondern solche mit Pipe, z.B: {{R-Sätze|-}} . Daran sollten wir aber auch arbeiten. --Kolossos 21:21, 22. Sep. 2008 (CEST)

Die Auswertung der einfachen Vorlagen ist in Planung. -- sk 22:10, 22. Sep. 2008 (CEST)

Index der numerischen Parameter

Letzter Kommentar: vor 15 Jahren5 Kommentare3 Personen sind an der Diskussion beteiligt

Es würde mehr sinn machen, wenn die Indexierung der numerischen Parameter innerhalb der Vorlagenauswertung bei 1 beginnt, da auch MediaWiki bei eins beginnt und somit auf jeden Fall das gleiche gemeint ist, gerade bei mehreren numerischen Parameter kann man leicht durcheinander kommen. Es sollte nicht nur die anzeige manipuliert werden, da dann die Abfragen erschwert zu erstellen sind, die Bezug auf die Parameter nehmen, daher muss es schon innerhalb der Datenbank Veränderungen geben. funktioniert jetzt/sollte nachher funktionieren. Vielen Dank. 80.143.71.71 20:21, 18. Aug. 2008 (CEST)

Nachtrag: Wie werden eigentlich die expliziten Angaben gehändelt? Wird ein 1= auch dem Index 0 zugeordnet oder dem Index 1? Dies müsste ja dann auch entsprechend bei einer umstellung berücksichtigt werden. 80.143.71.71 21:15, 18. Aug. 2008 (CEST)

Da bin ich jetzt auch darüber gestolpert; das ist momentan äußerst ungünstig. IMHO ist es essentiell, dass beispielsweise {{Commonscat|A|B}} zu demselben Datenbankeintrag führt wie {{Commonscat|1=A|2=B}}. Gleichermaßen sollte berücksichtigt werden, dass bei {{Literatur|Titel=A|B}} der Parameter, der den Wert B enthält, den Namen 1 (und nicht 2 wie derzeit) erhält. Andernfalls ist die Auswertung unnötig schwierig. --Tim Landscheidt 12:45, 22. Sep. 2008 (CEST)

Halte dies auch für einen wichtigen Punkt. Wie wird das derzeit gehandhabt? Eine Erklärung wäre sehr angebracht. Andernfalls machen die Daten wenig sinn, wenn man so 'verfälschte Daten' bekommt. Der Umherirrende 20:55, 21. Okt. 2008 (CEST)

da ein neues script von nötigen ist (siehe Benutzer Diskussion:Stefan Kühn#Wikipedia:WikiProjekt Vorlagenauswertung), sollte es auf jeden Fall eine solche Unterstützung liefern (scheint ja jetzt noch nicht gegeben). Der Umherirrende 22:15, 22. Okt. 2008 (CEST)

Neuer Dump

Letzter Kommentar: vor 15 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Es gibt nach längerer Pause wieder einen neuen Dump. Eine neue Auswertung ist nach der langen Zeit sehr sinnvoll. Vielen Dank! Andim 22:51, 12. Okt. 2008 (CEST)

Für die deutschsprachige Wikipedia wurde die Auswertung angestoßen: Benutzer Diskussion:Stefan Kühn#Wikipedia:WikiProjekt Vorlagenauswertung, für die englische wird es nichts. Der Umherirrende 21:33, 22. Okt. 2008 (CEST)

For en, there is a version of "2008-10-13 10:50:32 done Articles, templates, image descriptions, and primary meta-pages.". -- User:Docu

The dump is too big, the script failed (unclear data). --Der Umherirrende 21:33, 22. Okt. 2008 (CEST)

Prüfung gegen Tests des Vorlagenmeisters/Datenbankindizes

Letzter Kommentar: vor 15 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Ich habe ein kleines Tool geschrieben, das die Daten aus der Vorlagenauswertung gegen die jeweiligen XML-Beschreibungen für den Vorlagenmeister (beispielsweise Vorlage:Literatur/XML prüft. Wer Lust hat, kann ja einmal ein wenig damit herumspielen.

Dabei fiel mir auf, dass pub_tt1_de keinen einzigen Index aufweist – und deshalb schnarchlangsam ist :-). Das wirkt sich wahrscheinlich auch noch auf andere Tools auf, die auf die Tabelle zugreifen. Als erste Hilfe wäre ein Index auf (lang, tp_name, entry_name) sicher nicht verkehrt :-). --Tim Landscheidt 14:29, 16. Nov. 2008 (CET)

pub_tt1_de hat Indiexes. Du schaust in der DB u_kolossos_p_yarrow einfach auf einen "View" der Tabelle und kannst die Struktur deshalb leider nicht sehen. Schau einfach mal z.B. auf dewiki_p da wirst du auch keine Inidexes sehen. In Datenbank u_kolossos_yarrow sieht die Tabellenstruktur so aus:

CREATE TABLE IF NOT EXISTS `pub_tt1_de` (
 `lang` varchar(5) NOT NULL,
 `name` varchar(180) NOT NULL,
 `name_id` bigint(20) NOT NULL,
 `tp_nr` bigint(20) NOT NULL,
 `tp_name` varchar(100) NOT NULL,
 `entry_nr` bigint(20) NOT NULL,
 `entry_name` varchar(200) NOT NULL,
 `Value` varchar(900) NOT NULL,
 KEY `lang` (`lang`),
 KEY `name` (`name`),
 KEY `name_id` (`name_id`),
 KEY `tp_nr` (`tp_nr`),
 KEY `tp_name` (`tp_name`),
 KEY `entry_nr` (`entry_nr`),
 KEY `entry_name` (`entry_name`),
 KEY `Value` (`Value`(767))
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

Dein Skript ist meiner Ansicht nach deshalb wohl so langsam, weil du beim Auswahlmenü pub_tt1_de_sum nicht nutzt. Das Durchkämmen von 7 Mio dauert selbst mit Indiezierung eine Weile, da durch deinen Distinct-Befehl alles auf Dopplung geprüft werden muß. So jedenfalls mein Kenntnissstand. Achso der Toolserver scheint heute auch mal wieder super träge zu sein. --Kolossos 17:59, 16. Nov. 2008 (CET)

Das Auswahlmenü hat mit der Geschwindigkeit nur sehr wenig zu tun, denn es ist a) schnell :-) und b) greift überhaupt nicht auf pub_tt1_de zurück, sondern auf die Kategorien der dewiki_p.

Ich kenne mich zwar mit MySQL nicht gut aus, aber die Beschreibung oben lese ich so, dass jeweils ein Index auf jedes Attribut besteht, aber keiner auf Verbünde mehrerer Attribute. Leider weiß ich das index_merge der EXPLAIN-Ausgabe nicht einzuschätzen, so dass ich nächste Woche die Tabelle einmal in meine Datenbank kopieren und dann auf verschiedene Arten indizieren werde, um ein paar Daten zu bekommen. --Tim Landscheidt 23:10, 16. Nov. 2008 (CET)