Portal Diskussion:Vereinigte Staaten/Archiv/2011-I

U.S. Census, die erste

Habe mal eine Botanfrage für die Countys gestellt. Da dort recht ausführlich erklärt, siehe auch Krd's Beispielseite, hier also nur knapp, was ich plane:

  • generelle Ersetzung unser händischen Bevölkerungsentwicklungstabelle durch Vorlage:USCensusPop
  • wo möglich Übernahme der Vorlageneinbindung aus EN

Handarbeit ist wohl notwendig, wo in EN die Vorlage nicht verwendet wird. Bei einer Konvertierung unserer Daten aus den Tabellen gibt es auch die zusätzliche Problematik, daß der Bot nicht wissen kann, wann ein County eingerichtet wurde, also die komplette Leiste von 1790 an erscheint. Bitte anschauen, auf Denkfehler abchecken und ggf. Stellung nehmen. Grüße. --Matthiasb   (CallMeCenter) 11:44, 18. Feb. 2011 (CET)


Alle zehn Jahre findet in den USA der Census statt. Und so erwarten wir in den nächsten Monaten neue Einwohnerzahlen und Kram. Bei uns wirkt sich das auf Ortsartikel und die County-Artikel aus. Hier soll es um die rund 4000 Countyartikel gehen. Hier werden wir es mit zwei unterschiedlichen Sachverhalten zu tun haben. Zum einen solche Artikel, die bislang die Vorlage:USCensusPop verwenden. Hier müßte man zum Z eitpunkt der Ersetzung die Parameter

| estimate=
| estyear=
| estref=

nullen (d.h. vorhandene Einträge entfernen (nicht jedoch die Einbindung selbst – dies sollte so aussehen wie hier dargestellt) und zusätzlich unmittelbar davor den Parameter

| 2010=<Einwohnerzahl>

einfügen. Das sollte kein Problem sein.

Komplizierte ist die Angelegenheit in den County-Artikeln, in denen die Vorlage nicht verwendet wird, sondern Makeshift-Tabellen zum Einsatz kommen. Ich denke deswegen, es wäre sinnvoll, diese Tabellen schon im Vorfeld durch die Vorlage zu ersetzen. Nachfolgende Übersicht verdeutlicht die durchzuführende Konvertierung:

Bisher Künftig
{| border="1" cellspacing="0"
! style="background:#efefef;" | Jahr
! style="background:#efefef;" | Einwohnerzahlen
|-----
| 1900 || align="right" |7.800
|-----
| 1910 || align="right" |11.700
|-----
| 1920 || align="right" |10.100
|-----
| 1930 || align="right" |10.300
|-----
| 1940 || align="right" |13.000
|-----
| 1950 || align="right" |13.100
|-----
| 1960 || align="right" |12.300
|-----
| 1970 || align="right" |14.400
|-----
| 1980 || align="right" |22.500
|-----
| 1990 || align="right" |25.000
|-----
| 2000 || align="right" |36.100
|-----
|}
{{USCensusPop
| align=left
| 1860= 
| 1870= 
| 1880= 
| 1890= 
| 1900= 7822
| 1910= 11666
| 1920= 10098
| 1930= 10315
| 1940= 12478
| 1950= 13101
| 1960= 12341
| 1970= 14409
| 1980= 22493
| 1990= 25010
| 2000= 36070
| estimate= 40396
| estyear=2007
| estref=
| footnote=
|}}
Hinweis: Unter Parameter footnote= sind häufig Refs enthalten, eine beispielhafte Darstellung habe ich hier aus optischen Gründen weggelassen.

Letzendlich könnte die Vorlage 1:1 aus EN übernommen werden, wobei eine Pläusibilitätsprüfung vorgenommen werden sollte, Abweichungen über mehr als übliche Rundungsunterschiede (wie in diesem Beispiel) lassen auf Vandalismus schließen (ob hier oder dort, ist eine andere Frage). Ob die EN-Artikel diese Vorlage flächendeckend einsetzen, ist mir derzeit unbekannt.

Ein wenig wird die Angelegenheit kompliziert durch die uneinheitliche Benennung der Abschnittsüberschrift, unter der die Tabelle steht. Die möglichen Varianten sind

  • Bevölkerung
  • Bevölkerungsentwicklung
  • Einwohner
  • Einwohnerzahlen
  • Demografie
  • Demographie
  • Bewohner
  • Geschichte

doch kann es auch andere Abschnittsüberschriften geben, worunter dies fällt. Die Vorlage wird nach dem letzten verfügbaren dump 580 mal verwendet, doch ein guter Teil dürfte auf Ortsartikel entfallen (um die es hier noch gar nicht geht). Eine weitere Hürde liegt darin, daß die Tabelle teilweise links und teilweise rechts eingebunden ist, und daß diese Anordnung abhängig vom Inhalt (letzlich abhängig von der Optik) letztich beibehalten werden sollte.

Die genannte Aufgabenstellung ist also etwas für eine halbautomatisch betriebene Vorgehensweise, da ein großer Teil der Aufgabenstellung durch kontextabhängiges Copy und Paste aus EN bzw. individuellen Bearbeitungen besteht.

Ist die Aufgabenstellung – es geht hier mindestens um 3800 Artikel – überhaupt botmäßig zu erledigen oder bedeutet das am Ende Handarbeit für das Portal? --Matthiasb   (CallMeCenter) 23:08, 6. Feb. 2011 (CET)

Ein paar Copy&Paste-Vorlagen könnte man versuchen aus den vorhandenen Daten zu generieren, ein Beispiel liegt hier. Geht das in die richtige Richtung? --Krd 18:21, 8. Feb. 2011 (CET)
Ja, so stelle ich mir das vor. Werde im Portal auf diese Diskussion hinweisen. --Matthiasb   (CallMeCenter) 11:09, 18. Feb. 2011 (CET)
Also mittlerweile wird die Vorlage in rund 1800 Artikeln verwendet. Mit dem Rest bin ich in vertretbarer Zeit (10 bis 14 Tage) durch. Problem am Botlauf: Reichlich Handarbeit. Rund 50 % der en:WP haben keine Refs => Handarbeit. 10 % haben zwar refs, sind in der de:WP aber nicht darstelbar. 15 % haben keine Census-Daten. Census bietet Daten an ab 1790–1890 und an anderer Stelle 1900–1990, sowwie die ersten für 2010. Also sind 2 refs notwendig (Siehe: Hardin County (Kentucky)#Demografische Daten. Weiterhin verschiebt die Vorlage einige Bilder, sodass entweder die Platzierung geändert oder die Bilder angepasst werden müssen. Das kann ein Bot nicht. Allerdings spielt es keine Rolle, on der Bot das Gründungsjahr erkennt. Angezeit werden in der Vorlage eh nur Zeilen mit Einwohnerzahl. Problematischer sind da schon die refs, die auch nocht kontrolliert werden müssen. Mit im Boot und mit der Problematik sind Garry Dee und Angelika Lindner. Werde beide mal auf diese Seite aufmerksam machen. Gruß --Peter200 12:12, 18. Feb. 2011 (CET)
Der Löwenanteil an Arbeitspensum wird ja ohnehin die Überarbeitung der demografischen Daten, was nicht automatisierbar ist. Da hier eine riesige Datenflut auf uns zukommt, sollte man die Arbeit aufteilen. Es wird am meisten in den tausenden Ortsartikeln zu tun geben, die Countys kommen dann noch dazu. Nicht vergessen habe ich auch die Listen der Countys in XXX, wo ich bereits mit Illinois, Louisiana, Arkansas und Mississippi angefangen habe, Iowa kommt demnächst. Dabei würde ich (obwohl eigentlich ein anderes Thema) die Frage in die Runde werfen, ob die Anfertigung solcher Listen der Countys in XXX nach dam Vorbild der enWP sowie derartiger verweissenitiver Karten auf Gegenliebe und/oder Kritik stößt. Immerhin steckt da eine ganze Menge Arbeit drin. Auf alle Fälle sind die Einwohnerzahlen für die Countys in einer Reihe von Bundesstaaten schon jetzt verfügbar und man könnte fast schon anfangen. Nur eben die von Hand zu bearbeitenden Daten (Alters-, Geschlechts- und Einkommensverteilung sowie Familien- und Sozialstruktur) kommen wohl erst später. Wenn ich richtig gelesen habe, wollen die bis Herbst alle Daten auf der Seite haben. Da automatische Programmabläufe nicht ganz so mein Ding sind, würde ich am liebsten manuelle Bearbeitungen übernehmen, man sollte sich nur darauf einigen, womit anzufangen wäre. Noch ein Wort zu der Vorlage für die historischen Einwohnerzahlen: Die Vorlage wird in der enWP nicht flächendeckend verwendet. Ich habe schon einige Male eine solche Tabelle selbst erstellt. Angelika Lindner 13:31, 18. Feb. 2011 (CET)
Daneben gibt es in der en:WP auch noch die verschiedensten Vorlagen wie
{| border="1" cellspacing="0" cellpadding="5" style="clear:right; float:right; margin-left:15px;" |align=center colspan=2| '''Adams County<br />Population by year<br /> |- | align=center | '''2010''' 34,387 <br /> '''2000''' 33,625 <br /> '''1990''' 31,095 <br /> '''1980''' 29,619 <br /> '''1970''' 26,871 <br /> '''1960''' 24,643 <br /> '''1950''' 22,393 <br /> '''1940''' 21,254 <br /> '''1930''' 19,957 <br /> '''1920''' 20,503 <br /> '''1910''' 21,840 <br /> '''1900''' 22,232 <br /> '''1890''' 20,181 <br /> '''1880''' 15,385 <br /> '''1870''' 11,382 <br /> '''1860''' 9,252 <br /> '''1850''' 5,797 <br /> '''1840''' 2,264 <br /> |}
oder
{{USCensusPop|1860=1046|1860n= <ref name="1860pop">The census population cited for 1860 includes Otoe county which was annexed before 1870. In 1860, the census population was 808 for Chase and 238 for Otoe.</ref>|1870=1975|1880=6081|1890=8233|1900=8246|1910=7527|1920=7144|1930=6952|1940=6345|1950=4831|1960=3921|1970=3408|1980=3309|1990=3021|2000=3030|footnote=[http://www.census.gov/prod/www/abs/decennial/index.htm * U.S. Decennial Census]}}
die der Bot auch auslesen können muss. --Peter200 13:57, 18. Feb. 2011 (CET)
(BK) Moin. Mal eine Frage zwischendurch. Mir hat Anfang des Jahres Emeritus zum Ausdruck gebracht, dass zwei Botbauer sich darum kümmern würden (wollen), wobei seiner Meinung nach, sie das nicht hinbekommen würden. Stimmt das ? Und wenn ja, was ist aus dem Hinweis geworden ? Mein (knappes) Argument für Bots findet sich hier in der Diskussion, überhalb des Hinweises von Emeritus. Weil wenn keine Bots zum Einsatz kommen, dann brauchen wir die Zahlen nicht mehr, weil wir uns dann im Jahre 2020, erst noch mit Schätzungszahlen von 2015 rumschlagen müssen. Gruß Gary Dee 14:08, 18. Feb. 2011 (CET)
An Angelika: Auch die demographischen Daten sind weitgehend automatisierbar, setzen aber einen wesentlich höheren Aufwand bei der Botprogrammierung voraus: Dazu müsste jede Zahl im Artikel mit der Datenbank des 2000'er Census abgeglichen und bei Übereinstimmung mit der des 2010'er Census ersetzt werden. Der Bot müsste also sowohl die Tabelle der 2000'er Daten wie die 2010'er Tabelle im Speicher halten und Artikel-Inhalte damit vergleichen können. Sowas ist programmierbar, aber wesentlich aufwändiger als unsere "normalen" Botläufe. So etwas werden wir im Laufe des Jahres für jeden Orts-Artikel der Vereinigten Staaten brauchen. Und 2012 werden die Daten der diesjährigen Volkszählungen in der gesamten EU und in Indien veröffentlicht werden! Wir können allerdings hoffen, dass die Kollegen in der en-WP Bot-Vorarbeit leisten und wir (Teile von) deren Arbeit übernehmen können. Grüße --h-stt !? 14:58, 18. Feb. 2011 (CET)
Bei den Orten bin ich zuversichtlicher, das kann man viel einfacher erledigen. Man braucht eine Tabelle im CSV-Format, wandelt alle Kommas in Pipes um, noch ein bisserl automatisches Suchen und ersetzen und wendet eine ggf. aktualisierte Version von Benutzer:Matthiasb/Demographie an, was man in den Artikeln über den kompletten derzeitigen Abschnitt drübersubstet. ;-) Zum Ausprobieren:
{{subst:Benutzer:Matthiasb/Demographie|Fort Collins|118.652|984,4|47.755|396,2|82,4|3,01|0,60|0,12|3,61|2,53|10,79|45.882|29,0|44,9|7,9|43,8|26,0|5,9|2,45|3,01|21,5|22,1|31,5|17,0|7,9|28|100,9|99,7|44.459|59.332|40.856|28.385||22.133|14,0|5,5|8,3|5,8}}
Oder wir basteln das ganz anders, nämlich wie das Septembermorgen mit den Einwohnerzahlen innerhalb der EU macht. --Matthiasb   (CallMeCenter) 15:23, 18. Feb. 2011 (CET)
Gerade von deinem "Demographie-Abschnitt" möchte ich dringend abraten. Diese Datengräber empfinde ich als abschreckend und wende mich entschieden dagegen, sie in der de-WP zu verwenden. Mit enzyklopädischen, aufbereiteten Informationen hat dieser Datenbankauszug nichts zu tun, wer diese Daten wirklich braucht, findet sie über den FIPS-Link in der Infobox. Eine WP-interne Datenbank zu den Einwohnerzahlen a la Italien fände ich wünschenswert. Grüße --h-stt !? 15:46, 18. Feb. 2011 (CET)
Das seh ich auch so. Jedesmal wenn ich ein US-Ortsartikel aufmache, hab ich ein Dorn im Auge, und das sind diese demografischen Daten. Sieht zwar geordnet aus, aber im Grunde denk ich dass das nur Beruf-Statistiker oder Amis interessiert (die haben einen Hang dazu (Siehe:Baseballstatistik)). Ausserdem sind die Daten nie aktuell. Zieht morgen ein Finanzmanager mit einem Jahreseinkommen von bspw. 300.000 USDollar Jahresgehalt in ein Kaff (u.v.m), sind die Zahlen schon nicht mehr aktuell. Ich denke dass mit einer Einstufung der Demografischen Daten in der Prioritätsliste, nach unten, es viel Zeit und Aufwand sparen würde, um sich somit, den „richtigen“ Prioritäten zu widmen, sei es ein Bot oder ein User. Die einzigen Änderungen die ich im Abschnitt Demografie mache, sind Leerzeichen zu setzten; und das allein ist schon nervend (bei mir) Gary Dee 16:53, 18. Feb. 2011 (CET)
@GaryDee: Natürlich sind die Zahlen nicht aktuelle: es sind die Zahlen zum 1. April 2010. Das nächste mal wird zum 1. April 2020 gezählt. Änderungen, die wir in den nächsten Monaten machen, werden wir erst ab 2021 wieder ändern.
@H-stt: Ich finde es schon interessant, diese Daten zu lesen. Cairo (Illinois)#Demographie zeigt schon ein wesentlich anderes Bild des Ortes auf, als etwa fur Hoquiam, Washington (übrigens ein erstaunlich durchschnittlicher Ort, wenn man nur den Typ City betrachtet) oder meinetwegen Beverly Hills. ;-) (Halte es auch kaum für wahrscheinlich, daß der 300.000-Dollar-Banker nach Cairo, IL zieht.) --Matthiasb   (CallMeCenter) 17:34, 18. Feb. 2011 (CET)
Dazu vertrete ich radikal die Gegenposition. Die wichtigen Angaben eines Artikels gehören in den Fließtext, echten Fließtext, nicht verkappte Datenbankauszüge. Im County-Artikel sollte herausgearbeitet werden, was die Besonderheiten eines Counties ausmacht. Auch in demographischer Hinsicht. Dazu muss man aber die Daten eines Counties mit denen des States und den Nachbar-Counties vergleichen, Unterschiede erkennen und nach Ursachen recherchieren. Das wird nicht durch das Abkippen von Zahlensalat erledigt. Der ist abschreckend und die wirklichen Besonderheiten der Bevölkerung findet man darin entweder gar nicht - weil als Vergleichsmaßstab ja nur das Mittel der USA genannt ist - oder es ist zumindest nicht hervorgehoben. Grüße --h-stt !? 18:21, 24. Feb. 2011 (CET)
Na ja, in den USA vom Tellerwäscher zum Millionär (und umgekehrt auch: von der Großstadt zum Kaff) ist alles Möglich :D Gary Dee 17:47, 18. Feb. 2011 (CET)
Gary: Das ist aber auch nur eine Meinung, kein Lehrsatz. Die Angaben sind manchmal ganz interessant, vor allem im Vorortbereich von Großstädten. Da kann man z. B. schon ganz gut erkennen, wo die Villenvororte oder die Ghettos liegen. Der Text kann ja ggf. etwas gestrafft werden, gibt es doch entbehrliche Angaben. Ich habe mir aber bei den von mir angelegten Ortsartikeln die Freiheit genommen, angaben in amerikanischen Maßeinheiten manuell (bzw. in einer externen Excel-Tabelle) umzurechnen. Aber ich würde niemals diese Vorlage verwenden, zumindest nicht so, wie sie derzeit aussieht. Da ich aber mit Eurer Bot-Diskussion nicht mithalten kann, klinke ich mich hier erst mal aus. Angelika Lindner 17:39, 18. Feb. 2011 (CET)
In Tabellenformat wär es wohl attraktiver, denk ich. Wie lautet die Antwort meiner Frage oberhalb ? Weiss da jemand etwas mehr ? Gary Dee 17:44, 18. Feb. 2011 (CET)

Von der Botdiskussion hierher verlegt. --Matthiasb   (CallMeCenter) 18:58, 18. Feb. 2011 (CET)

Man kann ja drüber diskutieren, was sinnvoll ist und was nicht. Was man wegläßt, ob es was anderes gibt, was vielleicht interessanter ist. Und wie man das gestaltet ist wieder eine andere Frage. Gegen das Tabellenformat sprechen generell zwei Dinge: Zum einen gibt es nicht wenige, die Fließtext als das A und O dieser Enzydingens betrachten, zum anderen das technisch-optische Problem. Die Infobox rechts ist lang, in vielen Fällen länger als der jetzige Artikeltext (und wir wissen, daß wir zu Henriette (Minnesota) kaum mehr Stoff bekommen werden, es sei denn jemand fährt hin, wobei uns das wieder in Konflikt mit No original Research brächte) und eine Verkürzung des Fließtextes vergrößert dieses Problem. Eine Tabelle wiederum könnte auf kleineren Bildschirmen zu sog. Whitespace führen, wenn die Tabellenbreite und die Infoboxbreite zusammen breiter als die verfügbare Artikelbreite auf dem Bildschirm ist. Ob und wie man das geschickt lösen kann, müßte man mal auf einer Spielseite ausprobieren. --Matthiasb   (CallMeCenter) 19:10, 18. Feb. 2011 (CET)
Da hast du recht, aber Fließtext, ist ja im Grunde für Buchstabentext gemeint. Wenn aber Zahlen + Einheitenzeichen im Text überwiegen, dominieren (und das tun sie in der Demografie), sind Tabellen zweckgebunden und vorrangig. Das ist es in einfacher Form wie ich es sehe (unabhängig davon was für andere Probleme nebenher auftauchen). Gary Dee 19:27, 18. Feb. 2011 (CET)

Die bloßen Einwohnerzahlen der Countys sind für eine Reihe von Bundesstaaten schon seit einiger Zeit verfügbar. Ich habe mit Iowa schon mal angefangen, die Zahlen manuell einzugeben. Hat jemand Einwände? Angelika Lindner 21:32, 20. Feb. 2011 (CET)

Übertrag Kategorienumbenennung

Kategorie:Gesellschaft der Vereinigten Staaten nach Kategorie:Gesellschaft (Vereinigte Staaten) (erl.)

Anpassung an die anderen Kategorien der Kategorie:Gesellschaft nach Staat. Commons 22:03, 4. Mär. 2011 (CET)

Sinnvolle Änderung --Taste1at 21:14, 7. Mär. 2011 (CET)
+1, sollte man machen - SDB 16:45, 20. Mär. 2011 (CET)

Habe die Kategorienumbenennungsdiskussion nach 16 Tagen und mäßiger Diskussion dort erledigt, zumal kein offizieller Umbenennungsantrag gestellt worden war. Bitte am Besten hier fertig absprechen und dann via WP:SM lösen. - SDB 19:26, 20. Mär. 2011 (CET)