Diskussion:Sigmoidfunktion/Archiv

zu: Sigmoidfunktionen in Neuronalen Netzwerken

Letzter Kommentar: vor 2 Monaten4 Kommentare3 Personen sind an der Diskussion beteiligt

Sigmoidfunktionen werden oft in Künstlichen Neuronalen Netzen als Aktivierungsfunktion verwendet, um Nichtlinearität in das Model einzuführen und um den Ausgabewert eines Neurons in einen bestimmten Bereich zu skalieren. In einem einfachen Neuronenmodell, das zum Beispiel in mehrschichtigen feed-forward Netzwerken verwendet wird, wird die Ausgabe eines Neurons durch Linearkombination der Eingabewerte und Anwendung einer Sigmoidfunktion auf das Ergebnis berechnet. Damit ist es möglich, dass das Netzwerk nicht linear-separierbare Aufgaben lösen kann, was bei den Vorgängern noch nicht möglich war (siehe Perceptron).

Dieser Absatz ist ein wenig missverständlich. Natürlich kann man auch mit mehreren Perzeptrons (deren Aktivierungsfunktion eine Schwellwertfunktion ist) nicht linear separierbare Aufgaben lösen (z.B. die XOR-Funktion nachbilden). Der große Vorteil der Sigmoidfunktion ist, dass sie Lernverfahren ermöglichen, die sich des Prinzip des Gradientenabstiegs in der Fehlerebene bedienen, denn solche Verfahren funktionieren nur, wenn die Fehlerfunktion differenzierbar ist.

--zeno 00:16, 27. Jun 2006 (CEST)

Du hast Recht, ich werde mir den Abschnitt mal vornehmen. --Reziprok 01:10, 24. Aug. 2007 (CEST)

Die Sigmoidfunktion ermöglicht keine Nichtlinearität. Wie du ja schon erwähnt hast kann man mit 3 Neuronen XOR lösen und dabei einen Hard Limiter als Aktivierungsfunktion verwenden. Andererseits kann ein einzelnes Neuron auch durch die Verwendung der Sigmoidfunktion keine nichtlineare Klassifikation durchführen.
"um den Ausgabewert eines Neurons in einen bestimmten Bereich zu skalieren" das ist doch schon eine Eigenschaft von Aktivierungsfunktionen im allgemeinen. Irgendwie ergibt das keinen Sinn, deswegen entferne ich es erstmal.

So, fertig. Habe mir Mühe gegeben es möglichst verständlich zu formulieren. --Reziprok 02:17, 24. Aug. 2007 (CEST)

Wäre es ggf. sinnvoll das "oft" zu entfernen? Meines Erachtens nach ist die Verwendung von Simoid zugunsten von ReLU (Rectifier) sogut wie ausgestorben, da ReLU besser trainierbar ist. (nicht signierter Beitrag von 2.244.87.124 (Diskussion) 13:45, 1. Apr. 2020 (CEST))

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 20:01, 10. Mai 2024 (CEST)

Zu allgemein?

Letzter Kommentar: vor 2 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Trifft es wirklich zu, dass auch beschränkte Funktionen mit durchweg negativer Ableitung sigmoid genannt werden? Zumindest stimmt dann die Namensmotivation hierfür nicht mehr (sind nicht S-förmig). Andererseits steht in en:Sigmoid function noch (allerdings hahnebüchen formuliert) die zusätzliche Bedingung, dass die Ableitung genau ein lokales Extremum (bzw. die Funktion selbst genau einen Wendepunkt) haben sollte...--Hagman 09:58, 21. Apr. 2007 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 19:57, 10. Mai 2024 (CEST)

Zu speziell?

Letzter Kommentar: vor 2 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Ist hier mit "differenzierbar" implizit nicht $C^{1}$ sondern $C^{\infty }$ gemeint? Bzw. warum heißt es Das Integral jeder glatten, positiven Funktion mit einem "Berg" und nicht Das Integral jeder stetigen, positiven Funktion mit einem "Berg"?--Hagman 10:09, 21. Apr. 2007 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 19:56, 10. Mai 2024 (CEST)

Qualität

Letzter Kommentar: vor 2 Monaten3 Kommentare3 Personen sind an der Diskussion beteiligt

Hab eben den Artikel auf QS-Mathe eingestellt, da er doch teilweise sehr salopp formuliert ist und meiner Meinung und meinem Wissen nach auch nicht 100%ig richtig ist, werd mir das aber erst noch genauer zu Hause durchlesen müssen. Außerdem wäre eine kleine Herleitung für die einfache Ableitungsregel hilfreich und mMn notwendig. --xand0r112358 16:13, 17. Jan. 2008 (CET)

Das im wesentlichen einzige saloppe Wort scheint mir "Berg" zu sein, was ich gerade eben schon einmal durch eine Eläuterung abgeschwächt habe.
Fehler bitte näher bezeichnen; ich habe an einer Stelle gerade "glatt" durch "stetig" ersetzt, da mehr entsprechend der darüber stehenden Definition nicht erforderlich ist (war aber dadurch vorher nicht falsch). Zweifelhaft wäre noch möglicherweise, ob an dem einen Wendepunkt zweimalige Differenzierbarkeit zu fordern ist - ich meine: nein.
Für die Herleitung der Ableitungsregel kann man eine mögliche Herleitung ja kaum viel ausführlicher schreiben als "Es ergibt sich nämlich $\operatorname {sig} '(t)={\tfrac {e^{-t}}{(1+e^{-1})^{2}}}=\operatorname {sig} (t)(1-\operatorname {sig} (t))$ ."--Hagman 14:54, 21. Jan. 2008 (CET)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 20:01, 10. Mai 2024 (CEST)

1. Bild sinnlos?

Letzter Kommentar: vor 2 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Was in dem Bild dargestellt wird ist kein richtiges Koordinatensystem. Es gibt nie zwei verschiedene Nullpunkte in einem karthesischen Koordinatensystem. Das Bild sollte dringend ersetzt werden --85.179.199.210 20:46, 15. Feb. 2012 (CET)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 19:53, 10. Mai 2024 (CEST)