Monday 8 May 2017

Zero Aufgeblasen Binäre Optionen

Vielen Dank für die interessante Frage. Differenz Eine Einschränkung von Standard-Zählmodellen ist, dass die Nullen und die Nonzeros-Positiven davon ausgehen, aus dem gleichen Datenerzeugungsprozess zu kommen. Mit Hürdenmodellen sind diese beiden Prozesse nicht darauf beschränkt, dasselbe zu sein. Die Grundidee ist Dass eine Bernoulli-Wahrscheinlichkeit das binäre Ergebnis regelt, ob ein Zählvariant eine Null - oder Positiv-Realisierung hat. Wenn die Realisierung positiv ist, wird die Hürde gekreuzt, und die bedingte Verteilung der Positiven wird durch ein verkürztes Nullpunkt-Zähldatenmodell mit geregelt Null aufgeblasenen Modellen wird die Antwortvariable als Mischung einer Bernoulli-Verteilung modelliert oder nennt sie eine Punktmasse bei Null und eine Poisson-Verteilung oder jede andere Zählverteilung, die auf nicht-negativen Ganzzahlen unterstützt wird. Für weitere Details und Formeln siehe z. Gurmu und Trivedi 2011 und Dalrymple, Hudson und Ford 2003. Beispielsweise können Hurdle-Modelle durch sequenzielle Entscheidungsprozesse motiviert werden, die von Einzelpersonen konfrontiert werden Sie entscheiden zuerst, ob Sie etwas kaufen müssen, und dann entscheiden Sie sich über die Menge von dem, was positiv sein muss. Wenn Sie erlaubt sind oder potenziell nichts kaufen können, nachdem Ihre Entscheidung, etwas zu kaufen, ein Beispiel für eine Situation ist, in der null aufgeblasen ist Modell ist angemessen Zeros können aus zwei Quellen kommen keine keine Entscheidung zu kaufen b wollte kaufen, aber am Ende kauft nichts z. B. nicht auf Lager. Beta Das Hürden-Modell ist ein spezieller Fall der zweiteiligen Modell in Kapitel 16 von Frees 2011 beschrieben , Werden wir sehen, dass für zweiteilige Modelle, die Menge der Gesundheitsversorgung verwendet werden kann eine kontinuierliche sowie eine Zählvariable Also, was wurde etwas verwirrend als null-aufgeblasen Beta-Verteilung in der Literatur bezeichnet ist in der Tat gehört in der Klasse von Zweiteilige Verteilungen und Modelle, die in der versicherungsmathematischen Wissenschaft so weit verbreitet sind, was mit der obigen Definition eines Hürdenmodells übereinstimmt. Dieses hervorragende Buch erörterte nullgeblasene Modelle in § 12 4 1 und Hürdenmodelle in Abschnitt 12 4 2 mit Formeln und Beispiele aus versicherungsmathematischen Anwendungen. Geschichte null-aufgeblasen Poisson ZIP-Modelle ohne Kovariaten haben eine lange Geschichte siehe zB Johnson und Kotz, 1969 Die allgemeine Form der ZIP-Regressionsmodelle mit Kovariaten ist auf Lambert 1992 Hurdle-Modelle wurden zuerst von einem kanadischen Statistiker vorgeschlagen Cragg 1971, und später weiterentwickelt von Mullahy 1986 Sie können auch Croston 1972 betrachten, wo positive geometrische Graphen zusammen mit dem Bernoulli-Prozess verwendet werden, um einen ganzzahligen Prozess zu beschreiben, der von Nullen dominiert wird. Die folgenden Referenzen wurden konsultiert, um das oben genannte zu erzeugen. Gurmu , S Trivedi, PK Excess Nullen in Count Models für Freizeitreisen Journal of Business Wirtschaftsstatistik, 1996, 14, 469-477.Johnson, N Kotz, S Distributionen in Statistik Diskrete Distributionen 1969, Houghton MiZin, Boston. Lambert, D Zero - In-ated Poisson-Regression mit einer Anwendung auf Fehler in der Herstellung Technometrics, 1992, 34 1, 1 14.Cragg, JG Einige statistische Modelle für Li Mitgeordnete abhängige Variablen mit Anwendung auf die Nachfrage nach dauerhaften Waren Econometrica, 1971, 39, 829-844.Mullahy, J Spezifikation und Prüfung von einigen modifizierten Zähldatenmodellen Journal of Econometrics, 1986, 33, 341-365.Frees, EW Regression Modeling Mit versicherungsmathematischen und finanziellen Anwendungen Cambridge University Press, 2011.Dalrymple, ML Hudson, IL Ford, RPK Finite Mixture, Zero-aufgeblasen Poisson und Hurdle-Modelle mit Anwendung auf SIDS Computational Statistics Data Analysis, 2003, 41, 491-504.Croston, JD Prognose und Bestandskontrolle für intermittierende Forderungen Operative Forschung Vierteljährlich, 1972, 23, 289-303.derwered Jan 10 14 bei 18 18.Hürdenmodelle davon ausgehen, dass es nur einen Prozess gibt, durch den eine Null produziert werden kann, während null aufgeblasene Modelle annehmen Dass es 2 verschiedene Prozesse gibt, die eine Null erzeugen können. Hürdenmodelle übernehmen 2 Arten von Themen 1 diejenigen, die nie das Ergebnis erleben und 2 diejenigen, die immer das Ergebnis mindestens einmal Zero-aufgeblasen Modelle konz Eptualisieren Themen wie 1 diejenigen, die nie das Ergebnis und 2 diejenigen, die das Ergebnis erleben können, aber don t immer. In einfachen Worten sowohl Null-aufgeblasen und Hürden-Modelle sind in zwei Teilen beschrieben. Der erste ist die on-off Teil, was ist Ein binärer Prozess Das System ist mit Wahrscheinlichkeit pi ausgeschaltet und mit Wahrscheinlichkeit 1- pi Hier ist pi als Inflationswahrscheinlichkeit bekannt Wenn das System ausgeschaltet ist, sind nur Nullzählungen möglich. Dieser Teil ist bei null aufgeblasenen und Hürdenmodellen gleich. Der zweite Teil ist der Zählteil, der auftritt, wenn das System eingeschaltet ist. Dies ist dort, wo null aufgeblasene und Hürdenmodelle sich unterscheiden In null aufgeblasenen Modellen können Zählungen immer noch null sein. In Hürdenmodellen müssen sie null sein. Für diesen Teil ist null aufgeblasen Modelle verwenden eine übliche diskrete Wahrscheinlichkeitsverteilung, während Hürdenmodelle eine null-trunkierte diskrete Wahrscheinlichkeitsverteilungsfunktion verwenden. Beispiel eines Hürdenmodells Ein Automobilhersteller möchte zwei Qualitätskontrollprogramme für seine Automobile vergleichen. Es wird vergleichen Sie auf der Grundlage der Anzahl der eingereichten Gewährleistungsansprüche Für jedes Programm wird ein Satz von zufällig ausgewählten Kunden für 1 Jahr befolgt und die Anzahl der Gewährleistungsansprüche, die sie archiviert haben, wird gezählt. Die Inflationswahrscheinlichkeiten für jedes der beiden Programme werden dann verglichen Staat ist abgelehnt Null Ansprüche, während der On-Zustand ist mindestens eine Forderung eingereicht. Example eines null-aufgeblasenen Modell In der gleichen Studie oben, die Forscher herausfinden, dass einige Reparaturen an den Automobilen wurden ohne die Einreichung eines Garantieanspruchs behoben Weg, die Nullen sind eine Mischung aus der Abwesenheit von Qualitätskontrolle Probleme sowie das Vorhandensein von Qualitätskontrolle Probleme, die keine Gewährleistungsansprüche beteiligt ist Der Aus-Staat bedeutet abgelehnt Null Ansprüche, während die auf staatlichen bedeutet mindestens eine Forderung eingereicht ODER hatte Reparaturen ohne festgesetzt Einreichung einer Forderung. Sehen Sie sich hier für eine Studie, in der beide Arten von Modellen auf den gleichen Datensatz angewendet wurden. Erweiterte Jan 7 14 bei 20 15. in ZIP-Modell yi.0 mit Wahrscheinlichkeit pi und yi. Poisson lambda distributio N mit Wahrscheinlichkeit 1- pi, so ist das ZIP-Modell Mischmodell mit 2 Komponenten und Pr yj 0 pi 1 - pi e Pr yj xi 1 - pi frac e, qquad xi ge 1. und in einem Hürdenmodell yi.0 mit Wahrscheinlichkeit Pi und yi. trunkierte Poisson-Lambda-Verteilung mit Wahrscheinlichkeit 1- pi und Pr yj 0 pi Pr yj xi frac frac e, qquad xi ge 1.Das Hürdenmodell zeichnet sich durch den Prozess unterhalb der Hürde und der obigen Offensichtlich am meisten aus Weit verbreitetes Hürdenmodell ist dasjenige, das die Hürde auf Null setzt. Formell wird das Modell der Hurdle-at-Null als P Ni ni f1 0 für ni 0 P Ni ni frac f2 ni phi f2 ni für ni 1,2 ausgegeben Phi kann als die Wahrscheinlichkeit des Übergangs der Hürde interpretiert werden, oder genauer im Falle der Versicherung, die Wahrscheinlichkeit, mindestens einen Anspruch zu melden. Wie für null-aufgeblasene Modelle, Wikipedia sagt. Ein Null-aufgeblasenes Modell ist ein statistisches Modell basiert Auf einer null-aufgeblasenen Wahrscheinlichkeitsverteilung, dh einer Verteilung, die häufige nullwertige Beobachtungen erlaubt. Die null aufgeblasene Poisson m Odel betrifft ein zufälliges Ereignis, das überschüssige Null-Zähl-Daten in der Einheitszeit enthält. Zum Beispiel ist die Anzahl der Ansprüche an eine Versicherungsgesellschaft durch eine gegebene abgedeckte Person fast immer null, ansonsten würden erhebliche Verluste dazu führen, dass die Versicherungsgesellschaft in Konkurs gehen. Die Null-aufgeblasen Poisson ZIP-Modell verwendet zwei Komponenten, die zwei Nullgenerierungsprozessen entsprechen Der erste Prozess wird durch eine binäre Verteilung geregelt, die strukturelle Nullen erzeugt Der zweite Prozess wird durch eine Poisson-Verteilung geregelt, die Zählungen erzeugt, von denen einige null sein können. Die beiden Modellkomponenten sind Wie folgt beschrieben wird, ist die erwartete Poisson-Zählung für das i-te individuelle pi-Wert, wenn die Ergebnisvariable yj einen nicht-negativen Integer-Wert hat Die Wahrscheinlichkeit von zusätzlichen Nullen. Von Arnold und Kollegen 2008, sehe ich, dass ein Hurdle-at-zero-Modell ein Spezialfall der allgemeineren Klasse von Hürdenmodellen ist, aber aus einer Referenz auf Wikipedi Ein Hall, 2004, ich sehe auch, dass einige null aufgeblasene Modelle obere Begrenzung sein können Ich verstehe nicht ganz den Unterschied in den Formeln, aber sie scheinen ganz ähnlich zu sein, beide verwenden sogar ein sehr ähnliches Beispiel, Versicherung behauptet ich hoffe andere Antworten können helfen, erklären, alle wichtigen Unterschied s, und dass diese Antwort wird dazu beitragen, die Bühne für diejenigen. Lambert, D 1992 Zero-aufgeblasen Poisson Regression, mit einer Anwendung auf Fehler in der Herstellung Technometrics, 34 1, 1 14.Zero Inflated Poisson In Stata Forex. 2001 Ein Score-Test zum Testen eines null-aufgeblasenen Poisson-Regressionsmodells gegen null aufgeblasene negative Binomialalternativen Eine nicht-normale Outcome-Variable kann normalerweise verteilte Residuen aufweisen, muss aber kontinuierlich, unbegrenzt und auf einer Intervall - oder Verhältnisskala gemessen werden Zero Inflated Poisson In Stata Forex Sambia Forex Reserven Heute Wann null aufgeblasen Poisson Regression und negative Binomialverteilung Penalized Regression mit null-aufgeblasenen Modellen Kategorische Outcome-Variablen klar nicht t passen diese Anforderung, so ist es leicht zu sehen, dass eine gewöhnliche lineare Modell Ist nicht angemessen Es ist weniger offensichtlich, weil sie auf einer Verhältnisskala gemessen werden, also ist es einfacher, an sie als kontinuierlich zu denken oder nahe daran zu zählen Variablen können negativ sein 0 ist der niedrigste mögliche Wert, und sie sind oft schief So schwer ist, dass 0 bei weitem der häufigste Wert ist Alle jene Witze über die durchschnittliche Familie mit 1 3 Kindern haben einen Ring der Wahrheit in diesem Zusammenhang Zum Beispiel die Null-infl Akte Poisson-Verteilung könnte verwendet werden, um Zähldaten zu modellieren, für die der Anteil der Nullzählungen größer ist als erwartet auf der Grundlage des Mittelwerts der Nicht-Null-Zählungen Proceedings of the XIXth International Biometric Conference, Kapstadt, Invited Papers, pp. Much Von diesem Interesse stammt aus dem vorläufigen Papier von Lambert Ref 1, obwohl diese Art von Modell scheint in der ökonometrischen Literatur entstanden zu sein Zero-aufgeblasene Poisson-Regression wird verwendet, um Zähldaten zu modellieren, die einen Überschuss von Nullzählungen haben. Wir können die eingeführten Ränder verwenden In Stata 11 zu helfen Zero Inflated Poisson In Stata Forex Strategie Forex Terbaik Untukmu Am PM 1 28 2012, Clyde B Schechter schrieb Hat jemand von einer Stata-Implementierung wissen Dieses Kapitel betrachtet nicht null aufgeblasen Poisson und zum Beispiel die null-aufgeblasen Poisson Verteilung kann verwendet werden, um Zähldaten zu modellieren, für die der Anteil der Nullzählungen größer als erwartet ist. In diesem Fall ist eine bessere Lösung oft der Zero-Inflated Poisson ZIP m Odel Wenn null aufgeblasene Poisson-Regression und negative Binomialverteilung verwendet werden Penalisierte Regression mit null-aufgeblasenen Modellen Es gibt einige Arten von Outcome-Variablen, die niemals die gewöhnliche lineare Modellsannahme von normal verteilten Resten erfüllen werden. Aber sie sind weder kontinuierlich noch unbegrenzt , Und das beeinflusst wirklich Annahmen Zählvariablen folgen oft einem Poisson oder einer seiner verwandten Verteilungen Zero Inflated Poisson In Stata Forex Und wenn zusätzliche Variation auch auftritt, ist seine enge Verwandten die Zero-Inflated Negative Binomial Code Optionen Trading Scams Am PM 1 28 2012 , Clyde B Schechter schrieb Hat jemand von einer Stata-Implementierung Kenntnis Dieses Kapitel betrachtet nicht null aufgeblasenes Poisson und Null-aufgeblasenes Doppel-Poisson, das diagonal aufgeblasene bivariate Poisson-Modell fDx, J kann als 0,1 0 0,1 x D definiert werden Für x J fx J für x J Algorithmus JR Stat Soc Ser B, Stat Methodol 39, 1 38 Donaldson, BM 2007 Royal Bank von Kanada Stock Broker Wenn null aufgeblasen zu verwenden Poisson-Regression und negative Binomialverteilung Penalisierte Regression mit null-aufgeblasenen Modellen Aber manchmal geht es nur darum, zu viele Nullen zu haben, als ein Poisson voraussagen würde. In den letzten Jahren gab es ein beträchtliches Interesse an Regressionsmodellen, die auf null-aufgeblasenen Verteilungen Clarice basierten Demetrio, John Hinde und ich schrieben ein Rezensionspapier zu Modellen für Zähldaten mit vielen Nullen für die Internationale Biometrische Konferenz, Kapstadt, Dezember 1998 Ref 2 Zero Inflated Poisson In Stata Forex Wie man Geld auf Helium macht Obwohl diese Bewertung war vernünftigerweise an der Zeit, gibt es eine umfangreiche nachfolgende Literatur zu diesem Thema, einschließlich eines Beitrags unserer eigenen Ref 3 1992 Zero-aufgeblasen Poisson Regression, mit einer Anwendung auf Fehler in der Herstellung Zero Inflated Poisson In Stata Forex Die Poisson Verteilung geht davon aus, dass jede Zählung das Ergebnis ist Des gleichen Poisson-Prozesses ein zufälliger Prozess, der sagt, jedes gezählte Ereignis ist unabhängig und gleich wahrscheinlich in diesem Fall, eine bessere Lösung ist oft das Zero-Inflated Poisson ZIP-Modell Einführung in die Datenanalyse mit Stata Wenn die Varianz zu groß ist, da es viele 0s sowie einige sehr hohe Werte gibt, ist das negative Binomialmodell eine Erweiterung, die verarbeiten kann Die zusätzliche Varianz. Zero-aufgeblasenen Verteilungen werden verwendet, um Zähldaten zu modellieren, die viele Nullzählungen haben. Zero Inflated Poisson In Stata Forex ZIP-Modelle gehen davon aus, dass einige Nullen durch einen Poisson-Prozess aufgetreten sind, aber andere waren nicht einmal berechtigt, das Event Forex Platform Etoro zu haben Wenn diese Zählvariable als Ergebnis eines Regressionsmodells verwendet wird, können wir die Poisson-Regression verwenden, um zu schätzen, wie Prädiktoren die Anzahl der Ereignisse beeinflussen, die das Ereignis aufgetreten ist. Eines, das oft verletzt wird, ist, dass der Mittelwert gleich der Varianz ist. Linkedin Marital Status Options Trading So dort Sind zwei Prozesse bei der Arbeit, die bestimmt, ob das Individuum sogar für eine Nicht-Null-Antwort in Frage kommt, und das andere, das die Anzahl dieser Antwort für eligibl bestimmt E individuals. Dec 29, 2015 Top 6 Gründe, um Englisch in der Tschechischen Republik zu unterrichten und check out International Die 170-Stunden Online TEFL Certification Class wird für die Top 5 Länder empfohlen, um das meiste Geld zu lehren Englisch Englisch verdienen pro Test Sie bezahlt für Ca. 10 bis 20 Minuten Arbeit Verdienen Sie Geld in Ihrer Freizeit machen Einfache Online-Aufgaben Get für den Besuch einer Wie man online arbeiten und Geld verdienen in der Tschechischen Republik 14. März 2010 Die offizielle Währung in der Tschechischen Republik ist die tschechische Krone K, CZK Sie Kann tschechische Kronen in Banken oder in privaten X2 Wechselstuben X2 länger Zeit arbeiten oder studieren in der Tschechischen Republik, müssen Sie Ria Financial Services ist einer der führenden und vertrauenswürdigsten in-und ausländischen Geldtransfer und Überweisung Unternehmen in der Tschechischen Republik Und ein bivariate Null-aufgeblasen negativen binomischen Regressionsmodell für Zähldaten mit überschüssigen Nullen. Dieses Papier schlägt ein bivariate Null-aufgeblasen negativen binomischen Regressionsmodell für Zähldaten mit Exces S Nullen, und bietet eine Schätzung Methode auf der Grundlage der EM und Quasi-Newton-Algorithmen Eine Anwendung auf die Analyse der Gesundheitsversorgung Nutzung gegeben ist. Bivariate negative Binomialverteilung. Count Daten mit überschüssigen Nullen. Korrelation. EM Algorithmus. JEL Klassifizierung. Corresponding Autor Tel 65-6790-6217 Fax 65-6792-4217.Copyright 2002 Elsevier Science BV Alle Rechte vorbehalten. Käufe werden von dieser Website verwendet Für weitere Informationen besuchen Sie die Cookies page. Copyright 2017 Elsevier BV oder seine Lizenzgeber oder Mitwirkenden ScienceDirect ist ein Eingetragene Marke von Elsevier B V. Do Wir brauchen wirklich Zero-Inflated Models. August 7, 2012 Von Paul Allison. Für die Analyse der Zähldaten, viele statistische Software-Pakete bieten nun null-aufgeblasen Poisson und null-aufgeblasen negativen Binomial Regressionsmodelle Diese Modelle sind entworfen, um mit Situationen umzugehen, in denen es eine übermäßige Anzahl von Personen mit einer Anzahl von 0 gibt. Zum Beispiel in einer Studie, wo die abhängige Variable ist die Anzahl der Male ein Schüler hatte Eine unexcused Abwesenheit, die überwiegende Mehrheit der Studenten können einen Wert von 0.Zero-aufgeblasenen Modelle haben sich ziemlich populär in der Forschungsliteratur eine schnelle Suche des Web of Science für die letzten fünf Jahre gefunden 499 Artikel mit Null aufgeblasen in den Titel , Abstrakt oder Schlüsselwörter Aber sind solche Modelle wirklich brauchbar Vielleicht nicht. Es ist sicherlich der Fall, dass die Poisson Regressionsmodell oft passt die Daten schlecht, wie durch eine Abweichung oder Pearson Chi-Quadrat-Test angezeigt, da das Poisson-Modell davon ausgeht, dass die bedingte Varianz der abhängigen Variablen ist gleich dem bedingten Mittel In den meisten Zähldatensätzen ist die bedingte Varianz größer als die bedingte Mittel, oft viel größer, ein Phänomen, das als Überdispersion bekannt ist. Das null aufgeblasene Poisson ZIP Modell ist ein Weg, um eine Überdispersion zu ermöglichen Dieses Modell geht davon aus, dass die Probe eine Mischung aus zwei Arten von Individuen ist, eine Gruppe, deren Zählungen durch das Standard-Poisson-Regressionsmodell erzeugt werden, und eine andere Gruppe nennt sie Die absolute Nullgruppe, die Null Wahrscheinlichkeit einer Zählung größer als 0 haben. Beobachtete Werte von 0 könnten aus jeder Gruppe kommen Obwohl es nicht wesentlich ist, wird das Modell typischerweise ausgearbeitet, um ein logistisches Regressionsmodell zu enthalten, das voraussagt, welche Gruppe eine Person gehört. In Fällen von Überdispersion , Das ZIP-Modell passt in der Regel besser als ein Standard-Poisson-Modell Aber es gibt ein anderes Modell, das eine Überdispersion ermöglicht und das ist das Standard-negatives Binomial-Regressionsmodell In allen Datensätzen, die ich untersucht habe, passt das negative Binomialmodell viel besser als ein ZIP Modell, wie von AIC oder BIC Statistiken ausgewertet Und es ist ein viel einfacheres Modell zu schätzen und zu interpretieren Also, wenn die Wahl zwischen ZIP und negativem Binomial ist, dann habe ich fast immer die letzteren. Aber was ist mit dem Null-aufgeblasen negativen Binomial ZINB-Modell Es Es ist sicher möglich, dass ein ZINB-Modell besser passen könnte als ein konventionelles negatives Binomialmodell-Regressionsmodell. Aber letzteres ist ein Sonderfall des ersteren Es ist einfach, einen Wahrscheinlichkeits-Verhältnis-Test zu machen, um sie zu vergleichen, indem man zweimal den positiven Unterschied in den log-Wahrscheinlichkeiten nimmt. In meiner Erfahrung ist der Unterschied in der Anpassung gewöhnlich trivial. Natürlich gibt es sicher Situationen, in denen ein Null-aufgeblasenes Modell Sinn macht Aus der Sicht der Theorie oder des gesunden Menschenverstandes Wenn zum Beispiel die abhängige Variable die Anzahl der Kinder ist, die jemals zu einer Stichprobe von 50-jährigen Frauen geboren wurden, ist es vernünftig anzunehmen, dass einige Frauen biologisch steril sind. Für diese Frauen, nein Variation auf die Prädiktor-Variablen, was auch immer sie sein könnten, könnte die erwartete Anzahl von Kindern ändern. So beim nächsten Mal denken Sie über die Anpassung eines null-aufgeblasen Regressionsmodell, zunächst prüfen, ob ein konventionelles negatives Binomial-Modell könnte gut genug sein Mit einer Menge von Nullen doesn T zwangsläufig bedeutet, dass Sie ein null-aufgeblasenes Modell benötigen. Sie können mehr über null-aufgeblasene Modelle in Kapitel 9 meines Buches lesen Logistische Regression mit SAS Theorie-Anwendung Die zweite Auflage wurde veröffentlicht Im April 2012. William Greene Funktionale Form und Heterogenität in Modellen für Count Data 2007 behauptet, dass die Modelle nicht verschachtelt sind, da es keine parametrische Beschränkung auf das null aufgeblasene Modell gibt, das das nicht aufgeblasene Modell erzeugt. Dies ist falsch Eine einfache Reparametrierung von Das ZINB-Modell erlaubt eine solche Einschränkung So ist ein Wahrscheinlichkeitsverhältnis-Test angemessen, obwohl die Chi-Quadrat-Verteilung eine Anpassung erfordern kann, weil die Beschränkung an der Grenze des Parameterraums liegt.78 Responses. Chizoba Wonodi sagt. Thanks für diesen Blogpost Sie machen diese statistischen Konzepte leicht zu verstehen, ich werde sicherlich auf Ausschau nach Ihren Büchern sein. William Greene wie oben sagt. Das null Inflationsmodell ist ein latentes Klassenmodell Es wird in einer bestimmten Situation vorgeschlagen, wenn es zwei Arten von Nullen in der Beobachtete Daten Es ist ein Zwei-Teil-Modell, das eine spezifische Verhaltensinterpretation hat, die nicht besonders kompliziert ist, durch die Art und Weise. Die vorhergehende Diskussion geht nicht um die Modell Es geht um Kurvenanpassung Nein, du brauchst nicht den ZINB Es gibt noch andere Funktionen, die an die Daten angepasst werden können, die so aussehen, als ob sie besser passen als das ZINB-Modell. Allerdings sind weder die Log-Likelihood-Funktion noch die vorgeschlagene AIC sinnvoll Misst die Anpassung des Modells an die Daten in dem Sinne, in dem es in der Regel betrachtet wird, ist kein Element des Anpassungskriteriums Wenn Sie das Modell verwenden, um die Ergebnisvariable vorherzusagen, dann vergleichen Sie diese Vorhersagen mit den tatsächlichen Daten, wird das ZINB-Modell Passen Sie so viel besser gibt es keinen Vergleich Es ist immer faszinierend, wenn ein Kommentator argumentiert, dass ein Modell schwierig zu passen ist Typing ZINB in ​​Stata s oder nlogit s Befehlssprache ist nicht härter als Typisierung negbin Diese Modelle existieren seit Jahren als unterstützte Prozeduren in Diese Programme Es gibt nichts schwieriges, sie anzupassen Wie für Schwierigkeiten bei der Interpretation des Modells, das ZINB-Modell, als Zwei-Teil-Modell macht viel Sinn Es ist schwer zu sehen, warum es schwierig sein sollte T zu interpretieren Der Punkt oben über das NB-Modell ist eine parametrische Beschränkung auf das ZINB-Modell ist falsch Die Reparametrierung baut nur die Null-Wahrscheinlichkeit auf Aber es verliert die zweite Teil-Interpretation das reparametifizierte Modell ist kein null aufgeblasenes Modell im latenten Klassen-Sinn in Die es definiert ist Das so genannte reparametrierte Modell ist nicht mehr ein latentes Klassenmodell Es ist wahr, dass das NB-Modell als eine Beschränkung auf das vorgeschlagene Modell getestet werden kann. Aber das vorgeschlagene Modell ist nicht gleichbedeutend mit dem ursprünglichen ZINB-Modell ist es ein anderes Modell Noch einmal ist dies nur Kurvenanpassung Es gibt zahlreiche Möglichkeiten, die Null-Wahrscheinlichkeit zu sprengen, aber diese Wege verlieren die theoretische Interpretation des null aufgeblasenen Modells. Paul Allison sagt. Ich schätze William Greene s nachdenkliche Betrachtung einiger der Probleme in meinem Blog Hier sind einige Antworten.1 ZIP-Modell Angesichts der Tatsache, dass Greene das null-aufgeblasene Poisson-Modell nicht erwähnte, vermute ich, dass er mit mir einverstanden ist, dass das ZIP-Modell ein ist Nicht-Starter Es ist einfach zu restriktiv für die überwiegende Mehrheit der Anwendungen.2 Kurvenanpassung vs ein Verhaltensmodell Es ist mein starker Eindruck, dass viele Forscher null aufgeblasene Modelle ohne vorherige Theorie verwenden, die sie dazu bringen würde, eine spezielle Klasse zu postulieren Von Personen mit einer erwarteten Anzahl von 0 Sie wissen nur, dass sie viele Nullen bekommen haben, und sie haben gehört, dass das ein Problem Nach dem Lernen mehr über die Modelle, können sie kommen mit einer Theorie, die die Existenz einer besonderen Klasse unterstützen würde Aber das war nicht Teil ihres ursprünglichen Forschungsziels Mein Ziel ist einfach, vorzuschlagen, dass ein Null-aufgeblasenes Modell nicht eine Notwendigkeit ist, mit dem zu beschäftigen, was wie eine übermäßige Zahl oder Nullen aussehen mag. Wie ich zum Ende des Blogs erwähnt habe, dort Sind definitiv Situationen, in denen man starke theoretische Gründe für die Postulierung eines Zwei-Klassen-Modells haben könnte. Aber selbst dann denke ich, dass es sinnvoll ist, die Anpassung des ZINB-Modells mit dem des konventionellen NB-Modells zu vergleichen. Die Zwei-Klasse Hypothese ist nur, dass eine Hypothese Und wenn die Beweise für diese Hypothese ist schwach, vielleicht ist es Zeit zu überdenken. Es ist auch erwähnenswert, dass die konventionelle NB-Modell kann selbst als ein Gemisch-Modell abgeleitet werden Nehmen Sie an, dass jeder einzelne Ich habe eine Veranstaltung zählen Die von einem Poisson-Regressionsmodell mit der erwarteten Frequenz Ei erzeugt wird. Anschließend wird angenommen, dass die erwartete Frequenz mit der Zufallsvariablen Ui multipliziert wird, um eine nicht beobachtete Heterogenität darzustellen. Wenn Ui eine Gammaverteilung der Mischverteilung hat, dann wird die beobachtete Zählvariable ein negatives Binomial haben Verteilung Die verallgemeinerte Gamma-Verteilung ist ziemlich flexibel und ermöglicht eine große Konzentration von Personen in der Nähe von Null.3 Fit Kriterien Ich bin mir nicht sicher, was aus Greene s Aussage zu machen, dass weder die Log-Likelihood noch die vorgeschlagene AIC nützlich sind, passen die Passungen von Das Modell zu den Daten in dem Sinne, in dem es in der Regel betrachtet wird, ist kein Element des Anpassungskriteriums Warum sollte das passende Kriterium sein Rion dh die log-Wahrscheinlichkeit ist nicht eine Schlüsselbasis für den Vergleich der Anpassung der verschiedenen Modelle Wenn es nicht sinnvoll ist, den Vergleich zu vergleichen, warum sollte es als Kriterium für die Schätzung verwendet werden. In jedem Fall sind AIC und BIC weit verbreitet, um die zu vergleichen Relative Verdienste von verschiedenen Modellen, und ich sehe keinen offensichtlichen Grund, warum sie nicht verwendet werden sollten, um die null aufgeblasenen Modelle zu bewerten.4 Fit Schwierigkeit Greene ist von jedem Vorschlag verwirrt, dass null aufgeblasene Modelle schwer zu platzieren sind Meine Worte, aber ich kann festlegen, dass es im ZINB weniger Tastenanschläge gibt als in NEGBIN Also in diesem Sinne ist ZINB eigentlich einfacher. Auf der anderen Seite gibt es sicherlich mehr Berechnungen für den ZINB als für den NB und wenn du damit umgeht Große Daten, die einen großen Unterschied machen könnte Darüber hinaus ist es gar nicht ungewöhnlich, in tödlichen Fehlern zu laufen, wenn man versucht, die Wahrscheinlichkeit für den ZINB zu maximieren.5 Interpretationsschwierigkeit Warum behaupte ich, dass das ZINB-Modell schwieriger zu interpretieren ist Sie haben in der Regel doppelt so viele Koeffizienten zu beachten Und dann müssen Sie Fragen wie Warum haben Variable X haben eine große Wirkung auf, ob oder nicht jemand war in der absoluten Null-Gruppe, aber nicht viel von einem Effekt auf die erwartete Anzahl von Veranstaltungen unter Die in der Nicht-Null-Gruppe Auf der anderen Seite, warum hat Variable W haben fast die gleichen Koeffizienten in jeder Gleichung Wie in den meisten Analysen, kann man in der Regel kommen mit einigen After-the-fact-Erklärungen Aber wenn das Modell doesn t treffe deutlich Besser als eine konventionelle NB mit einem einzigen Satz von Koeffizienten, vielleicht wir nur noch verschwenden unsere Zeit versucht, solche Fragen zu beantworten.6 Verschachtelung von Modellen Wie ich mich erinnere, behaupten Greene früher, dass das NB-Modell nicht in das ZINB-Modell gebunden war Auf die Beobachtung, dass die einzige Möglichkeit, die Sie vom ZINB-Modell zum NB-Modell bekommen können, ist, indem Sie den Intercept in der logistischen Gleichung gleich minus unendlich machen, und das ist keine gültige Einschränkung. Aber nehmen Sie an, dass Sie den logistischen Teil von t ausdrücken Er modelliert wie folgt. p 1-p b0 exp b1 x1 bk xk. wo b0 ist nur die exponentiated intercept in der ursprünglichen formulierung Dies ist immer noch ein latentes Klassenmodell in seinem ursprünglichen Sinn Nun, wenn wir alle bs 0 setzen, bekommen wir Das konventionelle NB-Modell Die Frage, ob die Modelle verschachtelt sind, ist rein mathematisch und hat nichts mit der Interpretation der Modelle zu tun Wenn man von einem Modell zum anderen kommt, indem man einfach unbekannte Parameter gleich festen Konstanten oder gleich einander setzt, Dann sind sie verschachtelt. Wenn ich in dem Blog erwähnt habe, weil b0 eine untere Grenze von null hat, ist die Einschränkung an der Grenze des Parameterraums. Es ist jetzt weithin erkannt, dass in solchen Situationen die Wahrscheinlichkeitsverhältnisstatistik keine Standard-Chi-Quadrat-Verteilung Aber, zumindest im Prinzip, das kann angepasst werden. Shaohua Li sagt. Wrt die Schwierigkeit der Interpretation von ZI-Modelle, ich glaube, Sie können sich vorstellen, gibt es eine unbekannte unbeobachtete Erklärung Variable, die viele Nullen Th verursacht E null-aufgeblasenes Submodell Ich weiß nicht, dass der richtige Begriff von dieser Variable aktiviert wird. Für Computerforscher, von denen ich eine diese Casualität bin, wird oft geduldet. Aber vielleicht in anderen Bereichen sind die Dinge anders. William Greene wie oben sagt.1 I Würde nicht mit Ihnen einverstanden sein, dass das ZIP-Modell ein Nicht-Quartier ist. In meiner Erfahrung scheint das ZINB-Modell in vielen Fällen überdimensioniert zu sein. Es gibt zwei Quellen der Heterogenität, die in das ZINB-Modell eingebettet sind, die möglicherweise nicht benötigte latente Heterogenität, die von Paulus oben und dem Mischen diskutiert wurde Der latenten Klassen Wenn das ZINB-Modell nicht konvergiert oder sich sonst schlecht verhält, scheint es in vielen Fällen zu sein, weil das ZIP-Modell für die jeweilige Modellierungssituation besser geeignet ist. Viel von dem Rest dieser Diskussion konzentriert sich auf das, was ich eine funktionale Formfrage nennen würde Paul macht viel von der Idee eines Forschers konfrontiert mit einer nicht näher bezeichneten Theorie und einem Datensatz, der einen Haufen von Nullen enthält Auf die Gefahr des Klangs dogmatisch darüber, Ich werde meine Position auf die Situation setzen, in der der Forscher sich entschieden hat, ein null aufgeblasenes Modell P oder NB zu passen, weil es durch die zugrunde liegende Theorie gerechtfertigt ist. Wenn der Forscher keine solche Theorie hat, sondern einen Datensatz, der Null zu sein scheint Schwer gibt es hier wirklich kein Argument Wie ich schon früher einverstanden bin, gibt es viele Kandidaten für funktionale Formen, die sich genauso gut verhalten können wie die ZI-Modelle in Bezug auf die passenden Maßnahmen, die sie lieber verwenden möchten, wie zB AIC Mehr dazu unten. 2 Siehe oben Nur ein Punkt Ja, das NB-Modell ist eine kontinuierliche Gamma-Mischung aus Poissons Aber die Art des Mischprozesses unterscheidet sich ganz anders als der endliche Mischungsaspekt der ZI-Modelle. Dies ist wieder eine Beobachtung über die Theorie nicht Helfen, das Zip-Modell oder irgendwelche der vorgeschlagenen Alternativen zu rechtfertigen.3 Was ich im Sinn habe, über passende Maßnahmen ist, dass viele Menschen, die ich gesehen habe, dies in Druck diskutieren die Log-Wahrscheinlichkeit, AIC oder noch schlimmer Pseudo R-squared, wie sie in der Regel beabsichtigen Um den Koeffizienten der Bestimmung in der linearen Regression zu charakterisieren, habe ich sogar gesehen, dass Autoren die Summen von Quadraten in Poisson - oder Probit-Modellen besprechen, da sie AIC - oder Pseudo-R-Quadrate besprechen, obwohl es keine Quadratsummen irgendwo im Modell oder im Schätzer gibt. Diese Maßnahmen nicht Sagen Sie etwas über die Korrelation oder andere Korrespondenz der Vorhersagen aus dem Modell mit der beobachteten abhängigen Variablen Der Unterschied zwischen einem y-Hut und einem y-beobachteten erscheint nirgendwo in der Wahrscheinlichkeitsfunktion für ein NB-Modell, zum Beispiel, aber es ist möglich, Machen einen solchen Vergleich Wenn der Analytiker das vorhergesagte Ergebnis aus einem ZINB-Modell mit der bedingten Mittelfunktion berechnet, dann verwendet er die Korrespondenz dieses Prädiktors mit dem Out Kommen Sie, sie können eine konventionelle Fit-Maßnahme berechnen, die mit dem, was die Leute scheinen, im Angesicht durch passende Maßnahme zu sein scheinen. Als allgemeiner Satz wird das ZINB-Modell sein nicht aufgeblasenes Gegenstück durch diese Maßnahme übertreffen.4 Ich habe hier keine Anmerkung Die Tasten sind Dort drückt man moderne Software ein.5 Das Problem der Interpretation läuft tiefer als nur herauszufinden, was ein Beta bedeutet, wenn ein Gamma, das die gleiche Variable multipliziert, an anderer Stelle im selben Modell erscheint In diesen nichtlinearen Modellen bietet weder die Beta noch die Gamma eine nützliche Maßnahme der Assoziation zwischen dem relevanten X und dem erwarteten Wert der abhängigen Variablen Es obliegt dem Forscher, die Konsequenzen der Modellkoeffizienten zu verstehen. In der Regel geht es darum, die Teilwirkungen zu schätzen. Teilweise Effekte in diesen Modellen sind nichtlineare Funktionen von Alle Modellparameter und alle Variablen im Modell sind sie kompliziert Moderne Software ist gebaut, um das researc zu helfen Sie tun dies Dies ist ein Prozess der laufenden Entwicklung wie der Befehl MARGINS in Stata und nlogit s PARTIALS Befehl Nichts davon ist wichtig, wenn der einzige Zweck der Schätzung ist, die Zeichen und die Bedeutung der geschätzten Koeffizienten zu melden, aber es muss verstanden werden Dass in nichtlinearen Kontexten diese wahrscheinlich bedeutungslos sind.6 Es ist möglich, das Modell so zu parametrieren, dass P b0 1 b0 exp beta x 1 exp beta x, was ist, was vorgeschlagen wird Das Problem, das dort vorher war Die Nullhypothese ist das b0 0, which is tricky to test, as Paul indicated However, if b0 0, then there is no ZIP model Or, maybe there is If b0 is zero, how do you know that beta 0 The problem of the chi-squared statistic when b0 is on the boundary of the parameter space is only the beginning How many degrees of freedom does it have If b0 0, then beta does not have to Don Andrews published a string of papers in Econometrica on models in which model parameters are unidentified under the null hypothesis This is a template case The interested reader might refer to them For better or worse, researchers have for a long time used the Vuong statistic to test for the Poisson or NB null against the zero inflation model The narrower model usually loses this race To sum this up, it is difficult to see the virtue of the reparameterized model The suggested test is invalid We don t actually know what it is testing The null model is just the Poisson or NB model The alternative is the zero inflated model, without the reparamaterization. Elizabeth Albright, PhD says. Thank you both for the interesting discussion I ve been working on a random effects negative binomial model to explain crime occurrence across a spatial grid The negative binomial model appears to fit quite well That said, I ve been thinking about whether there are two distinct data generating processes producing the zeros One, crime hasn t occurred, and two, crime occurred but has never been reported Perhaps then the ZINB makes sense I haven t tried it yet but will. Jakob Humaidan says. I think that it might be inappropriate to do as you describe for two reasons 1 The only reason why you came up with two possible classes of 0 s is that you know this is required for the ZI procedure, i e it is a post rationalization also mentioned in the discussion 2 You investigate where crime takes place so a 0 because no one reported a crime is not a real 0 the crime did take place For comparison, refer to the example from Paul Both groups of women sterile and those who just had no children were real 0 s none of them had children. Dalton Hance says. In all data sets that I ve examined, the negative binomial model fits much better than a ZIP model, as evaluated by AIC or BIC statistics And it s a much simpler model to estimate and interpret I get your second point in terms of a simpler model to estimate and interpret But I question your first point AIC and BIC are both based on the log likelihood Negative Binomial and ZIP have different probability density functions and thus different expression for likelihoods It s my understanding that AIC and BIC are meaningless when comparing models without the same underlying likelihood form. Paul Allison says. Good question, but I disagree To compare likelihoods or AICs or BICs , there s no requirement that the probability density functions be the same Only the data must be exactly the same For example, for a given set of data, I can compute the likelihood under a normal distribution or a gamma distribution The relative magnitudes of those likelihoods yields valid information about which distribution fits the data better. Ivan Kshnyasev says. Thank you both for the interesting discussion What do you think about two component hurdle models binomial gamma or Poisson or NegBin sees to me, it s easily interpretable and flexible tool. Paul Allison says. I don t know a lot about hurdle models, but they seem pretty similar to zero-inflated models They could be useful in some situations, but may be more complex than needed. Ivan Kshnyasev says. IMHO, they looks similar, but are easily interpretable and help to find some intresting effects, forexample different sign at the same predictor in binomial count part of the model. owolabi nurudeen says. What an intuitive discussion Using d NB model often d standard error estimates are lower in poisson than in NB which increases the likelihood of incorrectly detecting a significant effect in the poisson model But fitting ZI models predicts d correct mean counts and probability of zeros So I think ZINB is better to NB when having excess zeros. Jakob Humaidan says. Thank you both for the interesting discussion Can either of you tell me if a count dataset can contain such a large amount of zeros that none of the models mentioned in this blog NB, ZIP, ZINB are likely to work I have a count dataset that contains 126,733 cells out of which 125,524 count 0 That is, 99 05 of my dataset has a count of zero Is this a detrimental proportion, and s hould I instead do some random resampling of zero-cells in order to lower the number Thank you in advance. Paul Allison says. Well, ZINB should work in the sense of fitting the data Not sure whether it really makes sense, however In a case like this, I would be tempted to just dichotomize the outcome I don t see any advantage in sampling the zero cells. Ivan Kshnyasev says. Hi, Jakob Why don t try jast dichotomizing empty no and yes 0 or white black pixels then to logit-reg Another way agregate to bigger non-empty cells Poiss-like regression, or jast wait until lemming peak year. Jakob Humaidan says. Hi Paul Thank you for your answer I was wondering why you think that ZINB might not make sense Also, by dichotomize , do you mean using only the cells with values 0 The reason why I might need some zero cells is that this is a study of lemming habitat choice as expressed by the response variable number of winter nests in a cell as a function of some environmental explanatory variables related to snow cover and vegetation characteristics I thought, then, that in order to best uncover the relation between my explanatory variables and my response variable, cells with especially poor environmental conditions and zero nests ought also to be represented. Paul Allison says. Regarding the second question, I simply meant to dichotomize into zero and not zero By make sense I meant is it reasonable to suppose that there is some substantial fraction of cases that have 0 probability of making a nest regardless of the values of any covariates. Jakob Humaidan says. Yes, you are right that a large number of cells will be zero, not because of the covariates, but just by chance and because there are not so many lemmings in the area to fill it out I understand that it is these unexplained zeros that you say make ZINB pointless I guess that they should have belonged to the group of structural zeros like sterile women in your example for things to make sense only they don t, since these cells could ea sily have housed one or more nests Could you elaborate a little bit on which approach and model you think might be better then By dichotomize into zero and not zero , do you mean run the data strictly as presence-absence in a logistic regression manner Immediately, I would like to make use of the counts, as I think they might add information to the analysis Finally, I would like to say that your advice and help is very much appreciated Being able to choose a meaningful and appropriate model for the data analysis above will allow me to move past a critical point and into the final stages of writing my master thesis on the topic Thank you in advance Best regards. Jakob Humaidan says. Hi Paul Sorry, I just read your comment correctly now What I wrote above still applies to the dataset, though The answer to your question is it reasonable to suppose that there is some substantial fraction of cases that have 0 probability of making a nest regardless of the values of any covariates must be No T here are no sterile women in this dataset The only reason why a large part of the cells count zero, regardless of values of covariates, is that there are so relatively few lemmings in the area that they cannot take up all of the space even some of the attractive locations I understand that it is the ZI and hurdle approaches that make the assumption of a fraction of observations bound to be 0 regardless of covariates Since you say that the basic negative binomial regr model without ZI can also handle many zeros might that be the road to go down, then. Paul Allison says. I d say give it a try. Lorien Elleman says. I have been researching ZIP and have come across differing suggestions of when it would be appropriate to use The example below is on a tutorial page for when zero-inflated analysis would be appropriate My guess is that you would say zero-inflated analysis is not appropriate in this example, as there is no subgroup of students who have a zero probability of a days absent count grea ter than 0 Thanks. School administrators study the attendance behavior of high school juniors over one semester at two schools Attendance is measured by number of days of absent and is predicted by gender of the student and standardized test scores in math and language arts Many students have no absences during the semester. Paul Allison says. I agree that this is not an obvious application for ZIP or ZINB Surely all students have some non-zero risk of an absence, due to illness, injury, death in family, etc. ZI models may provide some explanations of the presenting of zeros I do not know if this is an advantage of ZI models And many thanks for your nice blog. Jim Graham says. This blog is going to be required reading for my students If only they could have this type of discourse Thanks. SIr, I work on crime data but I am facing an interesting problem When I fit the count data models I find that the ZINB explains the problem better but when I plot the expected dependent values, the poisson di stribution controlled for cluster heterogeneity fits better. Does it have something to do with your debate. Paul Allison says. Ranaivo Rasolofoson says. Paul, In this post you seem to recommend the standard negative binomial regression as a better way to deal with overdispersion In another post Beware of Software for Fixed Effects Negative Binomial Regression on June 8th, 2012, you argued that some software that use HHG method to do conditional likelihood for a fixed effects negative binomial regression model do not do a very good job Then, if one uses these softwares, it may be wise to use ZIP than negative binomial regression Right. Paul Allison says. Well, to the best of my knowledge, there s no conditional likelihood for doing fixed effects with ZIP So I don t see any attraction for that method. Ranaivo Rasolofoson says. OK I see To sum up 1 Standard Poisson model does not work because it cannot deal with overdispersion and zero excesses 2 Negative binomial model does not do appropriate co nditional likelihood, at least for some software SAS, STATA 3 There is no conditional likelihood for ZIP Then, it is kind of tough because there is no model that can appropriately deal with overdispersion and zero excesses There is the pglm package in R but there is not much information about how it deals with these two you happen to know more about it A solution may be to do Poisson fixed effects with quasi-maximum likelihood estimator QMLE This can be done in Stata However, I read that QMLE can overcome overdispersion but does not do great job with zero excesses Any thought about QMLE. Paul Allison says. I agree with your three points But, as I suggested, the negative binomial model often does just fine at handling excess zeros And you can do random effects NB with the menbreg command in Stata or the GLIMMIX procedure in SAS For fixed effects, you can do unconditional ML or use the hybrid method described in my books on fixed effects I don t know much about pglm, and the documentation is very sparse QMLE is basically MLE on the wrong model, and I don t think that s a good way to go in this case. Ranaivo Rasolofoson says. By the way, you said earlier that there s no conditional likelihood for doing fixed effects with ZIP What about PROC TCOUNTREG in SAS Somethig like MODEL dependent DIST ZIP ERRORCOMP FIXED Does not it do ZIP fixed effects conditional likelihood. Paul Allison says. I just tried that and got an error message saying that the errorcomp option was incompatible with the zeromodel statement But I was using SAS 9 3 Maybe it works in 9 4.Jwan Kamla says. Many thanks sir for this explanation 35 of my data includes zero values, do I need to apply zero-inflated negative binomial, or it is OK to use standard or random-parameter negative binomial Regards. Paul Allison says. Just because you have 35 zeros, that does not necessarily mean that you need a zero-inflated negative binomial A standard NB may do just fine. Negative Binomial model is an alternative to poisson mode l and it s specifically useful when the sample mean exceeds the sample Poisson model the mean and variance are equal Zero-inflated model is only applicable when we have two sources of zero namelystructural and hurdle models are suitable when we only have a single source, I e structural Regarding the data with 35 zeros first compute the mean and variance of the data if the mean and variance are equal fit poisson model if not try negative Binomial NB doesn t fit we ll check the characteristics of the zero, in terms of structural and decide to fit zero-inflated model or hurdle model. Paul Allison says. While I generally agree with your comment, you can t just check the sample mean and variance to determine whether the NB is better than the Poisson That s because, in a Poisson regression model, the assumption of equality applies to the CONDITIONAL mean and variance, conditioning on the predictors It s quite possible that the overall sample variance could greatly exceed the sample mean even und er a Poisson model Also, there s nothing in the data that will tell you whether some zeros are structural and some are sampling That has to be decided on theoretical grounds. Petr Otahal says. Thank you for an informative blog Can I please call on your time to clarify an analysis that I have that I believe should follow a ZINB I am unsure if I have it right and if the interpretations are correct. We have data on CV related ultrasound testing in regions of varying size over a year Many of these regions are very small and may not carry out any testing since there are no services available no cardiologists and some may carry out testing that has not been reported to us due to privacy reasons also likely to be related to few cardiologists We are using a ZINB with number of cardiologists as the predictor in the inflation-part of the model and we get what we believe to be sensible results as number of cardiologists increase in a region the odds of a certain structural zero decreases dramaticall y Can you verify that the interpretation of this part of the model is correct I assume that the negative binomial part of the model is interpreted the normal way i e that each factor influences the rate of testing carried out in each region we have a log population offset. Paul Allison says. No, that is not what I am saying ZIP and ZINB models both partition the zero values into some part that is attributable to the Poisson or negative binomial distribution and some part that is attributable to an extra-zeroes portion Typically, one does not estimate the overall mean value taking into account the two different distributional components. There is no such partitioning of zero values when you have a continuous, positive response along with some zero values The zero values are known to be from a single distribution So, there is no need to simultaneously estimate parameters of the two distributional components in order to disentangle the distributional parameters You can just fit a regression model for whether the response is zero-valued using all of the data and also fit a separate regression model to the observations which have positive value to get parameters of your logarithmic distribution. But you want to extend the concept of these models to estimating a person-specific mean value that takes into account the zero probability model and the positive value expectation This is not something that is typically done for the ZIP and ZINB models to my knowledge. The estimate of the expectation in the entire data including the zero values and the positive values can be easily obtained I have already stated that Regardless of whether you estimate the parameters of the two components simultaneously or whether you estimate the parameters of the two components in separate regressions, you can compute the expectation But whether the estimated standard error of the expectation is a good statistic is something which I don t know As I stated above, I don t believe that inferences about the expectation are necessarily part of a ZIP or ZINB model This may be an area that requires further investigation The standard error may be just fine But I would not want to assume that it is OK without investigating the properties of the estimate of the SE. In my situation, I am interested in inferences about the difference in group means in a 2X2 factorial design with 2 blocking factors just for good measure in order to do so, I need to know the variance and therefore the standard error of my groups of interest, and therefore, based on your comments modeling two seperate outcomes with proc logistic and proc mixed is not the most appropriate approach, despite its simplicity. I guess, using your reference above, I have two questions.1 How to come up with adequate starting point for the parameters in the param statement 2 Do I simply extend the logic for handling a blocked, factorial design with repeated measures as I would if this were proc mixed. The more I look at NLMIXED, the scarier it gets. Typically, zero values are safe initial parameter estimates for most parameters A zero value cannot be employed to initialize a variance However, if the model is parameterized such that you don t estimate the variance directly, but instead parameterize the model to estimate the log of the variance or, log of the square root of the variance , then a zero-value for the parameter which represents log Variance or log SD is a reasonable initial parameter. The blocking factors will introduce random effects into the model, right You don t say whether those blocking factors are crossed or nested The NLMIXED procedure cannot handle crossed random effects The NLMIXED procedure has some ability to handle designs with nested random effects But the number of levels of the nested blocking factor need to be relatively small if you are to fit the nested design using the NLMIXED procedure What exactly is your design.2X2 Factorial with 2 blocks crossed. So I guess Ill go back to original thought 2 seperate models. Same topic, new issue. Using the concepts previously stated, I can see how modelling 1 the binary responses 0 vs 0 and 2 for those that are positive, the continuous responses, works well in most cases In my case however, I have longitudinal data here is my problem. obs time1 time2 time3 1 1232 0 1121 2 119 989 0 3 0 0 3411.If I had only one response variable, both types of responses can be handled based on the seperate models approach you suggested However, although my binary 0 vs 0 logistic model holds in the example above, I believe I would need to drop all three of these observations, as the entire point of modelling the 0 s seperately is so that I can obtain an accurate mean response of the continous variables keeping those obs with 0 values goes against what I am trying to accomplish, dropping means a large loss of data. What I meant to say was. If I had only one response variable, both types of responses can be handled based on the seperate models approach you sugge sted However, although my binary 0 vs 0 logistic model holds in the example above, for the continous model I believe I would need to drop all three of these observations as the entire point of modelling the 0 s seperately is so that I can obtain an accurate mean response of the continous variables keeping those obs with 0 values goes against what I am trying to accomplish, dropping means a large loss of data. This may be too late for you, but if you have sas 9 22, check out the new experimental procedure called PROC SEVERITY Below is a quote from the User Guide I have not used it yet, but it has great potential for dealing with unusual continuous distributions. The SEVERITY procedure estimates parameters of any arbitrary continuous probability distribution that is used to model magnitude severity of a continuous-valued event of interest Some examples of such events are loss amounts paid by an insurance company and demand of a product as depicted by its sales PROC SEVERITY is especially u seful when the severity of an event does not follow typical distributions, such as the normal distribution, that are often assumed by standard statistical methods. PROC SEVERITY provides a default set of probability distribution models that includes the Burr, exponential, gamma, generalized Pareto, inverse Gaussian Wald , lognormal, Pareto, and Weibull distributions In the simplest form, you can estimate the parameters of any of these distributions by using a list of severity values that are recorded in a SAS data set The values can optionally be grouped by a set of BY variables PROC SEVERITY computes the estimates of the model parameters, their standard errors, and their covariance structure by using the maximum likelihood method for each of the BY groups.


No comments:

Post a Comment