Sunday 28 April 2019

Xtprobit fixed effects in stata forex


Eu tenho um conjunto de dados de painel com uma amostra de 800 grupos, cada um com entre 200-500 observações. Os dados são assim: a variável dependente é binomial: closegp30f30. As variáveis ​​independentes são taxas de crescimento contínuas. Um exemplo de resumo de um desses é: Gostaria de executar esta regressão experimental: no entanto, quando adiciono mais do que cerca de 5 variáveis, a regressão nunca converge e parece que me encostei em um loop de iterações de backup, assim: eu Também repetiram essa regressão com todas as informações de depuração habilitadas, isso é uma grande quantidade de informações, mas pode fornecer a resposta sobre por que não é convergente. Note-se que, aqui, regredisse os valores padronizados das variáveis ​​independentes, mas isso teve exatamente o mesmo efeito (por alguma razão, eu esperava que solucionasse meu problema). Minhas principais perguntas são: Por que não é convergente Como posso resolver esta situação Atualização: verificações de multicolinearidade Isso também não parece ser um problema. Atualização 2: com opção de gradiente e limites modificados: não sei se isso ajuda, mas quando eu faço xtdata indepvars, eu (tickerid) fe clear seguido de um logit depvar indepvar (que normalmente funcionou bem), o logit parece ficar preso também. Eu, portanto, acredito que ele tem algo a ver com efeitos fixos e os dados do painel. Isso faz sentido Como mencionado, eu já tentei difícil. Sem efeito. Ainda não compreendo por que isso está acontecendo. É o meu dado? Como eu determino qual variável está causando isso? Posso transformá-lo para resolver o problema? Você quer que eu o execute novamente com dificuldade e publicar o novo arquivo de log. A regressão está na iteração 34 agora e o gradiente ainda é 2111.886 ndash Tom Mar 30 13 às 22:42 Uma resposta curta é que os modelos complicados são muitas vezes difíceis de caber Você deve tentar um modelo muito mais simples primeiro. Talvez haja problemas devido a altas correlações entre preditores. Às vezes, o uso da opção difícil ajuda. O ponto de tentar um modelo mais simples primeiro é duplo. Se você não conseguir um modelo mais simples para caber, um modelo mais complicado é ainda menos propenso a caber. Mais especificamente, pode ser possível identificar quais preditores são problemáticos: à medida que você os adiciona, as coisas são detectáveis. Às vezes, as pessoas tentam transformar as taxas de crescimento com alguma transformação que preserva os sinais, como a raiz do cubo ou uma função hiperbólica inversa. Isso é sugerido porque o seu preditor de amostra é extremamente distorcido com uma alta cursite, com valores abertos de taxas de crescimento muito elevadas. Isso poderia ser seriamente problemático. Além disso, uma suposição difícil é que, embora sua resposta seja de 0,1, ela aparece do mesmo tipo que as outras: sua dicotomização foi algo como (valor limite). Se assim for, você pode ter descartado a maioria das informações na resposta original e Você está tentando explicar isso pelo ruído mais outliers. Essa é uma leitura altamente pessimista, mas parece inteiramente consistente com o que você está nos dizendo. Você tem experiência anterior montando modelos similares com dados semelhantes, ou há literatura que implique que eles funcionam atendidos 30 de março 13 às 21:04 Quando eu tento menos variáveis ​​como g1, g3, g10, g15, ele funciona. Mas quando eu começar a adicionar mais do que 5 não converge. Como isso me ajuda, eu preciso incluir todas as variáveis ​​e ver sua importância. Eu atualizei minha pergunta original com uma verificação de multicolinearidade: isso não parece ser o problema. Eu também tentei a opção difícil, mas não ajudou. Ndash Tom Mar 30 13 às 21:55 Em resposta à sua atualização: fiz uma dicotomização da variável dependente. É um quando a taxa de crescimento futuro é positiva e zero quando é negativo ou zero. Os meus motivos para isso são fundamentados porque eu não preciso saber mais do que esse comportamento ascendente ou descendente, e isso me permite usar um modelo logístico com pressupostos laxer do que regressões OLS. Meus resultados iniciais parecem confirmar isso, porque as previsões feitas pela regressão OLS são muitas vezes inválidas (mesmo quando se olham unicamente para o sinal de crescimento) do que as previsões feitas pela regressão logística de efeitos fixos. Ndash Tom Mar 31 13 às 15: 07Anuncio 29 de julho de 2017, 08:54 Oi Matthias, algumas perguntas e comentários de mim. Primeiro, você menciona que sua variável dependente é o número de acidentes, mas você está usando modelos probit binários. O número de acidentes parece ser uma variável de contagem para mim não binário, como isso é possível. Agora, no que diz respeito à sua primeira pergunta, o xtset conta a Stata quais as variáveis ​​de nível 1 e nível 2 para todos os comandos relacionados ao xt. Você só precisa usá-lo quando quiser definir quais são essas duas variáveis. Se eles não mudam ao longo de sua análise, você só precisa chamá-lo uma vez. Sua segunda pergunta é impossível de responder sem conhecer os dados. Dito isto, é algo que é testável, mas não ao usar xtprobit, uma vez que não faz uma estimativa de efeitos fixos. Você precisaria usar xtlogit para isso, executar efeitos fixos e estimativas de efeitos aleatórios e depois fazer um teste de especificação Hausman usando o comando hausman. Não importa qual seja o resultado do teste de Hausman, sempre acho útil fazer estimativas de efeitos aleatórios e fixos e comparar os coeficientes para ver quanto de um viés que os regressores podem causar na estimação de efeitos aleatórios, assumindo que os efeitos fixos são Apropriado que seja. Espero que isso ajude, 29 de julho de 2017, 10:09 obrigado pela sua resposta instantânea. Número de acidentes está na minha regressão uma variável dummy (1 pelo menos um acidente, 0 sem acidente) usando xtlogit é um bom ponto, pois permite a opção de efeitos fixos. Eu ainda não entendo seu segundo argumento: quotxtset idofpolicyholder yearquot deve dizer à Stata que estou usando dados de painel, e esse ano é a variável de tempo. É assim que eu interpreto a opção de ajuda. Então, tudo o que tenho a fazer é ajustar os dados primeiro, então eu uso o comando xtset idofpolicyholder year para dizer a Stata que estou usando dados de painel, então eu executo a regressão xtlogit praticamente da mesma maneira que eu fiz com o meu número de erro bivariante de probit xtlogit de acidentes O tipo de cobertura do motor sexual da garagem de energia na idade da idade do veículo durante os quilômetros de quilometragem por ano. (Outras variáveis ​​de controle), re (a diferença é, na minha opinião, que eu tomo uma das duas variáveis ​​dependentes do probit bivariado e adicione-a como uma variável independente no modelo xtlogit, por exemplo, typeofcoverage. Estou executando duas vezes (uma vez com o Opção. Re e uma vez com a opção, fe Depois, estou usando a demonstração de Hausman para descobrir se a especificação de efeitos fixos ou a especificação de efeitos aleatórios se adequa melhor à minha regressão, direito. Sobre a robustez do meu modelo, eu testaria ainda mais a heterocedasticidade (Por exemplo, o teste Breusch-Pagan) e a correlação serial (teste de Breusch-Godfrey) Você concorda Obrigado por sua paciência com meu conhecimento empírico irregular 29 Jul 2017, 10:52 Um problema surge se um modelo bivariado é o verdadeiro modelo ao incluir um dos As variáveis ​​de resposta como uma variável explicativa na outra equação: a da endogeneidade. Observe que se os erros das duas equações estiverem correlacionados no modelo bivariado, então a variável de resposta de um de t As equações também estão correlacionadas com os erros da outra equação, portanto, a fonte do problema de endogeneidade. Eu suponho (adivinhando) que você está fazendo isso porque não há um comando xtlogit bivariado Como na outra discussão eu mencionei que o comando do usuário cmp (SSC) fará um probit bivariado com efeitos aleatórios e como contabilizar os efeitos fixos incluindo manequim Variáveis. Você pode usar isso para ver se os erros estão correlacionados entre as equações e se é que é uma indicação clara de que você não deve incluir uma variável de resposta de uma equação no outro. Dito isto, você sempre pode executar as duas equações separadamente, sem incluir as variáveis ​​de resposta como variáveis ​​explicativas. Execute o cmp em cada um deles com efeitos aleatórios e cmp para o probit bivariante com efeitos aleatórios. Então, você pode comparar os coeficientes (ou os efeitos marginais, o que você prefere) de ambos os métodos em ambas as equações, bem como determinar se há correlação entre os erros de ambas as equações em qualquer nível (o nível de agrupamento ou o nível do ano). Se você quer fazer efeitos fixos com o probit bivariante, você ainda pode usar cmp com os idiotas do grupo, como eu expliquei na outra discussão. Então, você pode estimar as equações probit individuais com os dummies do grupo, e o probit bivariante com os dummies do grupo em cada equação, todos com cmp. E compare. Eu não sei como fazer o teste de Hausman, então, isso lhe dá uma comparação direta dos coeficientes comuns nas estimativas, efeitos aleatórios e fixos. Depois de ler ambas as discussões, acredito que este é o melhor caminho a seguir para você. Pode ter a curva de aprendizado de como usar o cmp. Mas uma vez que você faz isso, você pode estimar equações únicas e modelos bivariados, bem como efeitos aleatórios, efeitos fixos ou modelos agrupados (média da população) (ou seja, uma estimativa de apenas uma constante na equação, portanto, nem efeitos fixos nem aleatórios ). Com respeito ao teste de BP ou ao teste de BG. Com variáveis ​​binárias, não é tão direto quanto com as variáveis ​​de resposta contínua, então eu não tentaria fazer muito por enquanto. Outra coisa a pensar é que, com quatro anos de dados (você mencionou 2008 - 2017 na outra discussão), não há muita dimensão para a série temporal para capturar a correlação serial, e se a heterocedasticidade nos dados é por causa das diferenças em O nível do seguro, você já o teria capturado com os efeitos aleatórios ou fixos. 29 de julho de 2017, 13:44 hhanks para obter informações adicionais: acho que entendi como implementar um biprobit cmp: De acordo com o quotcmp helpquot, eu preciso do seguinte comando: (1) cmp (acidsperyear ... variáveis ​​explorativas). (Typeofcoverage. Explicativo variáveis), ind (cmpoprobit cmpoprobit) tecnologia nolr (DFP) Abaixo você vê minha estimativa biprobit:. Como você pode ver, é bastante extensa (2) biprobit accidentsperyear typeofcoveragedummy kmtravelledperyeartsd ageofinsuree sexofinsuree initialcarvalue agecar garagedummy noclaimsbonusd1 noclaimsbonusd5 noclaimsbonusd7 noclaimsbonusd10 noclaimsbonusd20 noclaimsbonusd30 noclaimsbonusd40 noclaimsbonusd50 noclaimsbonusd56 Noclaimsbonusd57 noclaimsbonusd58 noclaimsbonusd59 noclaimsbonusd61 noclaimsbonusd62 noclaimsbonusd63 noclaimsbonusd64 noclaimsbonusd65 noclaimsbonusd66 noclaimsbonusd67 noclaimsbonusd68 noclaimsbonusd69 noclaimsbonusd71 noclaimsbonusd72 noclaimsbonusd73 noclaimsbonusd74 noclaimsbonusd75 noclaimsbonusd76 noclaimsbonusd77 noclaimsb onusd78 noclaimsbonusd79 noclaimsbonusd81 noclaimsbonusd82 noclaimsbonusd83 noclaimsbonusd84 noclaimsbonusd85 noclaimsbonusd86 noclaimsbonusd87 noclaimsbonusd88 noclaimsbonusd89 typeofcard0 typeofcard10 typeofcard11 typeofcard12 typeofcard13 typeofcard14 typeofcard15 typeofcard16 typeofcard17 typeofcard18 typeofcard19 typeofcard20 typeofcard21 typeofcard22 typeofcard23 typeofcard24 typeofcard25 typeofcard26 typeofcard27 typeofcard28 typeofcard29 typeofcard30 typeofcard31 typeofcard32 typeofcard33 typeofcard34 regionalclassd1 regionalclassd2 regionalclassd3 regionalclassd4 regionalclassd5 regionalclassd6 regionalclassd7 regionalclassd8 regionalclassd9, nolog robusto Accidentsperyear E o tipo de cobertura são minhas duas variáveis ​​dependentes. Minhas variáveis ​​independentes são: kmtravelledperyeartsd ageofinsuree sexofinsuree firstcarvalue agecar garagedummy Além disso, eu tenho três variáveis ​​ordinal: noclaimsbonus, typeofcar e regionalclass I incluíam (n-1) dummies para estas três variáveis. Quando incluo muitas variáveis ​​no comando cmp (1), isso não funciona. Só funciona quando deixo, por exemplo, apenas duas variáveis ​​independentes, e. (3) cmp (acidentes com percursos de periferia de duração de período de idade) (tipo de cobertura de kmtravelled peryeartsd ageofinsuree), ind (cmpoprobit cmpoprobit) (3) funciona. Se eu entendi você corretamente, eu tenho que incluir os manequins para os diferentes polidyholders (no meu caso 140 variáveis ​​dummy) Eu ainda tenho que incluir todas as variáveis ​​explicativas de (2) ou posso soltar algumas das variáveis ​​independentes da equação ( 2) Eu apenas receio que não funcione com muitas variáveis ​​como no modelo de probit bivariante normal. Você tem alguma idéia de como proceder 30 de julho de 2017, 08:43 O que você quer dizer que cmp não funciona? Por favor, seja específico. Você tem razão em temer que pode não funcionar, mas se os dados estiverem certos, ele deve convergir (eventualmente) e dar-lhe resultados. Quanto à sua sintaxe do cmp. Não está bem. Você está indicando que as duas equações são comprovadas, e não são, são simples probits. Então você precisa de ind (cmpprobit cmpprobit). Por isso, não está funcionando. Sugiro que tente sem tecnologia (dfp) primeiro. Se não converge, você pode querer adicionar a opção diff primeiro e ver como isso acontece. E se ainda não converge, então você começa a jogar com as técnicas de otimização com a opção tech (). Para efeitos fixos sim, basta adicionar as variáveis ​​dummy para os segurados ao conjunto de variáveis ​​explicativas. Você pode estimá-los com biprobit e cmp. E compare. Para os efeitos aleatórios e seguindo seu exemplo: Lembre-se de que é a variável categórica não os manequins para o segurado que vão na definição de cada equação. Essa estimativa pode levar algum tempo e ser difícil de convergir. Se isso acontecer, o primeiro é tentar com a opção diff, e se isso ainda não parece convergir, você pode jogar com as técnicas e usar a tecnologia (dfp) que você teve antes. Mas talvez ele converge bem. Apenas deixando você saber que pode ser um tempo intensivo e, novamente, pode não ser. Agora, uma dica para a simplicidade. Quando eu tenho tantas variáveis ​​explicativas e quero usá-las em diferentes regressões, defino macros globais com elas. No seu caso, eu faria, eu não me lembro do que chamamos de manequins para os segurados na outra publicação, mas observe que eu estou usando o curinga para incluí-los. Agora, em x1, você possui todas as variáveis ​​para as estimativas de efeitos simples e aleatórios, e em x2 você possui as variáveis ​​para a explicação de efeitos fixos. Você pode ir e fazer 31 Jul 2017, 15:37 Oi Alfonso, novamente, obrigado pela sua ajuda. Eu realmente aprecio isso. Seus comandos com as macros globais e a mercadoria ao incluir um monte de manequins funcionam perfeitamente. Infelizmente, apenas uma das regressões (o probit bivariante de efeitos fixos com o comando cmp) funciona (mas apenas às vezes). Depois de ajustar todas as variáveis ​​explicativas, tenho 532 observações restantes. Uma vez que temos quatro anos, isso nos deixa com 133 indivíduos. Eu tentei as suas especificações: acidentes de biprobit com tipo de sabedoria x1, nolog robusto Resultado: não converge (não côncavo) Mesmo após omitindo os manequins para noclaimsbonus, typeofcar e regionalclass Probabilidade bíblica lisa acidentes de biprobit por ano de tipo coberto x1, nolog robusto Resultado: o modelo de montagem não converge (Não côncavo) cmp (acidentes com perpétuo x1) (tipo de gabarito calculado x1), vce (robusto) ind (cmpprobit cmpprobit) Resultado: errormessage2 aparece. Efeitos corrigidos bivariados probados biprobit acidentes de tipo perpétuo de gabarito x2, robusto nolog cmp (acidentes peryear x2) (tipo de gabarito curado x2), vce (robusto) ind (cmpprobit cmpprobit) Resultado: a especificação cmp funciona, mas às vezes, e às vezes errormessage1 aparece efeitos aleatórios Bivariável probit cmp (acidentesperyear x1 segurureecategoricalvariable (typeofcoveragedummy x1 insureecategoricalvariable, vce (robusto) ind (cmpprobit cmpprobit) Resultado: Eu não executei este até agora. Eu acho que quotinsureecategoricalvariablequot e quotinsureeDumquot é o mesmo. Se você tem uma idéia espontânea o que poderia ser O problema não hesita em fazer uma proposta, enquanto isso vou continuar a resolver o problema com comandos opcionais, como o comando diff, por exemplo. Atenciosamente Matthias PS: se as informações fornecidas são um pouco confusas, não hesite em perguntar Para aclarar isso. 21 de agosto de 2017, 05:16 A convergência, ou a falta de convergência neste caso, é uma questão complicada. Às vezes eu St por causa da falta de dados, outros por causa da falta de modelo, ainda outros, porque os deuses estão contra você. No seu caso, parece que uma variável (kmtravelledperyear) prediz o resultado perfeitamente, então não há estimativas possíveis. Isso significa que tudo o que você precisa para prever o resultado é saber se kmtravelledperyear é maior do que 5. Desculpe, mas eu não posso ajudá-lo ainda mais com isso.

No comments:

Post a Comment