Tuesday 24 October 2017

Autokorrelation Av-En Glidande-Medelvärde Processen


Autokorrelation av rörlig genomsnittsprocess Detta exempel visar hur man introducerar autokorrelation i en vit brusprocess genom filtrering. När vi introducerar autokorrelation i en slumpmässig signal manipulerar vi dess frekvensinnehåll. Ett glidande medelfilter dämpar signalens högfrekventa komponenter, vilket effektivt stryker det. Skapa impulssvaret för ett 3-punkts glidande medelfilter. Filtrera en N (0,1) vit ljudsekvens med filtret. Ställ in slumptalsgeneratorn till standardinställningarna för reproducerbara resultat. Hämta den förspända provautokorrelationen ut till 20 lags. Rita provautokorrelationen tillsammans med teoretisk autokorrelation. Provautokorrelationen fångar den allmänna formen av den teoretiska autokorrelationen, även om de två sekvenserna inte överensstämmer i detalj. I detta fall är det uppenbart att filtret endast har infört signifikant autokorrelation över lags -2,2. Sekvensens absoluta värde sjunker snabbt till noll utanför det intervallet. För att se att frekvensinnehållet har påverkats, beräkna Welch uppskattningar av effektspektraldensiteterna hos de ursprungliga och filtrerade signalerna. Det vita bruset har färgats av det glidande medelfiltret. MATLAB och Simulink är registrerade varumärken som tillhör The MathWorks, Inc. Vänligen se mathworkstrademarks för en lista över andra varumärken som ägs av The MathWorks, Inc. Övriga produkt - eller varumärken är varumärken eller registrerade varumärken som tillhör respektive ägare. Välj ditt land2.1 Flytta genomsnittsmodeller (MA modeller) Tidsseriemodeller som kallas ARIMA-modeller kan innefatta autoregressiva termer och eller rörliga genomsnittsvillkor. I vecka 1 lärde vi oss en autoregressiv term i en tidsseriemodell för variabeln x t är ett fördröjt värde av x t. Till exempel är en lag 1-autoregressiv term x t-1 (multiplicerad med en koefficient). Denna lektion definierar glidande medelvärden. En glidande medelfrist i en tidsseriemodell är ett tidigare fel (multiplicerat med en koefficient). Låt (wt overset N (0, sigma2w)), vilket betyder att w t är identiskt oberoende fördelade, var och en med en normal fördelning med medelvärde 0 och samma varians. Den första ordningens rörliga genomsnittsmodell, betecknad med MA (1) är (xt mu wt theta1w) Den andra ordens rörliga genomsnittsmodellen, betecknad med MA (2) är (xt mu wt theta1w theta2w) , betecknad med MA (q) är (xt mu wt theta1w theta2w prickar thetaqw) Anm. Många läroböcker och programvara definierar modellen med negativa tecken före villkoren. Detta ändrar inte de allmänna teoretiska egenskaperna hos modellen, även om den ändrar de algebraiska tecknen på uppskattade koefficientvärden och (unsquared) termer i formler för ACF och variationer. Du måste kontrollera din programvara för att kontrollera om negativa eller positiva tecken har använts för att korrekt beräkna den beräknade modellen. R använder positiva tecken i sin underliggande modell, som vi gör här. Teoretiska egenskaper hos en tidsserie med en MA (1) modell Observera att det enda nonzero-värdet i teoretisk ACF är för lag 1. Alla andra autokorrelationer är 0. Således är ett prov ACF med en signifikant autokorrelation endast vid lag 1 en indikator på en möjlig MA (1) modell. För intresserade studenter är bevis på dessa egenskaper en bilaga till denna handout. Exempel 1 Antag att en MA (1) modell är x t10 w t, 7 w t-1. Var (överskridande N (0,1)). Således är koefficienten 1 0,7. Den teoretiska ACF ges av En plot av denna ACF följer. Den visade ploten är den teoretiska ACF för en MA (1) med 1 0,7. I praktiken ger ett prov vanligen vanligtvis ett så tydligt mönster. Med hjälp av R simulerade vi n 100 provvärden med hjälp av modellen x t 10 w t .7 w t-1 där vikt N (0,1). För denna simulering följer en tidsserieplot av provdata. Vi kan inte berätta mycket från denna plot. Provet ACF för den simulerade data följer. Vi ser en spik vid lag 1 följt av allmänt icke-signifikanta värden för lags över 1. Observera att provet ACF inte matchar det teoretiska mönstret för den underliggande MA (1), vilket är att alla autokorrelationer för lags över 1 kommer att vara 0 . Ett annat prov skulle ha en något annorlunda prov ACF som visas nedan, men skulle troligen ha samma breda funktioner. Terapeutiska egenskaper hos en tids serie med en MA (2) modell För MA (2) modellen är teoretiska egenskaper följande: Observera att de enda nonzero-värdena i teoretisk ACF är för lags 1 och 2. Autokorrelationer för högre lags är 0 . En ACF med signifikanta autokorrelationer vid lags 1 och 2, men icke-signifikanta autokorrelationer för högre lags indikerar en möjlig MA (2) modell. Iid N (0,1). Koefficienterna är 1 0,5 och 2 0,3. Eftersom det här är en MA (2), kommer den teoretiska ACF endast att ha nonzero-värden endast vid lags 1 och 2. Värdena för de två icke-oberoende autokorrelationerna är A-plot av den teoretiska ACF följer. Såsom nästan alltid är fallet kommer provdata inte att fungera så perfekt som teori. Vi simulerade n 150 provvärden för modellen x t 10 w t .5 w t-1 .3 w t-2. Var vet N (0,1). Tidsserierna av data följer. Som med tidsserien för MA (1) provdata kan du inte berätta mycket för det. Provet ACF för den simulerade data följer. Mönstret är typiskt för situationer där en MA (2) modell kan vara användbar. Det finns två statistiskt signifikanta spikar vid lags 1 och 2 följt av icke-signifikanta värden för andra lags. Observera att provet ACF på grund av provtagningsfel inte exakt matchade det teoretiska mönstret. ACF för General MA (q) Modeller En egenskap hos MA (q) modeller är generellt att det finns icke-oberoende autokorrelationer för de första q-lagsna och autokorrelationerna 0 för alla lags gt q. Icke-unikhet av samband mellan värden på 1 och (rho1) i MA (1) Modell. I MA (1) - modellen, för något värde av 1. Den ömsesidiga 1 1 ger samma värde. Använd exempelvis 0,5 för 1. Och använd sedan 1 (0,5) 2 för 1. Du får (rho1) 0,4 i båda fallen. För att tillfredsställa en teoretisk restriktion kallad invertibility. Vi begränsar MA (1) - modellerna till att ha värden med absolutvärdet mindre än 1. I exemplet just givet är 1 0,5 ett tillåtet parametervärde, medan 1 10,5 2 inte kommer att. Inverterbarhet av MA-modeller En MA-modell sägs vara omvändbar om den är algebraiskt ekvivalent med en konvergerande oändlig ordning AR-modell. Med konvergeringen menar vi att AR-koefficienterna minskar till 0 när vi flyttar tillbaka i tiden. Omvändbarhet är en begränsning programmerad i tidsserierprogramvara som används för att uppskatta koefficienterna för modeller med MA-termer. Det är inte något vi söker efter i dataanalysen. Ytterligare information om invertibilitetsbegränsningen för MA (1) - modeller ges i bilagan. Avancerad teorinotation. För en MA (q) modell med en specificerad ACF finns det endast en inverterbar modell. Det nödvändiga villkoret för invertibilitet är att koefficienterna har värden så att ekvationen 1- 1 y-. - q y q 0 har lösningar för y som faller utanför enhetens cirkel. R-kod för exemplen I exempel 1 ritade vi den teoretiska ACF av modellen x t10 wt. 7w t-1. och sedan simulerade n 150 värden från denna modell och plottade provtidsserierna och provet ACF för de simulerade data. R-kommandona användes för att plotta den teoretiska ACF: acfma1ARMAacf (mac (0.7), lag. max10) 10 satser av ACF för MA (1) med theta1 0,7 lags0: 10 skapar en variabel som heter lags som sträcker sig från 0 till 10. plot (lags, acfma1, xlimc (1,10), ylabr, typh, huvud ACF för MA (1) med theta1 0,7) abline (h0) adderar en horisontell axel till plottet Det första kommandot bestämmer ACF och lagrar det i ett objekt Namnet acfma1 (vårt val av namn). Plot-kommandot (3: e kommandot) tomter jämförs med ACF-värdena för lags 1 till 10. ylab-parametern markerar y-axeln och huvudparametern lägger en titel på plotten. För att se de numeriska värdena för ACF använder du bara kommandot acfma1. Simuleringen och tomterna gjordes med följande kommandon. xcarima. sim (n150, lista (mac (0.7))) Simulerar n 150 värden från MA (1) xxc10 lägger till 10 för att göra medelvärdet 10. Simulering standardvärden betyder 0. plot (x, typeb, mainSimulated MA (1) data) acf (x, xlimc (1,10), mainACF för simulerad provdata) I exempel 2 ritade vi teoretisk ACF av modellen xt 10 wt5 w t-1, 3 w t-2. och sedan simulerade n 150 värden från denna modell och plottade provtidsserierna och provet ACF för de simulerade data. De R-kommandon som användes var acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 plot (lags, acfma2, xlimc (1,10), ylabr, typh, huvud ACF för MA (2) med theta1 0,5, theta20.3) abline (h0) xcarima. sim (n150, lista (mac (0,5, 0,3)) xxc10 plot (x, typeb, huvudsimulerad MA (2) serie) acf (x, xlimc (1,10) mainACF för simulerade MA (2) data) Bilaga: Bevis för egenskaper hos MA (1) För intresserade studenter, här är bevis för teoretiska egenskaper för MA (1) modellen. Varians: (text (xt) text (mu wt theta1 w) 0 text (wt) text (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) När h 1, föregående uttryck 1 w 2. För varje h 2, föregående uttryck 0 . Orsaken är att, per definition av vägtons oberoende. E (w k w j) 0 för någon k j. Vidare, eftersom w t har medelvärdet 0, E (wjwj) E (wj2) w2. För en tidsserie, Applicera detta resultat för att få ACF ges ovan. En inverterbar MA-modell är en som kan skrivas som en oändlig ordning AR-modell som konvergerar så att AR-koefficienterna konvergerar till 0 när vi rör sig oändligt tillbaka i tiden. Visa väl omvändbarhet för MA (1) modellen. Vi ersätter sedan förhållandet (2) för w t-1 i ekvation (1) (3) (zt wt theta1 (z-tetww) wt theta1z-tet2w) Vid tid t-2. Ekvation (2) blir vi då ersättningsförhållande (4) för w t-2 i ekvation (3) (zt wt theta1z-teteta21w wt theta1z-teteta21 (z-tetww) wt theta1z-theta12z theta31w) Om vi ​​skulle fortsätta Oändligt), skulle vi få oändlig ordning AR-modellen (zt wt theta1z-theta21z theta31z-tetaka41z punkter) Observera dock att om koefficienterna som multiplicerar lagren av z ökar (oändligt) i storlek när vi flyttar tillbaka i tid. För att förhindra detta behöver vi 1 lt1. Detta är förutsättningen för en inverterbar MA (1) modell. Oändlig ordning MA-modell I vecka 3 ser du att en AR (1) - modell kan konverteras till en oändlig ordning MA-modell: (xt - mu wt phi1w phi21w prickar phik1 w dots sum phij1w) Denna summering av tidigare vita ljudvillkor är känd Som kausalrepresentation av en AR (1). Med andra ord är x t en speciell typ av MA med ett oändligt antal termer som går tillbaka i tiden. Detta kallas en oändlig ordning MA eller MA (). En ändlig ordning MA är en oändlig ordning AR och någon ändlös ordning AR är en oändlig ordning MA. Minns i vecka 1 noterade vi att ett krav på en stationär AR (1) är att 1 lt1. Låter beräkna Var (x t) med hjälp av kausalrepresentationen. Det här sista steget använder ett grundläggande faktum om geometriska serier som kräver (phi1lt1) annars skiljer serien. Navigation Det första steget i utvecklingen av en Box-Jenkins-modell är att avgöra om serien är stationär och om det finns någon signifikant säsongsmässighet som behöver modelleras. Stationaritet kan bedömas från en körföljdsplan. Körningssekvensplanen ska visa konstant plats och skala. Det kan också detekteras från en autokorrelationsplot. Specifikt indikeras icke-stationaritet ofta av en autokorrelationsplot med mycket långsamt förfall. Skillnad för att uppnå stationärhet Box och Jenkins rekommenderar differentieringsmetoden för att uppnå stationäritet. Att anpassa en kurva och subtrahera de monterade värdena från originaldata kan dock också användas i Box-Jenkins modeller. Vid modellidentifieringssteget är vårt mål att upptäcka säsongsalitet, om den existerar, och att identifiera ordningen för säsongens autoregressiva och säsongsmässiga glidande medelvärden. För många serier är perioden känd och en enda säsongstid är tillräcklig. Till exempel, för månadsdata skulle vi typiskt inkludera antingen en säsongsbetonad AR 12-term eller en säsongsbetonad MA 12-term. För Box-Jenkins-modeller tar vi inte uttryckligen bort säsongsläget innan du monterar modellen. Istället inkluderar vi ordningen för säsongsbeteckningarna i modellspecifikationen till ARIMA-estimeringsprogrammet. Det kan emellertid vara tillrådligt att tillämpa en säsongsskillnad på data och regenerera autokorrelations - och partiella autokorrelationsplaner. Detta kan hjälpa till i modellen att identifiera den icke-säsongsmässiga komponenten i modellen. I vissa fall kan säsongsskillnaderna ta bort mest eller alla säsongsmässiga effekter. Identifiera p och q När stationäritet och säsongsmässighet har tagits upp är nästa steg att identifiera ordningen (dvs (p) och (q)) av de autoregressiva och glidande medeltalet. Autokorrelation och Delvis Autocorrelation Plots De primära verktygen för att göra detta är autocorrelation plot och partial autocorrelation plot. Provautokorrelationsplot och provpartiell autokorrelationsplot jämförs med det teoretiska beteendet hos dessa plottar när ordern är känd. Ordning av autoregressiv process ((p)) Specifikt för en AR (1) - process bör provautokorrelationsfunktionen ha ett exponentiellt minskande utseende. AR-processer med högre ordning är emellertid ofta en blandning av exponentiellt minskande och dämpade sinusformiga komponenter. För högreordningsautoregressiva processer måste provautokorrelationen kompletteras med en partiell autokorrelationsplot. Den partiella autokorrelationen av en AR ((p)) - process blir noll vid fördröjning (p 1) och större, så vi undersöker provets partiella autokorrelationsfunktion för att se om det finns bevis för avvikelse från noll. Detta bestäms vanligen genom att placera ett 95-konfidensintervall på provets partiella autokorrelationsplot (de flesta program som genererar exempelautocorrelationsplottar kommer också att plotta detta konfidensintervall). Om programvaran inte genererar konfidensbandet är det ungefär (pm 2sqrt), med (N) betecknar provstorleken. Ordningen för rörlig medelprocess ((q)) Autokorrelationsfunktionen för en MA ((q)) - process blir noll vid lag (q 1) och större, så vi undersöker provautokorrelationsfunktionen för att se var den i huvudsak blir noll. Vi gör detta genom att placera 95 konfidensintervallet för provautokorrelationsfunktionen på provautokorrelationsplotten. De flesta program som kan generera autokorrelationsplotten kan också skapa detta konfidensintervall. Provpartiell autokorrelationsfunktionen är i allmänhet inte till hjälp för att identifiera ordningen för det glidande medelprocessen. Form av autokorrelationsfunktion Följande tabell sammanfattar hur vi använder provautokorrelationsfunktionen för modellidentifikation. Förslag: Kontrollera Randomness Autocorrelation Plots (Box och Jenkins, s. 28-32) är ett vanligt använd verktyg för att kontrollera slumpmässigt i en dataset. Denna slumpmässighet bestäms genom att beräkna autokorrelationer för datavärden vid olika tidsfördröjningar. Om slumpmässigt skulle sådana autokorrelationer vara nära noll för alla tidsfördröjningar. Om icke-slumpmässigt, kommer en eller flera av autokorrelationerna att vara signifikant icke-noll. Dessutom används autokorrelationsplottor i modellidentifieringssteget för Box-Jenkins autoregressiva, glidande genomsnittliga tidsseriemodeller. Autokorrelation är bara en åtgärd av slumpmässighet Observera att okorrelerade inte nödvändigtvis betyder slumpmässig. Data som har betydande autokorrelation är inte slumpmässig. Däremot kan data som inte visar signifikant autokorrelation fortfarande uppvisa icke-slumpmässighet på andra sätt. Autokorrelation är bara ett mått på slumpmässighet. I samband med modellvalidering (vilket är den primära typen av slumpmässighet vi dicuss i Handboken) är kontroll av autokorrelation typiskt ett tillräckligt slumpmässigt test eftersom resterna från en dålig monteringsmodell tenderar att visa icke-subtil slumpmässighet. Vissa tillämpningar kräver dock en mer bestämd bestämning av slumpmässighet. I dessa fall tillämpas ett batteri av test, som kan innefatta kontroll av autokorrelation, eftersom data kan vara slumpmässigt på många olika och ofta subtila sätt. Ett exempel på var en mer noggrann kontroll för slumpmässighet behövs skulle vara att testa slumptalsgeneratorer. Provplott: Autokorrelationer ska vara nära noll för slumpmässighet. Sådan är inte fallet i det här exemplet och sålunda slår slumpmässigt antagande bort. Denna provautokorrelationsplot visar att tidsserierna inte är slumpmässiga utan snarare en hög grad av autokorrelation mellan intilliggande och närliggande intilliggande observationer. Definition: r (h) mot h Autokorrelationsplottor bildas av vertikal axel: Autokorrelationskoefficient där Ch är autokovariansfunktionen och C0 är variansfunktionen Observera att R h är mellan -1 och 1. Observera att vissa källor kan använda Följande formel för autokovariansfunktionen Även om denna definition har mindre förspänning har formuleringen (1N) några önskvärda statistiska egenskaper och är den form som oftast används i statistiklitteraturen. Se sidorna 20 och 49-50 i Chatfield för detaljer. Horisontell axel: Tidsfördröjning h (h 1, 2, 3.) Ovanstående rad innehåller också flera horisontella referenslinjer. Mellanlinjen är noll. De övriga fyra linjerna är 95 och 99 konfidensband. Observera att det finns två distinkta formler för att skapa förtroendeband. Om autokorrelationsplanen används för att testa för slumpmässighet (dvs det finns inget tidsberoende i data) rekommenderas följande formel: där N är provstorleken, är z den kumulativa fördelningsfunktionen för normal normalfördelning och (alfa ) Är signifikansnivån. I detta fall har konfidensbanden en fast bredd som beror på provstorleken. Detta är den formel som användes för att generera förtroendeband i ovanstående diagram. Autocorrelation plots används också i modellidentifieringssteget för montering av ARIMA-modeller. I detta fall antas en glidande genomsnittsmodell för data och följande förtroendeband ska genereras: där k är lagret, N är provstorleken, z är den kumulativa fördelningsfunktionen för normal normalfördelning och (alfa) är signifikansnivån. I detta fall ökar konfidensbanden när fördröjningen ökar. Autokorrelationsplotten kan ge svar på följande frågor: Är data slumpmässigt En observation relaterad till en närliggande observation Är en observation relaterad till en observation två gånger borttagen (etc.) Är den observerade tidsserien vitt brus Är de observerade tidssekvenserna sinusformiga Är den observerade tidsserien autoregressiv Vad är en lämplig modell för de observerade tidsserierna Är modellen giltig och tillräcklig Är formuläret ssqrt giltigt Betydelse: Säkerställa validitet av tekniska slutsatser Randomness (tillsammans med fast modell, fast variation och fast distribution) är Ett av de fyra antaganden som typiskt ligger till grund för alla mätprocesser. Slumpmässigt antagande är kritiskt viktigt av följande tre anledningar: De flesta standardstatistikprov beror på slumpmässighet. Giltigheten av test slutsatserna är direkt kopplad till giltigheten av slumpmässigt antagande. Många vanligen använda statistiska formler beror på slumpmässigt antagande, den vanligaste formeln är formeln för bestämning av standardavvikelsen för provmedlet: där s är standardavvikelsen för data. Även om det är tungt använd, är resultaten från att använda denna formel inget värde om inte slumpmässigt antagande innehas. För univariata data är standardmodellen Om data inte är slumpmässiga, är denna modell felaktig och ogiltig, och uppskattningarna för parametrarna (som konstanten) blir oanständiga och ogiltiga. Kort sagt, om analytikern inte kontrollerar slumpmässighet, blir giltigheten för många av de statistiska slutsatserna misstänkt. Autocorrelation plot är ett utmärkt sätt att kolla på sådan slumpmässighet.

No comments:

Post a Comment