Tuesday, October 11, 2016

Linear Regression En Beweeg Gemiddeldes

Glad data verwyder ewekansige variasie en programme tendense en sikliese komponente Inherent in die versameling van data geneem met verloop van tyd is 'n vorm van ewekansige variasie. Daar bestaan ​​metodes vir die vermindering van van die kansellasie van die effek as gevolg van ewekansige variasie. 'N dikwels gebruikte tegniek in bedryf is glad. Hierdie tegniek, wanneer dit behoorlik toegepas word, blyk duidelik die onderliggende tendens, seisoenale en sikliese komponente. Daar is twee afsonderlike groepe glad metodes Berekening van gemiddelde metodes Eksponensiële Smoothing Metodes Neem gemiddeldes is die eenvoudigste manier om data te stryk Ons sal eers ondersoek sommige gemiddelde metodes, soos die eenvoudige gemiddeld van al die afgelope data. 'N Bestuurder van 'n pakhuis wil weet hoeveel 'n tipiese verskaffer lewer in 1000 dollar eenhede. Hy / sy neem 'n monster van 12 verskaffers, na willekeur, die verkryging van die volgende resultate: Die berekende gemiddelde of gemiddeld van die data 10. Die bestuurder besluit om dit te gebruik as die skatting vir uitgawes van 'n tipiese verskaffer. Is dit 'n goeie of slegte skat Gemiddelde kwadraat fout is 'n manier om te oordeel hoe goed 'n model is Ons sal bereken die gemiddelde kwadraat fout. Die fout ware bedrag wat minus die beraamde bedrag. Die fout vierkant is die fout hierbo, vierkantig. Die SSE is die som van die gekwadreerde foute. Die MSE is die gemiddeld van die kwadraat foute. MSE lei byvoorbeeld Die uitslae is: Fout en gekwadreerde foute Die raming 10 Die vraag ontstaan: kan ons gebruik maak van die gemiddelde inkomste voorspel as ons vermoed dat 'n tendens 'n blik op die grafiek hieronder toon duidelik dat ons nie dit sou doen. Gemiddeld weeg al verlede Waarnemings ewe In opsomming, ons verklaar dat die eenvoudige gemiddelde of gemiddeld van al verlede waarnemings is net 'n nuttige skatting vir vooruitskatting wanneer daar geen tendense. As daar tendense, gebruik verskillende skattings dat die tendens in ag neem. Die gemiddelde weeg al verlede Waarnemings ewe. Byvoorbeeld, die gemiddelde van die waardes 3, 4, 5 is 4. Ons weet natuurlik dat 'n gemiddelde word bereken deur die toevoeging van al die waardes en die som te deel deur die aantal waardes. Nog 'n manier van berekening van die gemiddelde is deur die byvoeging van elke waarde gedeel deur die aantal waardes, of 3/3 4/3 5/3 1 1,3333 1,6667 4. Die vermenigvuldiger 1/3 is die gewig genoem. In die algemeen: bar frac som links (frac regs) x1 links (frac regs) x2,. ,, Links (frac regs) xn. Die (links (frac regs)) is die gewigte en, natuurlik, hulle vat om 1.Moving Gemiddeldes Die bewegende gemiddelde word bereken deur die gemiddeld van die prys waardes oor die gespesifiseerde interval lengte. 160Note dat daar geen interval gegee, alle waardes is met betrekking tot die huidige vertoon tyd van die grafiek. 160A lyn verbind die gemiddeldes skep 'smoothing effek wat kan help in die voorspelling van tendense of die onthulling van ander belangrike patrone. 160The bewegende gemiddelde kan vorentoe of agtertoe geneutraliseer in tyd met behulp van die Offset omgewing. Adaptive Die Adaptive bewegende gemiddelde raak meer sensitief as die prys beweeg in 'n sekere rigting en word minder sensitief vir die prys beweging wanneer die prys is wisselvallig. Double Eksponensiële (Dema) Die Dema bestaan ​​uit 'n enkele eksponensiële bewegende gemiddelde en 'n dubbele eksponensiële bewegende gemiddelde. Eksponensiële Die eksponensiële bewegende gemiddelde wys 'n groter gewig aan die mees onlangse bar en dan af eksponensieel met elke staaf. 160It reageer vinnig om onlangse wysigings van die prys. 160 Eksponensiële bewegende gemiddelde. Hull Die Hull bewegende gemiddelde gebruik die vierkantswortel van die aantal bars om die smoothing bereken. 160It het 'n hoë vlak van gladstryking, maar reageer ook vinnig om prysveranderinge. 160 Hull bewegende gemiddelde. Lineêre regressie lineêre regressie erwe die pad van die eindpunt van 'n lineêre regressielyn terug deur die grafiek. Gewysig die gewysigde bewegende gemiddelde gebruik van 'n skuins faktor te help om dit aan te pas met die verhoging of verlaging van verhandelingsprys. Eenvoudige Die eenvoudige bewegende gemiddelde word bereken deur die sluiting pryse van die vorige bars (die aantal bars is deur jou gekies) en verdeel dit deur die aantal bars. 160Equal gewig gegee aan elke bar. 160 Eenvoudige bewegende gemiddelde. - Sinus Geweegde die sinus-Geweegde Moving Gemiddelde neem sy gewig van die eerste helfte van 'n sinusgolf siklus sodat die grootste gewig word aan die data in die middel. Reëlmatige Die stryk bewegende gemiddelde gee onlangse pryse dieselfde gewig as historiese pryse. Die berekening gebruik al die beskikbare data. Dit trek yesterdays Reëlmatige bewegende gemiddelde van vandag se prys dan voeg hierdie resultaat te yesterdays Reëlmatige bewegende gemiddelde. Tydreeks Die tydreekse bewegende gemiddelde is geskep met behulp van 'n lineêre regressie tegniek. 160It plotte die laaste punt van 'n lineêre regressielyn gebaseer op die aantal bars in die studie gebruik. 160These punte word dan gekoppel aan 'n bewegende gemiddelde vorm. 160160160 Tyd Reeks bewegende gemiddelde. Driehoekige Die driehoekige bewegende gemiddelde gee die meeste gewig by die bars in die middel van die reeks. 160It is ook gemiddeld twee keer so dit het 'n groter glad as ander bewegende gemiddeldes. 160 Driehoekige bewegende gemiddelde. Veranderlike Die veranderlike bewegende gemiddelde pas die gewig aan elke bar gebaseer op die wisselvalligheid in die ooreenstemmende bar. Veranderlike bewegende gemiddelde. Vidya Die Vidya (Volatiliteit Index Dynamic Gemiddelde) bewegende gemiddelde gebruik van 'n wisselvalligheid indeks vir weeg elke staaf. 160 Vidya bewegende gemiddelde. Geweegde Die geweegde bewegende gemiddelde wys 'n groter gewig aan die mees onlangse bar en dan af aritmetisch met elke maat, gebaseer op die aantal bars gekies vir die studie, totdat dit 'n gewig van nul bereik. 160 Geweegde bewegende gemiddelde. Welles Wilder glad die Welles Wilder glad bewegende gemiddelde reageer stadig op prysveranderings. 160 Welles Wilder glad bewegende gemiddelde. Voorkeure As jy regs kliek op die bewegende gemiddelde en kies 'Voorkeure', sal jy een van die onderstaande vensters kry. 160All van die verskillende tipes van bewegende gemiddeldes het dieselfde voorkeure behalwe vir die Adaptive bewegende gemiddelde en die Vidya bewegende gemiddelde. 160This is waar jy die lengte (aantal bars om te gebruik), verreken (wat gebruik word om die hele bewegende gemiddelde vorentoe of agtertoe in tyd te skuif), 160and bron betree (oop, hoog, laag, naby). dialoog 160This boks kan jy ook die kleur en dikte van die bewegende gemiddelde lyn te kies. 160 bewegende gemiddelde Voorkeure. Die voorkeure vir die Adaptive bewegende gemiddelde toelaat dat jy die waardes wat vir die Smoothing van vinnige en stadige. Die voorkeure vir die Vidya bewegende gemiddelde is dieselfde as hierbo, behalwe vir die veld R2Scale. 160This verwys na die R-kwadraat skaal wat gebruik word in die lineêre regressie berekening. 160 Moving Gemiddelde tyd rame By die gebruik van bewegende gemiddeldes, is daar drie tydgleuwe wat tipies erken: korttermyn (dws 10.), Intermediêre termyn (dws 50.), En 'n lang termyn (dws 200.). 160The 10-tydperk MA is die een wat die naaste beweeg om die werklike prys beweging. 160The 50-peroid is die tweede naaste aan die werklike prys beweging en die 200-tydperk is die een uiterste van die prys beweging. 160 van 10 dae, 50 dae en 200 dae Eenvoudige bewegende gemiddeldes op dieselfde chart. Linear Regressie aanwyser Die lineêre regressie aanwyser gebruik vir tendens identifikasie en tendens volgende in 'n soortgelyke wyse aan bewegende gemiddeldes. Die aanwyser moet nie verwar word met lineêre regressie Lines wat reguit lyne toegerus om 'n reeks van data punte is. Die lineêre regressie aanwyser plotte die eindpunte van 'n hele reeks van lineêre getrek op agtereenvolgende dae regressielyne. Die voordeel van die lineêre regressie aanwyser oor 'n normale bewegende gemiddelde is dat dit minder lag as die bewegende gemiddelde, reageer vinniger op veranderinge in die rigting. Die nadeel is dat dit meer geneig is tot whipsaws. Die lineêre regressie aanwyser is slegs geskik vir die handel sterk tendense. Seine geneem in 'n soortgelyke wyse aan bewegende gemiddeldes. Gebruik die rigting van die lineêre regressie aanwyser om te betree en die uitgang ambagte met 'n aanwyser langer termyn as 'n filter. Gaan lank as die lineêre regressie aanwyser opdaag of verlaat 'n kort handel. Gaan kort (of verlaat 'n lang handel) as die lineêre regressie aanwyser draai af. 'N Variasie op die bogenoemde is om ambagte te voer wanneer die prys gaan oor die lineêre regressie aanwyser, maar nog steeds verlaat wanneer die lineêre regressie aanwyser draai af. Voorbeeld Muis oor grafiek onderskrifte te handel seine te vertoon. Gaan lank L wanneer die prys kruise bo die 100-dag lineêre regressie aanwyser terwyl die 300-dag styg afrit X wanneer die 100-dag lineêre regressie aanwyser draai afgaan lank weer by L wanneer die prys kruise bo die 100-dag lineêre regressie aanwyser afrit X wanneer die 100-dag lineêre regressie aanwyser draai afgaan lang L wanneer die prys kruise bo 100-dag lineêre regressie afrit X wanneer die 100-dag aanwyser draai afgaan lang L wanneer die 300-dag lineêre regressie aanwyser opdaag nadat die prys bo gekruis die 100-dag aanwyser afrit X wanneer die 300-dag lineêre regressie aanwyser draai af. Lomp divergensie op die aanwyser waarsku van 'n groot tendens omkeer. In by ons poslys Lees Colin Twiggs Trading Dagboek nuusbrief, met opvoedkundige artikels oor handel, tegniese ontleding, aanwysers en nuwe sagteware updates. Linear regressieanalise is die mees gebruikte van al statistiese tegnieke: dit is die studie van lineêre. toevoeging verwantskappe tussen veranderlikes. Laat Y dui die 8220dependent8221 veranderlike waarvan die waardes wat jy wil om te voorspel, en laat X 1. 8230, X k dui die 8220independent8221 veranderlikes waaruit jy wil om dit te voorspel, met die waarde van veranderlike X ek in periode t (of in ry t van die datastel) aangedui deur X dit. Toe die vergelyking vir die berekening van die voorspelde waarde van y t is: Hierdie formule het die eienskap dat die voorspelling vir Y is 'n reguitlyn-funksie van elk van die X veranderlikes, hou die ander vas, en die bydraes van verskillende X veranderlikes om die voorspellings is toevoeging. Die hange van hul individuele reguitlynmetode verhoudings met Y is die konstantes b 1. b 2, 8230, b k. die sogenaamde koëffisiënte van die veranderlikes. Dit wil sê, b i is die verandering in die voorspelde waarde van y per eenheid van verandering in X i. ander dinge gelyk. Die bykomende konstante b 0. die sogenaamde onderskep. is die voorspelling dat die model sal maak as al die X 8217s was nul (as dit moontlik is). Die koëffisiënte en onderskep word beraam deur kleinste kwadrate. maw die opstel van hulle gelykop behandel met die unieke waardes wat die som van 'n vierkant foute binne die monster van data waarop die model is toegerus te verminder. En die modelle voorspel foute tipies veronderstel om onafhanklik en identies normaal verdeel wees. Die eerste ding wat jy behoort te weet van lineêre regressie is hoe die vreemde term regressie gekom wat toegepas moet word om modelle soos hierdie. Hulle is die eerste in diepte bestudeer deur 'n 19de-eeuse wetenskaplike, Sir Francis Galton. Galton was 'n self-geleer natuurkundige, antropoloog, sterrekundige en statistikus - en 'n werklike Indiana Jones karakter. Hy was bekend vir sy ontdekkings, en hy het 'n topverkoper boek oor hoe om te oorleef in die woestyn geregtig quotThe Art of Travel: skofte en contrivances Beskikbaar in Wild Plekke, quot en sy opvolger, quotThe kuns van Rowwe Reis: Van die Praktiese om die Peculiar. quot Hulle is nog steeds in die gedrukte media en nog steeds beskou as 'n nuttige hulpbronne. Hulle bied baie nuttige wenke vir 'n verblyf in die lewe - soos hoe om te behandel spies wonde of onttrek jou perde uit dryfsand - en het die konsep van die slaapsak om die Westerse wêreld. Klik op die foto's vir meer besonderhede: Galton was 'n pionier in die toepassing van statistiese metodes om metings in baie takke van die wetenskap, en in die bestudering van data op relatiewe groottes van ouers en hul nageslag in verskeie spesies van plante en diere, waargeneem hy die volgende verskynsel: 'n groter-as-gemiddelde ouer is geneig om 'n groter-as-gemiddelde kind te produseer, maar die kind is geneig om minder groot as die ouer in terme van sy relatiewe posisie binne sy eie geslag te wees. So, byvoorbeeld, indien die ouers grootte is x standaardafwykings vanaf die gemiddelde binne sy eie geslag, dan moet jy voorspel dat die kind se grootte RX (r tye x) standaardafwykings vanaf die gemiddelde sal wees binne die stel van kinders van die ouers , waar r is 'n aantal minder as 1 in grootte. (R is wat sal onder die korrelasie tussen die grootte van die ouer en die grootte van die kind gedefinieer word.) Dieselfde geld vir feitlik enige fisiese meting (en in die geval van die mens, die meeste metings van kognitiewe en fisiese vermoë) wat uitgevoer kan word op ouers en hulle nageslag. Hier is die eerste keer gepubliseer foto van 'n regressielyn hierdie effek te illustreer, uit 'n lesing aangebied deur Galton in 1877: Die R-simbool op hierdie grafiek (wie se waarde is 0.33) dui die helling koëffisiënt, nie die korrelasie, hoewel die twee is dieselfde indien beide bevolkings het dieselfde standaardafwyking, as sal hieronder getoon word. Galton genoem hierdie verskynsel 'n regressie na middelmatigheid. wat in moderne terme is 'n regressie na die gemiddelde. Om 'n naiumlve waarnemer dit kan daarop dui dat latere geslagte gaan minder variasie toon - letterlik meer middelmatigheid - as vroeër dié, maar dit is nie die geval. Dit is 'n suiwer statistiese verskynsel. Tensy elke kind is presies soos die dieselfde grootte as die ouer in relatiewe terme (dit wil sê nie, tensy die korrelasie is presies gelyk aan 1), die voorspellings moet agteruitgang van die gemiddelde ongeag biologie as gemiddelde kwadraat fout is om die minimum beperk word. (Terug na bo.) Regressie na die gemiddelde is 'n onafwendbare feit van die lewe. Jou kinders kan verwag minder uitsonderlike (vir 'n beter of slegter) as jy te wees. Jou telling op 'n finale eksamen in 'n kursus kan verwag minder goeie (of slegte) as jou telling op die akademiese trimester eksamen, relatief tot die res van die klas te wees. 'N baseball spelers kolfgemiddelde in die tweede helfte van die seisoen kan verwag word om nader aan die gemiddelde (vir alle spelers) as sy kolfgemiddelde in die eerste helfte van die seisoen wees. En so aan. Die sleutel woord hier is quotexpected. quot Dit beteken nie sy seker dat regressie na die gemiddelde sal plaasvind nie, maar dis die manier om te wed Ons het reeds 'n voorstel van regressie-to-the-gemiddelde gesien in sommige van die tydreeks voorspellingsmodelle ons bestudeer het: stukke voorspellings is geneig om gladder --ie wees hulle toon minder variasie - as die erwe van die oorspronklike data. Dit is nie waar van ewekansige loop modelle, maar dit is oor die algemeen waar van bewegende gemiddelde modelle en ander modelle wat hul voorspellings baseer op meer as een afgelope waarneming. Die intuïtiewe verduideliking vir die agteruitgang van krag is eenvoudig: die ding wat ons probeer om gewoonlik voorspel bestaan ​​uit 'n voorspelbare komponent (quotsignalquot) en 'n statisties onafhanklike onvoorspelbare komponent (quotnoisequot). Die beste wat ons kan hoop om te doen is om te voorspel (net) dat 'n deel van die variasie wat as gevolg van die sein. Vandaar ons vooruitskattings sal neig om minder variasie toon as die werklike waardes, wat 'n regressie na die gemiddelde impliseer. Nog 'n manier om te dink aan die regressie-effek is in terme van keuse vooroordeel. Oor die algemeen 'n player8217s prestasie oor 'n gegewe tydperk kan toegeskryf word aan 'n kombinasie van vaardigheid en geluk. Veronderstel dat ons 'n voorbeeld van professionele atlete wie se prestasie was baie beter as die gemiddelde (of studente wie se grade is baie beter as die gemiddelde) in die eerste helfte van die jaar te kies. Die feit dat hulle so goed gevaar het in die eerste helfte van die jaar is dit waarskynlik is dat beide hul vaardigheid en hulle geluk was beter as die gemiddelde gedurende daardie tydperk. In die tweede helfte van die jaar kan ons verwag dat hulle ewe vaardig wees, maar ons moet nie verwag dat hulle net so gelukkig wees. So ons moet voorspel dat in die tweede helfte van hul prestasie nader aan die gemiddelde sal wees. Intussen het die spelers wie se prestasie was bloot gemiddelde in die eerste helfte het waarskynlik vaardigheid en geluk wat in teenoorgestelde rigtings vir hulle. Ons moet dus verwag dat hul prestasie in die tweede helfte om weg van die gemiddelde in die een of ander rigting beweeg, as ons 'n ander onafhanklike toets van hul vaardigheid. Ons don8217t weet watter rigting hulle beweeg, al is, so selfs vir hulle wat ons moet voorspel dat die tweede helfte prestasie nader aan die gemiddelde as hul eerste helfte prestasie sal wees. Daar moet egter verwag die werklike prestasie van die spelers om 'n ewe groot variansie in die tweede helfte van die jaar as in die eerste helfte het, omdat dit bloot die gevolg van 'n herverdeling van onafhanklik ewekansige geluk onder spelers met dieselfde verspreiding van vaardigheid as voor. 'N lekker bespreking van regressie na die gemiddelde in die breër konteks van sosiaal-wetenskaplike navorsing kan hier gevind word. (Terug na bo.) Regverdiging vir regressie aannames Hoekom moet ons aanvaar dat verhoudings tussen veranderlikes is lineêr. Omdat lineêre verwantskappe is die eenvoudigste nie-triviale verhoudings wat kan verbeel (vandaar die maklikste om te werk met), en. Omdat die quottruequot verhoudings tussen ons veranderlikes is dikwels ten minste ongeveer lineêr oor die omvang van die waardes wat van belang is vir ons, en. Selfs al is hulle nie, kan ons dikwels die transformasie van die veranderlikes in so 'n manier om die verhoudings logskaal liniariseer. Dit is 'n sterk aanname, en die eerste stap in regressie modelle moet wees om te kyk na spreiding diagrammen van die veranderlikes (en in die geval van tydreeksdata, erwe van die veranderlikes teen tyd), om seker te maak dit redelik a priori. En ná pas 'n model, erwe van die foute moet bestudeer om te sien of daar onverklaarbare lineêre patrone. Dit is veral belangrik wanneer die doel is om voorspellings vir scenario's buite die omvang van die historiese data, waar afwykings van volmaakte lineariteit waarskynlik die grootste uitwerking hê nie. As jy sien bewyse van nie-lineêre verwantskappe, is dit moontlik (hoewel nie gewaarborg nie) wat transformasies van veranderlikes hulle sal regop te kom uit op 'n manier wat nuttig afleidings en voorspellings sal oplewer via lineêre regressie. (Terug na bo.) En hoekom moet ons aanneem dat die uitwerking van verskillende onafhanklike veranderlikes op die verwagte waarde van die afhanklike veranderlike is toevoeging. Dit is 'n baie sterk aanname, sterker as die meeste mense besef. Dit impliseer dat die marginale uitwerking van een onafhanklike veranderlike (bv sy helling koëffisiënt) is nie afhanklik van die huidige waardes van ander onafhanklike veranderlikes. But8230 waarom shouldn8217t dit It8217s denkbaar dat een onafhanklike veranderlike die effek van 'n ander kan versterk, of dat die uitwerking daarvan kan stelselmatig wissel met verloop van tyd. In 'n meervoudige regressie model, die beraamde koëffisiënt van 'n gegewe onafhanklike veranderlike meet kwansuis die uitwerking daarvan terwyl quotcontrollingquot vir die teenwoordigheid van die ander. Maar die manier waarop beherende uitgevoer is uiters simplistiese: veelvoude van ander veranderlikes bloot bygetel of afgetrek word. Baie gebruikers net gooi 'n baie onafhanklike veranderlikes in die model sonder nadink oor hierdie kwessie, asof hulle sagteware sal outomaties uit te vind presies hoe hulle verwant is. Dit won8217t Selfs outomatiese model-seleksie metodes (bv stapsgewyse regressie) vereis dat jy 'n goeie begrip van jou eie data het en 'n leidende hand gebruik in die analise. Hulle werk slegs met die veranderlikes aan hulle gegee, in die vorm wat aan hulle gegee word, en dan kyk hulle net vir lineêre, toevoeging patrone onder hulle in die konteks van mekaar. 'N regressiemodel nie bloot aanvaar dat Y is quotsome functionquot van die Xs. Dit word aanvaar dat dit 'n baie spesiale soort funksie van die Xs. 'N algemene praktyk is om onafhanklike veranderlikes waarvan die voorspelbare gevolge logies kan nie toevoeging wees, sê, 'n paar wat totale en ander wat tariewe of persentasies insluit. Soms kan dit gerasionaliseer deur plaaslike eerste-orde-benadering argumente, en soms is dit kan nie. Jy moet die betrokke data daarna in te samel, te verstaan ​​wat dit meet, skoon it up, indien nodig, uit te voer beskrywende analise om te kyk vir patrone voordat pas enige modelle, en bestudeer die diagnostiese toetse van model aannames, veral statistieke en erwe van die foute. Jy moet ook probeer om die toepaslike ekonomiese of fisiese redenasie toepas om te bepaal of 'n toevoeging voorspelling vergelyking maak sin. Ook hier is dit moontlik (maar nie gewaarborg nie) wat transformasies van veranderlikes of die insluiting van interaksie terme hul effekte kan skei in 'n toevoeging vorm, as hulle nie so 'n vorm om mee te begin, maar dit verg 'n paar gedagtes en moeite op jou deel. (Terug na bo.) En hoekom moet ons aanvaar die foute van lineêre modelle is onafhanklik en identies normaal verdeel. 1. Hierdie aanname word dikwels geregverdig deur 'n beroep op die sentrale limietstelling van statistieke, wat bepaal dat die som of gemiddelde van 'n voldoende groot aantal onafhanklike toevalsveranderlikes - ongeag hul individuele verspreidings - nader 'n normaalverdeling. Baie data in besigheid en ekonomie en ingenieurswese en die natuurwetenskappe word verkry deur of gemiddeld numeriese metings uitgevoer op baie verskillende persone of produkte of plekke of tyd intervalle. Sover die aktiwiteite wat genereer die metings kan ietwat lukraak en ietwat onafhanklik optree, kan ons verwag dat die verskille in die totale of gemiddelde ietwat gewoonlik verdeel moet word. 2. Dit is (weer) wiskundig gerieflik: dit impliseer dat die optimale koëffisiënt raming vir 'n lineêre model is dié wat die gemiddelde minimum te beperk kwadraat fout (wat maklik bereken), en dit regverdig die gebruik van 'n gasheer van statistiese toetse wat gebaseer is op die normale familie van verdelings. (Hierdie familie sluit die t verspreiding, die F verspreiding, en die Chi-kwadraat verspreiding.) 3. Selfs as die quottruequot fout proses is nie normaal in terme van die oorspronklike eenhede van die data, kan dit moontlik wees om die data te transformeer sodat dat jou modelle voorspelling foute is ongeveer normaal. Maar ook hier versigtig moet uitgeoefen. Selfs al is die onverklaarbare variasies in die afhanklike veranderlike ongeveer normaal versprei is, is dit nie gewaarborg dat hulle sal ook identies normaalverdeelde vir alle waardes van die onafhanklike veranderlikes. Miskien is die onverklaarbare variasies is groter onder sommige omstandighede as ander, 'n toestand bekend as quotheteroscedasticityquot. Byvoorbeeld, as die afhanklike veranderlike bestaan ​​uit daaglikse of maandelikse totale verkope, is daar waarskynlik beduidende dag-van-week patrone of seisoenale patrone. Nog 'n gevolg van die sentrale limietstelling - In sulke gevalle sal die afwyking van die totale groter op dae of in seisoene met 'n groter sake-aktiwiteit wees. (Variable transformasies soos meld en / of seisoenale aanpassing word dikwels gebruik om te gaan met hierdie probleem.) Dit is ook nie gewaarborg dat die toevallige variasies statisties onafhanklik sal wees. Dit is 'n besonder belangrike vraag wanneer die data bestaan ​​uit tydreekse. As die model is nie korrek vermeld, is dit moontlik dat opeenvolgende foute (of foute geskei deur 'n ander aantal periodes) 'n sistematiese neiging om dieselfde teken of 'n sistematiese neiging om teenoorgestelde tekens het, 'n verskynsel wat bekend staan ​​as quotautocorrelationquot of sal hê quotserial correlationquot. 'N Baie belangrike spesiale geval is dié van aandele prys data. waarin persentasie veranderinge eerder as absolute veranderinge is geneig om gewoonlik versprei. Dit impliseer dat oor matige tot groot tydskale, bewegings in aandeelpryse is lognormaalverdeelde parameter eerder as normaal verdeel. 'N log transformasie is tipies aangewend om historiese aandele prys data in die bestudering van groei en wisselvalligheid. Let op: hoewel eenvoudig regressiemodelle dikwels toegerus om historiese voorraad keer terug na quotbetasquot, wat aanwysers van relatiewe risiko in die konteks van 'n gediversifiseerde portefeulje is skat, weet ek nie aanbeveel dat jy regressie gebruik om te probeer om toekomstige voorraad opbrengste voorspel. Sien die geometriese ewekansige loop bladsy plaas. Jy nog sou kon dink dat variasies in die waardes van portefeuljes van aandele sou geneig om gewoonlik versprei, uit hoofde van die sentrale limietstelling, maar die sentrale limietstelling is eintlik eerder traag om te byt op die lognormale verspreiding omdat dit so asimmetries lang - stert. 'N Bedrag van 10 of 20 onafhanklik en identies lognormaalverdeelde parameter veranderlikes het 'n verspreiding wat is nog steeds baie naby aan lognormale. As jy hierdie don8217t glo, probeer om dit te toets deur Monte Carlo simulasie: you8217ll verbaas wees. (Ek was.) Omdat die aannames van lineêre regressie (lineêre, toevoeging verhoudings met IID normaalverdeelde foute) is so sterk, dit is baie belangrik om hul geldigheid te toets wanneer gepas modelle, 'n onderwerp in meer detail bespreek op die toets-Model aannames bladsy. en wees bedag wees op die moontlikheid dat jy meer of beter data mag nodig wees om jou doelwitte te bereik. Jy can8217t iets uit niks te kry. Al te dikwels, naiumlve gebruikers van regressie-analise te kan sien dit as 'n swart boks wat outomaties 'n gegewe veranderlike van 'n ander veranderlikes wat daarin gevoer kan voorspel, terwyl dit in werklikheid 'n regressiemodel is 'n baie spesiale en baie deursigtige soort voorspelling boks. Die opbrengs bevat geen meer inligting as wat deur sy insette, en sy innerlike meganisme moet word in vergelyking met die werklikheid in elke situasie waar dit toegepas word. (Terug na bo.) Korrelasie en eenvoudige regressie formules A veranderlike is, per definisie, 'n hoeveelheid wat kan wissel van een meting na 'n ander in situasies waar verskillende monsters van 'n bevolking geneem of waarnemings word gemaak op verskillende punte in die tyd. In pas statistiese modelle waarin sommige veranderlikes word gebruik om ander te voorspel, wat ons hoop om te vind dat die verskillende veranderlikes nie onafhanklik wissel (in 'n statistiese sin), maar dat hulle geneig is om saam te wissel. In die besonder, wanneer gepas lineêre modelle, ons hoop om dit een veranderlike te vind (byvoorbeeld Y) is wisselende as 'n reguitlyngrondslag funksie van 'n ander veranderlike (sê, X). Met ander woorde, as al die ander moontlik relevante veranderlikes gehou kan word vasgestel, sou ons hoop om die grafiek van y vind versus X 'n reguit lyn (afgesien van die onvermydelike ewekansige foute of quotnoisequot) wees. 'N Mate van die absolute bedrag van variasie in 'n veranderlike is (natuurlik) sy variansie. wat gedefinieer word as die gemiddelde kwadraat afwyking van sy eie gemiddelde. Anders gestel, kan ons variasie meet in terme van die standaardafwyking. wat gedefinieer word as die vierkantswortel van die variansie. Die standaardafwyking het die voordeel dat dit word gemeet in dieselfde eenhede as die oorspronklike veranderlike, eerder as kwadraat eenhede. Ons taak in die voorspelling van Y kan beskryf word as dié van verduidelik sommige of al sy variansie - d. w.z. hoekom. of onder watter omstandighede, is dit afwyk van sy gemiddelde Hoekom is dit nie konstant Dit is, wil ons graag in staat wees om te verbeter op die naïef voorspellende model: 374 t konstant, waarin die beste waarde vir die konstante is vermoedelik die historiese gemiddelde van Y. Meer presies, ons hoop om 'n model waarvan die voorspelling foute is kleiner, in 'n gemiddelde vierkante sin, as die afwykings van die oorspronklike veranderlike vanaf sy gemiddelde vind. In die gebruik van lineêre modelle vir die voorspelling, dit blyk baie gerieflik dat die enigste statistieke van belang (ten minste vir die doel van die beraming van koëffisiënte te kwadraat fout te minimaliseer) is die gemiddelde en variansie van elke veranderlike en die korrelasiekoëffisiënt tussen elke paar van veranderlikes. Die korrelasiekoëffisiënt tussen X en Y word algemeen aangedui met r XY. en dit meet die sterkte van die lineêre verhouding tussen hulle op 'n relatiewe (dws sonder eenheid) skaal van -1 tot 1. Dit wil sê, dit meet die mate waartoe 'n lineêre model gebruik kan word om die afwyking van een veranderlike te voorspel uit sy gemiddelde gegewe kennis van die ander afwyking van sy gemiddelde op dieselfde tydstip. Die korrelasiekoëffisiënt is die maklikste bereken as ons eers die veranderlikes, wat beteken om te sit op eenhede met standaard-afwykings-uit-die-gemiddelde standaardiseer, met behulp van die bevolking standaardafwyking eerder as die monster standaardafwyking, dit wil sê deur die statistiek waarvan formule het n eerder as N-1 in die deler, waar n die steekproefgrootte. Die gestandaardiseerde weergawe van X sal hier aangedui deur X. en die waarde daarvan in tydperk t is gedefinieer in Excel notasie as: waar STDEV. P is die Excel-funksie vir die bevolking standaardafwyking. (Hier en elders gaan ek Excel funksies eerder as konvensionele wiskunde simbole gebruik in sommige van die formules om te illustreer hoe die berekeninge sal gedoen word op 'n sigblad.) Byvoorbeeld, veronderstel dat die gemiddelde (X) 20 en STDEV. P (X ) 5. As X t 25, dan X t 1, indien X t 10. dan X t -2, en so aan. Y sal die soortgelyke gestandaardiseerde waarde van Y. Nou dui, die korrelasiekoëffisiënt is gelyk aan die gemiddelde produk van die gestandaardiseerde waardes van die twee veranderlikes binne die gegewe voorbeeld van N waarnemings: So, byvoorbeeld, as X en Y is gestoor in kolomme op 'n sigblad, kan jy die gemiddelde en STDEV. P funksies te gebruik om hul gemiddeldes en standaardafwykings bevolking bereken, dan kan jy twee nuwe kolomme waarin die waardes van X en Y in elke ry word bereken volgens die formule hierbo te skep. skep dan 'n derde nuwe kolom waarin X vermenigvuldig met Y in elke ry. Die gemiddeld van die waardes in die laaste kolom is die korrelasie tussen X en Y. Natuurlik, in Excel, kan jy net gebruik maak van die formule CORREL (X, Y) 'n korrelasiekoëffisiënt, waar X en Y dui die sel wissel van bereken die data vir die veranderlikes. (Let wel: in sommige gevalle is dit van belang kan wees om die data met betrekking tot die monster standaardafwyking, wat is STDEV. S in Excel te standaardiseer, maar die bevolking statistiek is die korrekte een om te gebruik in die formule hierbo.) (Terug na bo van bladsy.) As die twee veranderlikes is geneig om wissel op dieselfde kante van hul onderskeie middel terselfdertyd, dan is die gemiddelde produk van hul afwykings (en dus ook die korrelasie tussen hulle) sal positief wees. aangesien die produk van twee getalle met dieselfde teken is positief. Aan die ander kant, as hulle is geneig om te wissel aan teenoorgestelde kante van hul onderskeie middel terselfdertyd, hul korrelasie sal negatief wees. As hulle onafhanklik wissel met betrekking tot hul middel - dit wil sê, as 'n mens is net so geneig om te wees bo of onder sy gemiddelde, ongeag van wat die ander doen - dan is die korrelasie sal nul wees. En as Y is 'n presiese lineêre funksie van X, dan óf Y t X t vir alle t of anders Y t - X t vir alle t. in welke geval die formule vir die korrelasie verminder tot 1 of -1. Die korrelasiekoëffisiënt kan gesê word dat die sterkte van die lineêre verhouding tussen Y en X vir die volgende rede meet. Die lineêre vergelyking vir die voorspelling van Y van X wat verminder beteken kwadraat fout is eenvoudig: So, as X waargeneem om 1 standaardafwyking bo sy eie gemiddelde wees, dan moet ons voorspel dat Y sal wees r XY standaardafwykings bo sy eie beteken as X 2 standaardafwykings onder sy eie gemiddeld, dan moet ons voorspel dat Y sal wees 2 r XY standaardafwykings onder sy eie gemiddelde, en so aan. In grafiese terme, beteken dit dat, op 'n PUNTEDIAGRAM van Y versus X. die lyn vir die voorspelling van Y van X ten einde gemiddelde kwadraat fout te minimaliseer is die lyn wat deur die oorsprong gaan en het helling r XY. Hierdie feit is nie veronderstel duidelik te wees, maar dit is maklik bewys deur ELEMENTARY differensiaalrekening. Hier is 'n voorbeeld: 'n PUNTEDIAGRAM van Y versus X. die visuele simmetrie is 'n lyn wat deur die oorsprong gaan en wie helling is gelyk aan 1 (dit wil sê 'n 45-graad lyn), wat is die grys stippellyn op die onderstaande plot. Dit gaan deur die oorsprong omdat die middel van beide gestandaardiseerde veranderlikes is nul, en sy helling is gelyk aan 1, want hul standaardafwykings is albei gelyk aan 1. (Laasgenoemde feit beteken dat die punte gelyk versprei horisontaal en vertikaal in terme van beteken kwadraat afwykings van nul, wat hul patroon dwing rofweg simmetriese rondom die 45-graad lyn as die verhouding tussen die veranderlikes is regtig lineêre verskyn.) Maar die grys stippellyn is die nie die beste lyn om te gebruik vir die voorspelling van die waarde van Y vir 'n gegewe waarde van x. Die beste lyn vir die voorspelling van Y van X het 'n helling van minder as 1: dit regresses na die X-as. Die regressielyn word in rooi, en sy helling is die korrelasie tussen X en Y. wat 0.46 in hierdie geval. Hoekom is dit waar Omdat, that8217s die manier om te wed as jy wil verminder die gemiddelde kwadraat fout gemeet in die Y rigting. As plaas jy wou X voorspel van Y ten einde gemiddelde kwadraat fout gemeet in die X rigting te verminder, sal die lyn agteruitgang in die ander rigting met betrekking tot die 45-graad lyn, en deur presies dieselfde bedrag. As ons wil hê dat die lineêre regressievergelyking te bekom vir die voorspelling van Y van X in unstandardized terme. Ons het net nodig om die formules vir die gestandaardiseerde waardes vervang in die voorafgaande vergelyking, wat dan: Teen herrangskik die vergelyking en die invordering van konstante terme, verkry ons: is die beraamde helling van die regressielyn, en is die geskatte y - afsnit van die lyn. Let daarop dat, soos ons vroeër beweer, die koëffisiënte in die lineêre vergelyking vir die voorspelling van Y van X slegs afhanklik van die gemiddeldes en standaardafwykings van X en Y en op hul korrelasiekoëffisiënt. Die bykomende formules wat nodig is om die standaard foute bereken. t-statistiek. en P-waardes (statistieke dat die akkuraatheid en betekenis van die beraamde koëffisiënte te meet) word in die notas oor wiskunde van eenvoudige regressie en ook geïllustreer in hierdie sigbladlêer. Perfect positiewe korrelasie (r XY 1) of perfekte negatiewe korrelasie (r XY -1) is net verkry word as een veranderlike is 'n presiese lineêre funksie van die ander, sonder fout, in welke geval hulle Arent regtig quotdifferentquot veranderlikes nie. Oor die algemeen vind ons minder-as-perfekte korrelasie, dit wil sê, ons vind dat r XY is minder as 1 in absolute waarde. Daarom is ons voorspelling vir Y is tipies kleiner in absolute waarde as ons waargeneem waarde vir X. Dit wil sê, die voorspelling vir Y is altyd nader aan sy eie gemiddeld, in eenhede van sy eie standaardafwyking, as X is waargeneem word, wat is Galtons verskynsel van regressie na die gemiddelde. So, die tegniese verduideliking van die regressie-tot-die-gemiddelde effek hang af van twee wiskundige feite: (i) die korrelasiekoëffisiënt, bereken in die hierbo beskryf wyse gebeur met die koëffisiënt wat die kwadraat fout verminder in die voorspelling van Y van X . en (ii) die korrelasiekoëffisiënt is nooit groter as 1 in absolute waarde, en dit is net gelyk aan 1 toe Y is 'n presiese (stil) lineêre funksie van x. Die term quotregressionquot het vasgeval en het selfs gemuteerde van 'n onoorganklike werkwoord in 'n oorganklike een sedert Galtons tyd. Ons hoef maar net te sê dat die voorspellings vir Y quotregress om die meanquot - ons nou sê dat ons quotregressing Y op X quot wanneer ons skat 'n lineêre vergelyking vir die voorspelling van Y van X en ons verwys na X as 'n quotregressorquot in hierdie geval. Wanneer ons 'n lineêre regressiemodel het toegerus is, kan ons die variansie van sy foute te bereken en vergelyk dit met die variansie van die afhanklike veranderlike (die laaste is die fout variansie van 'n onderskep-net model). Die relatiewe bedrag waarmee die regressiemodelle fout afwyking is minder as die variansie van die afhanklike veranderlike word na verwys as die breuk van die variansie wat verklaar word deur die onafhanklike veranderlike (s). Byvoorbeeld, indien die fout afwyking is 20 minder as die oorspronklike variansie, sê ons ons quotexplained 20 van die variance. quot Dit blyk dat in 'n eenvoudige regressie model, die fraksie van variansie verklaar is juis die vierkant van die korrelasiekoëffisiënt - dws die visa die vierkante van r. Vandaar die fraksie-van--variansie verklaar het gekom bekend staan ​​as quotR-squaredquot om. Die interpretasie en gebruik van R-kwadraat word in meer detail hier. In 'n meervoudige regressie model (die een met twee of meer X veranderlikes), daar is baie korrelasiekoëffisiënte wat gevolg moet word bereken, bykomend tot al die gemiddeldes en variansies. Byvoorbeeld, moet ons die verband tussen elke X veranderlike en die Y veranderlike, en ook die verband tussen elke paar X veranderlikes oorweeg. In hierdie geval, dit blyk steeds dat die model koëffisiënte en die breuk-van-variansie verklaar statistiek kan bereken word geheel en al uit kennis van die gemiddelde, standaardafwykings en korrelasiekoëffisiënte tussen die veranderlikes - maar die berekeninge is nie meer maklik . Ons sal dié besonderhede aan die rekenaar te verlaat. (Terug na bo.) Gaan op na 'n nabygeleë onderwerp: krommepassing Gereedskap Belangrike eienskappe krommepassing artikels vir kurwe en oppervlak pas Lineêre en nie-lineêre regressie met persoonlike vergelykings Biblioteek van regressiemodelle met new beginpunte en oplosser parameters Interpolasie metodes, insluitend B-latfunksies, dun plaat splines, en tensor-produk latfunksies gladstrykingstegnieke, insluitend glad splines, gelokaliseerde regressie, Savitzky-Golay filters, en bewegende gemiddeldes Preprocessing roetines, insluitend uitskieter verwydering en snitte, skalering en gewig data Post Processing roetines, insluitend interpolasie , ekstrapolasie, vertrouensintervalle, integrale en afgeleides Oppervlakte gegenereer met behulp van die krommepassing inligting. Die app ondersteun 'n verskeidenheid gepaste metodes, insluitende lineêre regressie, nie-lineêre regressie, interpolasie, en glad. Werk met krommepassing Gereedskap krommepassing Gereedskap bied die mees gebruikte tegnieke vir gepaste kurwes en oppervlaktes om data, insluitend lineêre en nie-lineêre regressie, splines en interpolasie, en glad. Die toolbox ondersteun opsies vir robuuste regressie om datastelle wat uitskieters bevat inpas. Alle algoritmes kan verkry word deur middel van funksies of die krommepassing inligting. Pas veelvuldige kandidaat modelle om 'n enkele data reeks met behulp van die krommepassing inligting. Jy kan die ingeboude oppervlaktes visueel te vergelyk of gebruik goedheid-of-fit statistieke soos R 2. aangepas R 2. som van die gekwadreerde foute en wortel beteken kwadraat fout. Pas Data Interaktief Die krommepassing app vergemaklik algemene take wat die volgende insluit: Die invoer van data uit die MATLAB werkspasie Visualisering jou data om verkennende data-analise-ontwikkelingsliggaam voer pas met behulp van verskeie gepaste algoritmes Evaluering van die akkuraatheid van jou modelle Uitvoerende naprosessering analise wat interpolasie en ekstrapolasie sluit, genereer vertroue tussenposes, en die berekening van integrale en afgeleides Uitvoer pas om die MATLAB werkspasie vir verdere ontleding outomaties genereer MATLAB-kode vir die werk op te vang en te outomatiseer take MATLAB funksie gegenereer met die krommepassing inligting. Werk by die Command Line Working op die command line kan jy persoonlike funksies vir analise en visualisering te ontwikkel. Hierdie funksies in staat stel om: Dubbele jou ontleding met 'n nuwe datastel duplisering van jou analise met verskeie datastelle (bondelverwerking) Gedagte 'n gepaste roetine in MATLAB funksies Brei die basis vermoëns van die toolbox krommepassing Gereedskap bied 'n eenvoudige intuïtiewe sintaksis vir gebooie


No comments:

Post a Comment