Gyldighet av studien. Reliabilitet og validitet av forskningsmetoder Vurdere validiteten til kvalitative metoder i psykologi

Forskningsvaliditet ble definert av Cook og Campbell i 1979 som den beste tilgjengelige tilnærmingen til sanne utsagn, inkludert utsagn som involverer årsak-og-virkning-forhold. Denne definisjonen refererer til å fastslå nøyaktigheten av forskningsfunn og understreker den relative naturen til sannheten som kan oppnås i samfunnsvitenskapene. I noen Vitenskapelig forskning Forskeren skal kunne svare på følgende spørsmål:

1) er det en sammenheng mellom to variabler;

2) om denne avhengigheten er kausal i naturen;

3) er dette forholdet betydelig;

4) om måle- og observasjonsprosedyrene faktisk er relatert til konstruksjonene som studeres;

5) om årsaksavhengighetene identifisert under studien kan generaliseres.

La oss fremheve følgende typer validitet knyttet til disse problemene.

1. Gyldighet av statistiske slutninger

Denne typen validitet tilsvarer å teste den statistiske signifikansen av sammenhengen mellom to variabler. Slike konklusjoner er alltid sannsynlige. Man kan faktisk gjøre to typer feil: å bestemme at en sammenheng er signifikant når den ikke er det, eller å bestemme at det ikke er noen signifikant sammenheng mellom variabler når det tvert imot er det.

Det er noen faktorer som kan redusere gyldigheten av statistiske konklusjoner:

1) dårlig sensitivitet ved forskning, som viser seg når utvalgsstørrelsen er utilstrekkelig eller når det er stor variasjon i gruppene som sammenlignes, det vil si at forsøkspersonene er for forskjellige og skiller seg mye fra hverandre når det gjelder enkelte variabler;

2) lav pålitelighet av måleteknikker eller variable manipulasjonsprosedyrer brukt i studien;

3) interferensfaktorer tilstede i de eksperimentelle forholdene;

4) brudd på vedtatte atferds- og behandlingsregler som er etablert for ulike statistiske metoder.

En strategi for å øke validiteten til statistiske slutninger er å redusere variabiliteten av feil ved å bruke for eksempel et gjentatt utvalg design eller bruk av homogene grupper. Den statistiske validiteten til en studie kan diagnostiseres både på forskningsdesignstadiet (for eksempel ved å sjekke prøvestørrelsesberegningen) og etter studien for å evaluere resultatene.

2. Intern gyldighet

Intern validitet er en av de viktigste typene validitet og er egentlig opptatt av forholdet mellom avhengige og uavhengige variabler. Denne validiteten er assosiert med spesifikke prosedyrer som lar oss bestemme i hvilken grad konklusjonene som trekkes i en gitt studie er pålitelige. Når eksistensen av en sammenheng mellom variabel X og variabel Y er etablert, er det nødvendig å bestemme hvilken av variablene som er årsaken og hvilken som er effekten, det vil si å bestemme retningen til denne sammenhengen. Hvis Y observeres etter X, kan X sies å være årsaken til Y.


Det kan imidlertid være at avhengighetsforholdet mellom X og Y er forårsaket av en tredje variabel, C. For å etablere intern validitet er det nødvendig å vurdere alle muligheter for påvirkning av en tredje variabel, C, på variablene X og Y, og eliminere dem. En studie anses å ha intern validitet dersom det er påvist at det er en årsak-virkning-sammenheng mellom de avhengige og uavhengige variablene.

Årsaker til å redusere den interne validiteten til studien:

1. Blande variabler. Dette er en av de største farene for gyldigheten av et eksperiment. Hvis, under et eksperiment, en tilfeldig faktor (ikke-eksperimentell variabel) interagerer med den avhengige variabelen og denne interaksjonen ikke kan måles separat fra interaksjonen mellom de avhengige og uavhengige variablene, er påvirkningen av de tilfeldige og uavhengige variablene umulig å skille. Problemet med confounding er spesielt akutt i studier der eksperimentatoren ikke kan kontrollere den uavhengige variabelen.

2. Endringer knyttet til fag. Når man tester avhengige variabler, kan endringer som skjedde mellom to observasjonsøyeblikk ikke være forårsaket av uavhengige variabler, men av endringer som skjedde med forsøkspersonene selv (for eksempel personlige livshendelser, endringer i visse personlighetstrekk, etc.), dvs. , faktorene "modenhet" og "historie".

Med "modenhet" mener vi endringer som skjedde i forsøkspersonen mellom pre-test og post-test og som ikke var assosiert med påvirkning av uavhengige variabler. For eksempel, i forsøk på motorisk koordinasjon, kan forsøkspersoner oppleve forbedring på grunn av trening i perioden mellom forsøkene. Denne påvirkningen kan ikke forveksles med påvirkning av den uavhengige variabelen. "Historikk"-faktoren refererer til hendelser som skjedde med forsøkspersonene og som påvirket resultatene av eksperimentet.

3. Pre-test innflytelse. Pre-testen forårsaker endringer i forsøkspersonene, og derfor kan resultatene av eksperimentet i noen tilfeller hovedsakelig avhenge av pre-testen i stedet for den avhengige variabelen.

4. Endre forskerferdigheter. For eksempel kan en forsker etter en tid bli mer erfaren i observasjoner og derfor tolke oppførselen til forsøkspersoner annerledes. I tillegg kan forskeren bli påvirket av faktorer som tretthet, som kan føre til feil i forsøk.

5. Regresjon til gjennomsnittet. Dette fenomenet oppstår når individer testes gjentatte ganger på samme variabel. Det er fastslått at hvis forsøkspersonene fikk resultater i den første testen som var nær de høyeste indikatorene på skalaen, så under det gjentatte eksperimentet synker resultatene og blir nærmere gjennomsnittet, mens forsøkspersonene som mottok resultater nærme de laveste i den første testen med gjentatte målinger oppnår de bedre resultater. Regresjon til gjennomsnittet observeres også ved feil knyttet til endringer i en variabel.

6. Frafall Det er kjent at noen fag i løpet av studiet forlater gruppen. De resterende fagene er naturlig nok annerledes enn de som droppet ut.

Anta at to adferdsmodifikasjonsteknikker blir undersøkt for å kontrollere kroppsvekten. Gruppe 1 ble foreskrevet en diett. I tillegg må forsøkspersoner i den første gruppen skrive ned alt de spiser hver dag i en dagbok, veie alle måltider nøyaktig og telle kaloriinnholdet i maten. Gruppe 2 ble ganske enkelt foreskrevet en diett. Det er klart at noen testgrupper med en mer tyngende oppgave vil falle ut av eksperimentet. På slutten av forsøket vil prosentandelen høyt motiverte forsøkspersoner i denne gruppen være større. Personer med høyere motivasjon hadde større sannsynlighet for å gå ned i vekt. Derfor kan forskeren komme til den feilaktige konklusjonen at forholdene i den første gruppen er mer effektive for vekttap.

Noen forfattere snakker også om konstruere gyldighet. Konstruktvaliditet ligner intern validitet og refererer til konsistensen mellom funnene og teorien som ligger til grunn for studien. For å vurdere konstruksjonsvaliditet er det nødvendig å utelukke andre mulige teoretiske forklaringer på resultatene. Dersom det er tvil om hvordan eksperimentelle resultater står i forhold til teoretiske resultater, er det nødvendig å designe et nytt eksperiment som lar en velge mellom flere teoretiske forklaringer på resultatene. Denne typen validitet er den vanskeligste å oppnå fordi det er mange teorier som kan brukes til å forklare sammenhengene mellom variabler oppnådd i et eksperiment.

La oss vurdere to årsaker til nedgangen i konstruksjonsvaliditet. Den første er en svak forbindelse mellom teori og eksperiment. Faktisk i mange psykologisk forskning uklare operasjonelle definisjoner av teoretiske begreper er gitt. Den andre grunnen bestemmes for det første av det faktum at forsøkspersoner veldig ofte begynner å spille rollen som et "godt" forskningsobjekt og oppfører seg på en slik måte at det gleder forsøkspersonen, og for det andre av det faktum at forsøkspersoner, spesielt i eksperimenter som måler dem mental kapasitet eller emosjonell stabilitet, utvikler det seg høy angst for forventet vurdering.

3. Gyldighet av prosedyrer

Den tredje typen validitet er validiteten til prosedyrer som gjør at variabler kan varieres og måles. Selv behovet for å definere de konseptuelle variablene som er relevante for studien i operasjonelle termer er en kilde til risiko. Faktisk kan det å "oversette" konseptet til nivået av spesifikke operasjoner reflektere de teoretiske prinsippene for studien utilstrekkelig.

Ofte stimulerer forskeren ubevisst svaret han forventer å få. Dette kan unngås ved å bruke hands-off forskningsstrategier og hensiktsmessige målemetoder. I dette tilfellet skal forsøkspersonene ikke vite at de blir observert, noe som gjør det mulig å fjerne uønsket motivasjon i forhold til forsøket.

4. Ytre gyldighet

Ekstern validitet refererer til evnen til å generalisere resultatene av en studie, det vil si å utvide konklusjonene oppnådd fra et eksperimentelt utvalg til hele befolkningen. Ekstern validitet avhenger betydelig av prøvetakingsmetoden. Det er tre hovedtyper av prøvetaking:

1. Tilfeldig prøvetaking. For eksempel vil resultatene av en studie av en tilfeldig utvalgt gruppe ungdom være gyldig med en viss grad av sannsynlighet for alle italienske ungdommer. En slik studie kan imidlertid være svært kompleks og kostbar, siden utvalget må være stort og homogent.

2. Heterogen (heterogen) prøve. I samsvar med målene for studien identifiseres ulike befolkningsgrupper som resultatene av studien forventes innhentet på. Det tilfeldige utvalget blir deretter analysert for å sikre at det inneholder et tilstrekkelig antall representanter fra hver gruppe.

3. Eksempel på et typisk tilfelle. For eksempel er definisjonen av den gjennomsnittlige unge italieneren gitt. Studien bruker et utvalg som består av individer som oppfyller denne definisjonen. Så, hvis det gjennomføres et eksperiment med universitetsstudenter, for eksempel om evnen til å forhandle, så kan man ikke forvente at funnene vil være gjeldende for statsoverhoder.

Ytre validitet reduseres også av uoverensstemmelser mellom fenomener observert i laboratoriet og fenomener observert i naturlige omgivelser. Det er vanskelig å avgjøre om den identifiserte avhengigheten kun forekommer i laboratoriet eller om den også observeres utenfor laboratoriet. Ytre validitet sikres ved gjentatt eksperimentering under heterogene forhold.

Det er nødvendig å avgjøre hvilken type validitet som er sentral i en gitt studie. Faktisk kan prosedyrer som brukes for å forbedre én type validitet redusere andre typer validitet.

For å øke gyldigheten av statistiske slutninger, bør en forsker for eksempel bruke objekter som er så heterogene som mulig, og dermed redusere muligheten for feil. Samtidig synker den ytre validiteten.

Typen prioritert validitet avhenger av typen forskning som utføres. For eksempel, hvis en eksperimentell studie etablerer et årsak-og-virkning-forhold mellom variabler, er intern validitet avgjørende. I motsetning til dette, når man beregner korrelasjoner mellom variabler, er det umulig å etablere retningen til årsak-virkningsforhold, så i dette tilfellet er intern validitet ikke av interesse sammenlignet med andre typer validitet.

Relatert til gyldighetsbegrepet er begrepet kontroll. Kontroll refererer til alle midler som brukes for å eliminere muligheten for å redusere validiteten til en studie. I praksis undersøker forskeren hvilke faktorer som kan redusere validiteten til studien og hvilke metoder som kan brukes for å nøytralisere disse faktorene.

Det er seks hovedkontrollmetoder.

1. En av de mest brukte kontrollmetodene er å gjennomføre et eksperiment med en gruppe forsøkspersoner som ikke er påvirket av variabelen som studeres og som sammenlignes med forsøkspersoner som er utsatt for denne påvirkningen. For eksempel undersøkes to grupper angående en uavhengig variabel. Gruppe 1 mottar intervensjonen og kalles eksperimentell. Gruppe 2 får ingen behandling og kalles kontrollgruppen. Resultatene fra forsøksgruppen sammenlignes med resultatene fra kontrollgruppen. Hvis to grupper var identiske før en eksperimentell intervensjon, kan enhver forskjell mellom dem observert etter eksperimentet tilskrives den intervensjonen.

S.A. Belanovsky, [e-postbeskyttet]

I vid forstand av ordet gyldighet, dvs. gyldigheten av metoden betyr samsvar med empiriske data oppnådd med dens hjelp med hovedmålene for studien. Spørsmålet om gyldigheten av kvalitative metoder i tidligere år ble sterkt forvirret av spesialister i matematisk statistikk, som utvidet svært spesifikke statistiske kriterier for gyldighet til klasser av problemer og forskningssituasjoner som ikke hadde noe til felles med ideelle objekter som flerfargede baller tatt ut av en kurv, som sannsynlighetsteorien fungerer med.

Før vi går videre til å beskrive kvalitativ forskning, spesielt gruppeforskning, er det nødvendig å beskrive hvordan den skiller seg fra kvantitativ forskning. For å forstå disse forskjellene mer fullstendig, er det nødvendig å forstå hva som strengt tatt er en «feil» i forskningen.

Kvantitativ sosiologisk forskning er en type forskning basert på den matematiske sannsynlighetsteorien. Blant de aksiomatiske premissene til denne teorien er det et svært viktig premiss om at forskjellene mellom de analyserte objektene er begrenset til et fast sett med diskrete egenskaper. For eksempel er kulene som ligger i kurven forskjellige i farge, størrelse og antall tegnet på dem. Folk kan følgelig variere i deres demografiske egenskaper, holdninger osv., og det er viktig å merke seg at i et gitt spørreskjema er settet med egenskaper begrenset av antall kvantifiserte spørsmål i spørreskjemaet, og alle andre mulige egenskaper er antas å være identisk.

Hovedkriteriet som karakteriserer en statistisk typestudie er reliabilitet, dvs. reproduserbarheten av de oppnådde resultatene. Hvis du gjennomfører en gjentatt undersøkelse med samme metodikk i samme sosiale gruppe, og resultatene fra begge undersøkelsene er identiske, betyr det at de er pålitelige. I dag er det ingen som bestrider det faktum at med en korrekt utført masserepresentativ undersøkelse ved bruk av formaliserte spørreskjemaer oppnås automatisk en høy grad av reproduserbarhet av resultater. Spørsmålet om deres gyldighet er imidlertid langt fra uttømt.

I matematisk sosiologi blir validiteten til en studie vanligvis tolket som i hvilken grad et måleverktøy samsvarer med det som skulle måles. Ordboken forklarer videre at, i ordets strenge betydning, er validering bare mulig i nærvær av et uavhengig eksternt kriterium, men en slik situasjon er sjelden i sosiologi. I alle andre tilfeller er gyldigheten av resultatene fra kvantitative undersøkelser ikke noe mer enn en hypotese, hvor vurderingen av graden av sannsynlighet ikke har noe å gjøre med matematiske og statistiske prosedyrer. Den lave graden av troverdighet til mange implisitte substanshypoteser som er latent innebygd av forskere i ordlyden og strukturen til formaliserte spørsmål, og noen ganger det fullstendige fraværet av slik troverdighet, er et svært alvorlig og lite forstått problem.

Den statistiske reliabiliteten til kvantitative forskningsresultater bør derfor ikke forveksles med deres reliabilitet og validitet i vid forstand av ordet. Kvantitativ forskning er strengt tatt bare pålitelig i den grad at selve reliabilitetsproblemet kan reduseres til dets statistiske tolkning. Dersom en slik reduksjon mislykkes eller er prinsipielt umulig, blir kvantitative data et ekstremt upålitelig grunnlag for konklusjoner.

Når man sammenligner kvantitative og kvalitative metoder når det gjelder deres gyldighet, bør det først og fremst bemerkes at områdene for deres gyldige anvendelse ikke sammenfaller med hverandre. Dette gjør en generalisert sammenligning av dem basert på validitetskriterier meningsløs. Det er klasser av problemer der kvantitative metoder har høy validitet og kvalitative metoder har lav validitet. Samtidig er det - og dette aspektet er vanligvis lite vektlagt selv i den spesialiserte litteraturen - andre klasser av problemer der det indikerte forholdet er direkte motsatt.

Hensikten med læreboken vår er ikke å vurdere spørsmål om metodikk for kvalitative metoder generelt. Spesifikt om fokusgrupper, samt individuelle dybdeintervjuer, hvis de gjennomføres i store serier, er at, i det minste teoretisk, er statistiske validitetskriterier også anvendelige for dem, selv om de er forskjellige fra de i kvantitativ forskning.

Tekstutskrifter av en serie gruppeintervjuer utført om et spesifikt tema utgjør en primær datamatrise på flere hundre sider. Denne matrisen er ganske egnet for analyse ved hjelp av statistiske metoder, både når det gjelder størrelse og heterogenitet. Heterogeniteten til arrayet sikres ved deltakelse av flere dusin respondenter, noe som allerede gir grunnlag for omtrentlig fordeling av lignende svar på en tre- eller femleddsskala: en klar minoritet, en minoritet, omtrent likt, et flertall, en klart flertall. Hovedsaken er imidlertid ikke dette. Spesifisiteten til den primære datamatrisen av gruppeintervjuer er at:

  1. Analyseenheten er ikke respondenten, men ytringen. Siden hver respondent er bærer av mange utsagn, øker dette utvalget av primære analytiske enheter med minst en størrelsesorden, noe som gjør det statistisk signifikant.
  2. Oppgaven med kvalitativ forskning omfatter ikke å bestemme antall eller andel bærere av et bestemt synspunkt i samfunnet eller dets segment. I forhold til denne klassen av problemer er kvalitative metoder ugyldige.

Oppgaven til kvalitative metoder er å danne en liste over såkalte «eksistenshypoteser», dvs. liste over meninger, vurderinger eller uttalelser, eksisterende i samfunnet og antagelig ha en distribusjonsgrad som ikke er null. Samtidig, som D. Templeton bemerker, er det å foretrekke å gjøre en feil ved å identifisere en ikke-eksisterende eller ubetydelig faktor enn å gå glipp av en svært betydningsfull faktor.

Det matematiske apparatet tilpasset for å løse problemer av denne typen er i prinsippet velkjent. Det brukes i lingvistikk for å sette sammen lister over lyder og stavelser, samt frekvensordbøker med ord og uttrykk. Det samme apparatet brukes også i sosiologisk forskning utført ved bruk av innholdsanalyse. I forhold til sistnevnte tilfelle ser den matematiske problemformuleringen omtrent slik ut: «Det er en presidentkandidat A, som det skrives om i avisene. Det kreves å lage like mange full liste epitet brukt av forfatterne av artikler for å karakterisere denne kandidaten. Hvor mye avistekster bør studeres slik at antallet uoppdagede epitet med 95 % sannsynlighet ikke overstiger 5 %?

I likhet med det store flertallet av anvendte statistiske problemer, kan ikke dette problemet løses uten viss foreløpig kunnskap om arten av frekvensfordelingen til de ønskede epitetene, så vel som uten noen a priori antakelser. Avhengig av den praktiske bekvemmeligheten av å velge et bestemt system av forutsetninger, kan formuleringen av selve problemet variere. Å fordype seg i denne problemstillingen er utenfor rammen av vårt emne, siden i anvendt forskning utført ved bruk av fokusgruppemetoden, er et statistisk apparat som ligner på det beskrevet ovenfor, hvis det brukes et sted, bare i høyspesialisert forskning, langt fra anvendelsesområdet. av markedsføringsfokusgrupper.grupper. Det ser ut til å være to hovedårsaker til dette. Den første er at bruken av en slik enhet i stor grad øker kostnadene for forskning, og en kommersiell kunde er ikke tilbøyelig til å betale for matematiske "skjønnheter" hvis de ikke på noen måte påvirker de endelige konklusjonene. Av en rekke årsaker, som vil bli beskrevet nedenfor, anser både klienter og forskere det som ganske tilstrekkelig å fokusere på følgende subjektive kriterium: hvis mengden ny informasjon mottatt fra hver påfølgende gruppe har sunket kraftig, bør studien stanses.

Den andre grunnen er mye mer grunnleggende. Det er forbundet med det faktum at i dag, strengt operativt og mottagelig for automatisering, er isolering av semantiske enheter fra tekster bare mulig på nivå med ord og stabile setninger. Isolering, gruppering og tapologisering av mer komplekse semantiske enheter, utført på det analytiske stadiet av kvalitativ sosiologisk forskning, kan bare utføres av en person på grunnlag av ennå ikke studerte ubevisste intellektuelle algoritmer. Rask fremgang i utviklingen dataprogrammer automatisert oversettelse antyder at over tid vil automatisert gjenkjennelse av stadig mer komplekse semantiske enheter bli mulig. Dette arbeidet har imidlertid ennå ikke hatt noen innvirkning på praksisen med fokusgruppeforskning. I vår studie av litteraturen om markedsføringsfokusgrupper kom vi aldri over noen omtale av bruk av innholdsanalyse i noen form. Det finnes slike referanser innen akademisk forskning, men å studere denne problemstillingen krever spesielt arbeid. La oss merke her at på begynnelsen av 90-tallet mest moderne arbeid Webers arbeid ble vurdert basert på datainnholdsanalysemetoder .

For å oppsummere, la oss gå til spørsmålet om å definere områder av gyldig kvantitativ og kvalitativ forskning. Det ble vist ovenfor at disse områdene er fundamentalt forskjellige, siden klassene av problemer de løser er radikalt forskjellige. Området for gyldig anvendelse av formaliserte undersøkelser virker ubegrenset eller veldig bredt bare ved første øyekast. Faktisk er det begrenset til å identifisere graden av utbredelse av visse kunnskaper, meninger eller holdninger som:

    a) må være kjent på forhånd, dvs. før undersøkelsen;

    b) bør ikke være en fiksjon pålagt respondenten eller pseudodommer som ikke er karakteristiske for hans bevissthet.

Kvantitative metoder er ikke egnet til å identifisere selve eksistensen av kunnskap, meninger eller holdninger, slik det tydelig fremgår av følgende sammenligning av undersøkelsesresultater.

A. Kvantitativ forskning

Spørsmål: Hva foretrekker du - eplepai eller sjokolade cupcake? (% av antall respondenter)

    Eplepai - 26 %

    Sjokolade cupcake - 22%

    Både - 43%

    Vanskelig å svare - 9 %

B. Kvalitativ forskning

Spørsmål: Hva foretrekker du - eplepai eller sjokolade cupcake?

Svar: Jeg vet ikke. Jeg elsker begge.

Spørsmål: Ok, hvis du må ta en ting, hva ville det vært? Tenk på det.

Svar: Selvfølgelig er paiene forskjellige. Hvis jeg har mulighet til å ha mammas eplepai, vil jeg velge den fremfor hvilken som helst sjokoladecupcake. Hvis du trenger å ta en slags eplepai, så vet jeg ikke sikkert.

Spørsmål: Hva annet kan valget ditt avhenge av?

Svar: Det kommer for eksempel an på hva jeg spiser til lunsj. Hvis jeg skal ha en full lunsj, tror jeg at jeg skal ha eplepai. Eplepai er en stor delikatesse i familien min. Men hvis jeg spiste noe lett til lunsj, som fisk, er det bedre å ta en muffins. Hvis det er kaldt, vil jeg ikke nekte en sjokoladecupcake [b3].

Dialogen ovenfor illustrerer godt det faktum at det enkle svaret "Jeg velger eplepai" avhenger av mange faktorer, i dette tilfellet - av hvem som har laget denne paien, graden av sult, tettheten til lunsj og omgivelsestemperaturen. Denne listen kan trolig fortsettes. Men, som i mange andre tilfeller, ser ikke antallet slike faktorer, eller i det minste de vanligste, ut til å være særlig stort. Målet med kvalitativ forskning er, som allerede nevnt, å identifisere en liste over disse faktorene med en rimelig grad av fullstendighet. På dette området har kvalitativ forskning høy grad av validitet. Å bestemme frekvensfordelingen av effektene av identifiserte faktorer i befolkningen som studeres er et spørsmål om kvantitativ forskning. Imidlertid er to forbehold viktige:

    a) fra et praktisk synspunkt kan kostnadene ved å gjennomføre en kvantitativ studie overstige den forventede risikoen ved å ta en viljesterk beslutning basert på mindre nøyaktig informasjon;

    b) tilstrekkelig transformasjon av identifiserte faktorer til spørsmål i et formalisert spørreskjema er ofte vanskelig eller umulig, og det er ofte ekstremt vanskelig selv å fastslå mulig grad av denne utilstrekkelighet.

Disse forholdene reduserer ofte gyldigheten av kvantitativ forskning i en slik grad at det blir upraktisk å gjennomføre den.

Bare i de tilfellene hvor hypotesen om gyldigheten av ordlyden av spørsmål i formelle spørreskjemaer virker rimelig eller plausibel, kan kvantitativ forskning gi et gyldig resultat som gjør at beslutninger kan tas basert på mer nøyaktig informasjon.

§ 2.2. Gruppe som samfunnsmodell

I de fleste studerte menneskelige problemer er det sosiale aspektet dominerende. Mennesker kan forstås enten gjennom deres relasjoner til hverandre eller gjennom deres eget indre innhold som individer. Den individuelle intervjumetoden kan under visse forhold minimere effekten av den første faktoren, og oppmuntre intervjuobjektet til å se inn i seg selv. Derimot gir grupper først og fremst sosial kontakt. I studier som utforsker måtene mennesker og ideer samhandler på, blir dette aspektet spesielt viktig. Selv i begynnelsen av sin eksistens viste sosiologi at folks personlige meninger ikke dannes isolert, og primærgrupper og ansikt-til-ansikt kommunikasjon spiller en stor rolle i deres dannelse.»

En gruppe opprettet for å gjennomføre intervjuer er selvfølgelig en svært kunstig samfunnsmodell, men likevel forplikter gruppeinteraksjon deltakerne til å svare på andres meninger, samtidig som de uttrykker sine meninger. Dette er en svært vesentlig faktor der de fleste (inkludert forskerne selv) har begrenset kapasitet til introspeksjon og selvanalyse, samt begrenset evne til verbalt å uttrykke sin forståelse av problemene de har. Ofte i intervjuer formulerer folk svar på spørsmål som de faktisk aldri har stilt seg selv. I daglig atferd er så mye organisert og motivert på et underbevisst eller halvbevisst nivå, og det er så mye av det som er vanemessig og automatisk som til og med er organisert. tenkende person har svært begrenset innsikt i egne holdninger og motivasjoner. I en gruppe kan mennesker bli hjulpet på den ene siden av egen interaksjon med andre medlemmer av gruppen, og på den andre siden observere og lytte til andre som samhandler av folk.

Sosiodynamikken som styrer gruppeprosesser er beskrevet av psykolog Werner, som utviklet en modell for denne prosessen. I følge Werner inkluderer det tre stadier: 1) udifferensiert fellesskap; 2) differensiering; 3) hierarkisk integrasjon.

Når en gruppe møtes for første gang, betraktes medlemmene av moderatoren og deltakerne selv som en udifferensiert helhet. Gruppen består av 8-10 personer som sitter rundt et bord uten noen sosial struktur og organiserer personlige interaksjoner. Det er ingen forskjell mellom medlemmene i gruppen, bortsett fra utseendet deres. På dette stadiet representerer gruppen en samling mennesker som ikke identifiseres av individuelle egenskaper eller relasjoner til hverandre.

Fra stadiet av udifferensiert fellesskap går prosessen veldig raskt til det punktet hvor hvert medlem av gruppen kan skilles fra de andre. Gruppemedlemmer blir bedt om å identifisere seg med hensyn til deres syn på produktet eller tjenesten som diskuteres; de kan fungere som støttespillere, motstandere eller innta en posisjon mellom disse rollene.

Differensiering skjer uunngåelig også etter egenskaper som ikke er direkte relatert til problemstillingen som diskuteres. Ganske raskt identifiseres forskjeller mellom gruppemedlemmer pga Personlige karakteristikker dominans eller etterlevelse; åpenhet eller lukkethet; aggressivitet eller sjenanse. Forskjeller i holdning til emnet som diskuteres, sammen med personlighetsforskjeller, danner grunnlaget for sluttfasen av prosessen.

Når gruppemedlemmene har differensiert, kan den sanne identiteten til gruppen sees gradvis dukke opp, dvs. relasjonssystemer som danner en viss sosial struktur. Dominerende gruppemedlemmer som streber etter lederroller kan komme med de sterkeste argumentene for eller imot produktet som diskuteres. Andre medlemmer vil prøve å uttrykke sine meninger på en mindre direkte og kraftfull måte. De mest etterrettelige vil ikke si fra i det hele tatt før de får godkjenning fra lederne. Gradvis innser deltakerne sine likheter med noen andre deltakere og forenes på dette grunnlaget. Det er vanligvis to eller tre slike uformelle foreninger. Hver av dem ledes av sin egen leder. Prosessen med gruppestrukturering kalles hierarkisk integrasjon.

En hierarkisk integrert gruppe produserer alltid både ledere og tilhengere, både blant støttespillere og blant deres motstandere. Dette modellerer interaksjonsprosessen som skjer i det bredere sosiale miljøet utenfor gruppen. Som allerede nevnt er en av kjerneverdiene i gruppeintervjuet at gruppen, som et mikrokosmos, modellerer storsamfunnet. Ledere i et gruppeintervju er sannsynligvis ledere i sitt eget sosiale miljø; følgere av ledere i en gitt gruppe er mest sannsynlig følgere av lignende ledere i deres sosiale miljø.

I et gruppeintervju oppstår derfor to viktige prosesser:

  1. Differensiering av deltakere i forbindelse med deres holdning til emnet som diskuteres.
  2. Integrative sosiale prosesser som disse relasjonene dannes ved, blir åpenbare, synlige og ikke underforståtte.

Mekanismene beskrevet ovenfor lar moderatoren, når han gjennomfører et gruppeintervju, ikke gjøre noen spesiell innsats for å utvikle den hierarkiske strukturen i gruppen. Opinionsledere bør naturligvis møte opp når de får lov til det. Prosessen med å nominere ledere må kontrolleres, siden presset fra dominerende atferd kan undergrave utviklingen av gruppen som er nødvendig for å få objektiv informasjon.

Begrepet hierarkisk integrasjon, som understreker ledelsens positive rolle, kommer i en viss konflikt med det tidligere systemet med syn på gruppeprosesser, der ledelse ble sett på som et skadelig fenomen, og hver deltaker burde ha fått lik tid og like muligheter. I dag anses dette synspunktet som utdatert. Blokkering av prosessene for hierarkisk organisering av en gruppe ødelegger det metodiske grunnlaget for implementeringen. Først når hierarkisk integrasjon skjer, blir det mulig å teste styrken i strukturen til forbrukersyn i et miljø som er nærmest situasjonen der mennesker uttrykker sine meninger til hverandre og tar beslutninger i samsvar med dem. Den individuelle intervjuprosedyren utsetter vanligvis ikke respondentens synspunkter for en så streng og realistisk test. Sammenlignet med et individuelt intervju, skaper en hierarkisk integrert gruppe et miljø der, som Axelrod bemerker, uventede avsløringer kombineres med respondentenes frihet til å støtte hverandre.

Moderatorer og erfarne observatører legger ofte merke til at resultatet av hierarkisk organisering er manifestasjonen av anerkjennelse av sosiale roller innenfor hver gruppe. Respondentene kan påta seg disse rollene basert på deres personlighetstrekk og den sosiale posisjonen de inntar utenfor gruppen, ofte ledsaget av rollen de er i ferd med å spille med uttrykksfulle kommentarer og gester. Siden hver gruppe er et fremvoksende mikrokosmos der to eller tre individer kan konkurrere om lederskap, må dynamikken i gruppeprosessen utvilsomt forme disse rollene gjennom diskusjon. Hvert individ får sin plass i den nye strukturen av relasjoner, og dette stedet blir anerkjent av andre deltakere.

Det er enda et aspekt ved gruppeinteraksjon som er viktig fra et metodisk synspunkt. I individuelle intervjuer er språket som respondenten bruker ofte svært forskjellig fra det som er naturlig. Denne effekten er mer uttalt jo større sosial avstand mellom intervjueren og respondenten er. Forsøk på å minimere denne forvrengningen er generelt ineffektive. I et gruppeintervju løser dette problemet seg selv. Språket i gruppediskusjon er alltid naturlig, og et intervju kan ikke endre det.

Så fremveksten av ledere i gruppeintervjuer er en normal prosess og bør ikke undertrykkes. Samtidig bør det understrekes at kvalifisert ledelse av en gruppe krever kontinuerlig ledelse av dens utviklende sosiale struktur. Moderatoren bør se hvilke relasjoner som utvikler seg naturlig, men han bør ikke gi fra seg retten til å være voldgiftsdommer. I motsetning til en antropolog som prøver å se på en kultur fra et nesten usynlig utsiktspunkt (spiller rollen som en ikke-deltakende observatør), må gruppemoderatoren utøve sin autoritet, d.v.s. fra tid til annen gripe inn i prosessen som foregår i gruppen slik at informasjonsverdien ikke minimeres. Kapitler som beskriver spesifikke teknikker for å lede grupper gir veiledning om hvordan denne autoriteten skal brukes.

§ 2.3. Tilnærminger til å analysere gruppeintervjuer

Grunnlaget for å forstå og analysere materialer fra fokusgrupper og de fleste andre kvalitative metoder er den såkalte konseptuelle trianguleringen, d.v.s. korrelasjon av ulike trossystemer med hverandre. Konseptuell triangulering må ikke forveksles med metodisk triangulering, som betyr kombinasjonen av ulike metoder for å studere det samme spesifikke problemet.

Antall mulige konseptuelle trianguleringer avhenger av antall synspunkter på den aktuelle problemstillingen. Disse synspunktene, eller trossystemene, kan tilhøre enten ordinær eller vitenskapelig tenkning, dvs. etter B. Halders terminologi representerer de konseptuelle konstruksjoner av enten første eller andre orden [b8]. Vanlige synspunkter varierer avhengig av folks subkulturer og andre faktorer, inkludert individuelle tenkestiler. Vitenskapelige poeng syn eller, bedre å si, konseptuelle tolkninger utviklet av vitenskapen varierer også, først og fremst, avhengig av forskerens tilknytning til en eller annen vitenskapelig disiplin, deretter med en eller annen skole, og til slutt, avhengig av det individuelle systemet av vitenskapelige synspunkter . Hvis vi vurderer konseptuelle interaksjoner på nivå med forskjeller i individuelle tenkestiler, vil antallet slike interaksjoner være uendelig, noe som resulterer i begrepet "uendelig triangulering". Hvis vi begrenser hensynet i hverdagstenkningen bare til samspillet mellom kulturer og subkulturer, og i vitenskapelig tenkning - til beslektede disipliner og vitenskapelige skoler, så vil antallet mulige konseptuelle interaksjoner reduseres kraftig, men vil fortsatt forbli ganske stort. Men hvis vi reduserer spørsmålet til problemet med samspillet mellom tenkestiler som er karakteristiske for forskjellige subkulturer (både vanlige og vitenskapelige), til meningsutveksling om et spesifikt emne, blir antallet relevante synspunkter synlige og vanligvis til og med lite .

Når to eller flere synspunkter kolliderer i en gruppediskusjon, kan prosessen kalles triangulering mellom konkurrerende eller sameksisterende synspunkter i vanlig bevissthet. Prosessen med slik interaksjon er allerede beskrevet ovenfor. I denne delen vil vi betinget vurdere gruppesynspunktet som et enkeltstående for å bestemme ut fra hvilke andre trossystemer det kan studeres.

Det er tre hovedroller i markedsføringsfokusgruppeforskning: respondenter, klientorganisasjonen og forskeren. Forskere, som allerede nevnt, kan tilhøre forskjellige vitenskapelige skoler. Like viktig er det at den samme forsker kan analysere resultatene av diskusjonen fra synspunktet til ulike ikke-overlappende trossystemer (for eksempel psykologisk teori og markedsføring). I tillegg har forskeren en egen komponent av hverdagstenkningen, som også er involvert i analysen. Samspillet mellom klientens og forskerens trossystem er et utvilsomt og svært viktig element som spiller en vesentlig rolle gjennom fokusgruppestudiet. Nedenfor vil vi vise hvordan akkurat dette manifesterer seg. Vi vil imidlertid her begrense oss til å beskrive samspillet mellom tenkningen til kunden og forskeren og tenkningen til respondentene. Siden disse interaksjonene er ensidige (synene til respondentene er gjenstand for studiet fra posisjoner til eksterne observatører), vil vi kalle disse trossystemene analytiske tilnærminger til studiet av meninger, eller ganske enkelt tilnærminger. La oss liste opp hovedtilnærmingene fra synspunktet til gruppedeltakerne analyseres:

Ledermessig tilnærming. B. Calder kaller det unøyaktig «fenomenologisk», og betyr med dette begrepet analyse av forbrukernes synspunkter fra synspunktet til produsenter eller, mer generelt, fra synspunktet til de som bestilte forskningen. Forskeren i dette tilfellet utfører funksjonen til et relé, og gir kommunikasjon mellom disse trossystemene. I følge Axelrods figurative uttrykk, fokus gruppe gi produsenten en sjanse til å være i forbrukerens kjøtt og blod, sette seg på plass og se på produktene hans gjennom øynene hans. Siden hovedaspektene ved vanlig kunnskap er delt inn i sosiale klasser og grupper i samfunnet, er mange trekk ved denne kunnskapen ikke ensartede. I de fleste tilfeller tilhører både kunden og forskningsspesialistene sosiale lag, hvis intersubjektivitet (sosialt betingede meninger) ikke sammenfaller med det som er karakteristisk for representanter for de studerte segmentene av markedet eller valgrommet.

En illustrasjon på dette, samt et eksempel som illustrerer kraften i fokusgruppemetoden, er Templetons utsagn om at hvis språket og tenkningen til respondentene ikke er for forurenset av forskernes forventninger, så kan mange av ordene deres produsere et sjokk. inntrykk på kundene. Derfor ble en produsent av dyre kosmetikk beregnet på middelaldrende kvinner bokstavelig talt sjokkert over å høre en av diskusjonsdeltakerne kalle fuktighetskremen "fett". Greenbaum rapporterer en annen sak der en høytstående bedriftsleder ble så opprørt over uttalelsene til en respondent at han, i strid med alle regler, overfalt henne ved utgangen og ga henne en stor dressing down [b5] . Denne lederens handlinger kan selvfølgelig ikke kalles en effektiv markedsføringsstrategi, men de viser at gjennom trianguleringsprosessene for å utvikle slike strategier, kan det oppstå ganske sterke motivasjoner som bare må kanaliseres i riktig retning. Ved å bruke eksemplet hans stiller Templeton spørsmålet: "Hva trenger forbrukerne å vite om dette produktet slik at de slutter å kalle det fett?"

Markedsføringstilnærming. Selv om det er vanskelig å si om markedsføring er en vitenskapelig disiplin, inkluderer den i alle fall et visst system av ideer om toponymien til markedsrommet, dvs. om konkurrerende menneskelige behov, etterspørselsdynamikk, markedssegmenter, konkurranse mellom og innenfor produktkategorier («interspecies» og «intraspecies»-kamp), etc. Etter vår mening er den spesifikke vinklingen på markedsføringsproblemer som dannes av forskere som jobber direkte med forbrukerfokusgrupper ikke tilstrekkelig representert i markedsføringslærebøker og ser generelt sett ut til å være dårlig reflektert. Sistnevnte gir grunnlag for å klassifisere markedsføringskunnskap ikke som vitenskapelig, men snarere som veldig spesifikk hverdagskunnskap, spontant dannet i «moderator-subkulturen». I alle fall er de intervjuede moderatorene og forfatterne av fokusgruppelærebøker enstemmige i den oppfatning at på den ene siden avhenger veksten av deres generelle kvalifikasjoner i svært stor grad av veksten i deres forståelse av markedsføringsproblemer; på den annen side at standard markedsføringskurs vurderes som nyttige, men ikke gir nødvendige kvalifikasjoner.

På en eller annen måte hjelper markedsføringskvalifisering forskeren til å forstå både kunden og respondentene tilstrekkelig, fungere som en effektiv kommunikator mellom dem (dette er beslektet med arbeidet til en oversetter) og til slutt bidra til de endelige konklusjonene. Dette "bidraget" er ikke informasjon mottatt fra respondenter eller kunder, men er snarere den akkumulerte erfaringen fra moderatorenes tidligere arbeid.

Statsvitenskapelig tilnærming. Denne tilnærmingen brukes i stedet for markedsføringen i tilfeller der forskningsemnet ikke er relatert til varer, men til bilder politikere og politisk reklame. Dette perspektivet til statsvitenskap er et system av ideer om toponymien til valgrommet. Strukturen og funksjonelle egenskapene til valg- og markedsføringsrommene har både likheter og forskjeller. Denne problemstillingen er en av de minst studerte.

Uten at vi i detalj kan presentere systemet for statsvitenskapelige syn på politiske prosesser, vil vi gi et sitat som til en viss grad preger det konkrete ved disse synspunktene.

"Den viktigste funksjonen politisk leder er at kommunikasjonen hans med følgere sjelden er direkte. Dette betyr at et så spesifikt element som image dukker opp mellom leder og publikum. Som leder har vi altså ikke en virkelig person, men en kunstig konstruksjon som kan ha nesten alle gitte egenskaper som samsvarer med publikums forventninger. Jobben til en politisk konsulent som jobber med å forme en leders image er å identifisere og stimulere ønskelige assosiasjoner slik at velgerne tror at kandidaten vil oppfylle sine drømmer, håp og behov. Politiske kampanjer, som en måte å bygge bildet av en politiker på, er organisert på en slik måte at han til slutt fremstår utstyrt i offentlighetens øyne med et visst sett av kvaliteter som gjør ham verdig en lederposisjon."

Klinisk tilnærming- Denne tilnærmingen er hovedsakelig basert på bruk av projektive teknikker rettet mot å identifisere ubevisste former for motivasjon. Disse metodene er igjen basert på et sett med psykologiske teorier, hovedsakelig dannet innen klinisk psykologi og psykiatri og deretter overført til området for normal funksjon av psyken. Selve begrepet "klinisk tilnærming" oppsto som en refleksjon av forbindelsen mellom denne tilnærmingen og disse teoriene, så vel som med utøvelse av klinisk psykoterapi.

Spesifisiteten til den kliniske tilnærmingen er at den ikke er basert på én vitenskapelig teori eller til og med på én vitenskapelig tradisjon, men på et komplekst konglomerat av heterogene konsepter og trossystemer lagt oppå hverandre. Objektiv verifisering av disse konseptene og konklusjonene trukket på grunnlag av deres er svært vanskelig, noe som introduserer et merkbart element av subjektivisme i arbeidet til en klinisk psykolog og erstatning av analyse av respondentenes uttalelser med analyse av elementer i ens eget system av motivasjoner.

Å tolke respondentenes utsagn fra et klinisk perspektiv er derfor forbundet med en viss risiko, men fra et praktisk synspunkt kan denne risikoen være berettiget dersom det er behov for å generalisere fra tilfeller av atferd som ikke kan forklares direkte ut fra selvet. -rapport fra de intervjuede. Den freudianske tesen om at selvrapportering ofte bare er en skjerm som skjuler de sanne årsakene til atferd, bekreftes i ulike tilfeller av markedsføring og reklamepraksis. Uansett er det faktum at den kliniske tilnærmingen har en dyp innflytelse på utøvere markedsundersøkelse ved bruk av kvalitative metoder, også de som i utgangspunktet ikke hadde bakgrunn fra klinisk psykologi. Den kliniske tilnærmingens innflytelse på stilen til fokusgruppene og på tolkningen av resultater har økt sterkt det siste tiåret.

Sosiologisk tilnærming. Eksistensen av en slik tilnærming er ikke nevnt i noen lærebok eller publikasjon, noe som reiser spørsmålet om selve dens eksistens. Hvis svaret er negativt, oppstår et paradoks: metoden for gruppeintervju, genetisk knyttet til den metodiske tradisjonen for sosiologiske undersøkelser, viser seg ikke på noen måte å være forbundet med tradisjonen for teoretisk sosiologi.

I markedsføringsfokusgrupper er sosiologiske teoriers fortolkningsrolle utvilsomt mindre åpenbar enn rollen til ledelsesmessige, markedsføringsmessige og kliniske tilnærminger, selv om påvirkningen fra smågruppeteorier og kunnskapssosiologi, inkl. fenomenologisk kan etter vår mening spores. Påvirkning av andre områder sosiologisk teori er tilsynelatende mer indirekte, men det eksisterer tilsynelatende også. Tilstedeværelsen av en slik indirekte påvirkning er bevist av det faktum at for arbeidet til en fokusgruppemoderator eller analytiker anses en grunnleggende utdanning av både en sosiolog og en psykolog som like ønskelig.

Den begrensede listen over analytiske tilnærminger ved bruk av fokusgrupper skyldes, etter vår mening, det begrensede anvendelsesområdet for denne metoden. Spesielt bekreftes dette av at antall anvendelsesområder for individuelle intervjuer er større, og listen over konseptuelle tilnærminger som utfører en tolkningsfunksjon er tilsvarende større. Avhengig av fokuset til forskningen, kan denne funksjonen utføres av en rekke sosiologiske, psykologiske, språklige og andre tilnærminger, inkludert ulike delsystemer av hverdagskunnskap.

Dersom fokusgruppemetoden i fremtiden utvides til nye fagområder, også innenfor akademisk forskning, vil antallet mulige konseptuelle trianguleringer øke tilsvarende.

Naturvitenskapelig og humanistisk paradigme i psykologi

Hele historien om psykologiens utvikling kan karakteriseres som forholdet mellom to motstridende tilnærminger – naturvitenskap og humaniora, og de siste tiårene har det skjedd en gradvis forskyvning av den første med den andre. Innledningsvis hevdet Aristoteles at studiet av sjelen er naturviterens verk. Dagens tilstand kan karakteriseres som en krise med forsøk på å bygge psykologi etter naturvitenskapens modell. Tilstedeværelsen av separate seksjoner av psykologien som ikke kan tilskrives den naturvitenskapelige linjen (psykoanalyse, humanistisk psykologi, logoterapi) forverrer bare krisetilstanden.

Men i russisk psykologi for tiden, ifølge V.I. Slobodchikova og E.I. Isaev, den rådende orienteringen er fortsatt mot naturvitenskap, mot objektivitet, mot måling og eksperimentering som vitenskapsidealet. Sovjetisk psykologi utviklet seg som en akademisk, vitenskapelig disiplin. De siste årene har humanistisk psykologi begynt å ta form innenfor rammen av psykologisk praksis. Behovet for å lage en spesiell psykoteknisk teori har blitt realisert, dvs. teori som underbygger humanvitenskap og psykologisk praksis. I hovedsak betyr dette opprettelsen av humanistisk psykologi som et alternativ til naturvitenskapelig akademisk psykologi.

V.N. Surkov bemerker at forsøk fra psykologer på å møte naturvitenskapelige standarder innen interaksjon mellom teori og eksperiment har ført til en "positivistisk overbelastning" i psykologien. Psykologers defensive reaksjon på presset fra "positivistiske ritualer" er den utbredte bruken av "skyggemetodikk" (tradisjonen med å formulere hypoteser etter å ha utført forskning, utlede dem fra dataene som er innhentet og ikke fra teorier, kun velge "praktiske" empiriske data, etc.). .

Hovedårsakene til å forhindre etableringen av psykologi som naturvitenskap er:

o den åndelige naturen til menneskelig opprinnelse, som ikke tillater oss å betrakte ham som et objekt av første natur eller en mekanisme;

o menneskelig refleksivitet og aktivitet; umuligheten av bare å kontrollere en person - en forståelsesposisjon, kjærlighet, hjelp, støtte er organisk i forhold til en person.

Disse årsakene ligner de spesifikke egenskapene til humanitær kunnskap, fordi en person fungerer som en åndelig verdi, og ikke bare som et «objekt for forskning». Hovedmålet med psykologi er å forstå en annen person, forklare et visst åndelig eller kulturelt fenomen og gi mening. Den refleksive naturen til psykologisk kunnskap manifesteres i gjensidig påvirkning av subjektet og kunnskapsobjektet; Psykologiens fokus forutsetter ikke bare forståelse, men en aktiv dialog mellom forskeren og objektet som studeres.

Dermed er anvendelsen av kravene til naturvitenskapelig standard i psykologi begrenset. I følge mange forfattere bør til og med et psykologisk eksperiment, for ikke å nevne hele komplekset av psykologisk kunnskap, bygges i henhold til humanitære kanoner.

Konklusjon

En vesentlig del av diskusjonen om psykologiens vitenskapelige status er ikke så mye knyttet til en diskusjon av spørsmålet om psykologi er en vitenskap, men med spørsmålet om hvilken standard (naturvitenskapelig eller humanitær) den bør ledes av (og hvilke kriterier av vitenskapelig karakter den skal oppfylle).

Utenlandske psykologer er mer tilbøyelige til å oppfatte psykologi innenfor rammen av humanitær psykologi, mens innenlandske psykologer fortsatt legger mindre vekt på humanitær kunnskap i psykologi sammenlignet med naturvitenskap. Men trenden senere år er fortsatt humanisering av kunnskap om psykisk virkelighet. Som mange forfattere med rette påpeker, bør tilegnelse av psykologisk kunnskap baseres på et humanitært paradigme, men for å bevise udiskutable fakta brukes det naturvitenskapelige paradigmet, d.v.s. begge paradigmer i studiet av psykisk virkelighet er nødvendige.

Men, ifølge de fleste psykologer, sett fra utsiktene for forskningsaktivitet, er det innenfor rammen av humanitarisering av kunnskap at virkelig komplekse oppgaver bestemmes, som er en verdig utfordring for det vitenskapelige miljøet.

Validitetskriterier brukt på kvalitativ forskning.

Gyldighet av psykodiagnostiske teknikker

Etter reliabilitet er et annet sentralt kriterium for å vurdere kvaliteten på metoder validitet. Spørsmålet om gyldigheten til en teknikk løses først etter at dens tilstrekkelige pålitelighet er etablert, siden en upålitelig teknikk ikke kan være gyldig. Men den mest pålitelige teknikken uten kunnskap om dens gyldighet er praktisk talt ubrukelig.

Det skal bemerkes at spørsmålet om gyldighet inntil nylig ser ut til å være et av de vanskeligste. Den mest etablerte definisjonen av dette konseptet er den som er gitt i boken av A. Anastasi: "Testvaliditet er et konsept som forteller oss hva testen måler og hvor godt den gjør det."

Validitet i kjernen er en kompleks karakteristikk som inkluderer på den ene siden informasjon om hvorvidt teknikken er egnet til å måle hva den er laget for, og på den andre siden hva dens effektivitet, effektivitet og praktiske nytte er.

Av denne grunn er det ingen enkelt universell tilnærming til å definere gyldighet. Avhengig av hvilket aspekt av validitet forskeren ønsker å vurdere, begge deler forskjellige måter bevis. Med andre ord inkluderer gyldighetsbegrepet dets forskjellige typer, som har sin egen spesielle betydning. Å sjekke gyldigheten av en metodikk kalles validering.

Validitet i sin første forståelse er relatert til selve metodikken, det vil si at det er validiteten til måleinstrumentet. Denne typen testing kalles teoretisk validering. Validitet i den andre forståelsen refererer ikke så mye til metodikken som til formålet med dens bruk. Dette er pragmatisk bekreftelse.

For å oppsummere kan vi si følgende:

Under teoretisk validering er forskeren interessert i selve egenskapen målt med teknikken. Dette betyr i hovedsak at psykologisk validering i seg selv blir utført;

Med pragmatisk validering er essensen av målingsemnet (psykologisk egenskap) ute av syne. Hovedvekten er å bevise at noe målt med en teknikk har et forhold til visse praksisområder.

Å gjennomføre teoretisk validering, i motsetning til pragmatisk validering, viser seg noen ganger å være mye vanskeligere. Uten å gå inn på spesifikke detaljer for nå, la oss dvele i generelle termer ved hvordan pragmatisk validitet kontrolleres: et eksternt kriterium, uavhengig av metodikken, velges som bestemmer suksess i en bestemt aktivitet (pedagogisk, profesjonell, etc.), og med it Resultatene av diagnoseteknikken sammenlignes. Hvis forbindelsen mellom dem anses som tilfredsstillende, trekkes en konklusjon om den praktiske betydningen, effektiviteten og effektiviteten til diagnoseteknikken.

For å fastslå teoretisk gyldighet er det mye vanskeligere å finne noe uavhengig kriterium som ligger utenfor metodikken. Derfor, i de tidlige stadiene av utviklingen av testologi, da begrepet gyldighet bare tok form, var det en intuitiv idé om at testen måler:

1) teknikken ble kalt gyldig, siden det den måler ganske enkelt er åpenbart; 2) gyldighetsbeviset var basert på forskerens tillit til at metoden hans lar ham forstå emnet; 3) teknikken ble ansett som gyldig (dvs. utsagnet ble akseptert om at en slik og en test måler en slik og en slik kvalitet) bare fordi teorien som ligger til grunn for teknikken var meget god.

Aksept av udokumenterte påstander om metodikkens gyldighet kunne ikke fortsette lang tid. De første manifestasjonene av virkelig vitenskapelig kritikk avviste denne tilnærmingen: letingen etter vitenskapelig basert bevis begynte.

Å utføre teoretisk validering av en metodikk er altså å bevise at metodikken måler nøyaktig egenskapen, kvaliteten, som forskeren hadde til hensikt å måle.

Så, for eksempel, hvis en test ble utviklet for å diagnostisere den mentale utviklingen til barn, er det nødvendig å analysere om den virkelig måler denne utviklingen, og ikke noen andre egenskaper (for eksempel personlighet, karakter, etc.). For teoretisk validering er det kardinalproblemet forholdet mellom psykologiske fenomener og deres indikatorer som disse psykologiske fenomenene søkes kjent gjennom. Dette viser hvor mye forfatterens intensjoner og resultatene av metodikken er sammenfallende.

Det er ikke så vanskelig å gjennomføre teoretisk validering av en ny teknikk hvis det allerede finnes en teknikk med bevist validitet for å måle en gitt egenskap. Tilstedeværelsen av en korrelasjon mellom en ny og en lignende allerede testet metode indikerer at den utviklede metoden måler samme psykologiske kvalitet som referansemetoden. Og hvis den nye metoden samtidig viser seg å være mer kompakt og økonomisk i gjennomføring og bearbeiding av resultater, så har psykodiagnostikere muligheten til å bruke nytt verktøy i stedet for den gamle.

Men teoretisk gyldighet bevises ikke bare ved sammenligning med relaterte indikatorer, men også med de der det, basert på hypotesen, ikke burde være signifikante sammenhenger. For å kontrollere teoretisk validitet er det derfor viktig på den ene siden å fastslå graden av sammenheng med en relatert teknikk (konvergent validitet) og fraværet av denne sammenhengen med teknikker som har et annet teoretisk grunnlag (diskriminerende validitet).

Det er mye vanskeligere å gjennomføre teoretisk validering av en metode når en slik verifiseringsmetode er umulig. Oftest er dette situasjonen en forsker står overfor. Under slike omstendigheter er det bare den gradvise akkumuleringen av forskjellig informasjon om eiendommen som studeres, analysen av teoretiske premisser og eksperimentelle data og betydelig erfaring med å jobbe med teknikken som gjør det mulig å avsløre dens psykologiske betydning.

En viktig rolle i å forstå hva metodikken måler ved å sammenligne dens indikatorer med praktiske aktivitetsformer. Men her er det spesielt viktig at metodikken er nøye gjennomarbeidet teoretisk, det vil si at det er et solid, godt begrunnet vitenskapelig grunnlag. Så kan man ved å sammenligne metodikken med et eksternt kriterium hentet fra hverdagspraksisen som samsvarer med det den måler, få informasjon som støtter teoretiske ideer om dens essens.

Det er viktig å huske at hvis teoretisk gyldighet er bevist, blir tolkningen av de oppnådde indikatorene klarere og mer entydig, og navnet på teknikken tilsvarer omfanget av dens anvendelse. Når det gjelder pragmatisk validering, innebærer det å teste en teknikk ut fra dens praktiske effektivitet, betydning og nytte, siden det er fornuftig å bruke en diagnostisk teknikk bare når det er bevist at egenskapen som måles manifesteres i visse livssituasjoner. , i visse typer aktiviteter. De gir henne veldig viktig spesielt der spørsmålet om utvalg oppstår.

Hvis vi igjen vender oss til historien om testologiens utvikling, kan vi trekke frem en periode (20-30-årene av 1900-tallet) da det vitenskapelige innholdet i tester og deres teoretiske bagasje var av mindre interesse. Det var viktig at testen fungerte og hjalp raskt å velge ut de mest forberedte personene. Det empiriske kriteriet for vurdering av testoppgaver ble ansett som den eneste riktige retningslinjen for å løse vitenskapelige og anvendte problemer.

Bruk av diagnostiske teknikker med ren empirisk begrunnelse, uten et klart teoretisk grunnlag, førte ofte til pseudovitenskapelige konklusjoner og uberettigede praktiske anbefalinger. Det var umulig å nøyaktig navngi egenskapene og kvalitetene som testene avdekket. De var egentlig blindtester.

Denne tilnærmingen til problemet med testvaliditet var typisk frem til tidlig på 50-tallet. XX århundre ikke bare i USA, men også i andre land. Den teoretiske svakheten til empiriske valideringsmetoder kunne ikke annet enn å vekke kritikk fra de forskerne som i utviklingen av tester ba om å stole ikke bare på bar empiri og praksis, men også på et teoretisk konsept. Praksis uten teori er som vi vet blind, og teori uten praksis er død. Foreløpig oppleves teoretisk og praktisk vurdering av validiteten til metoder som den mest produktive.

For å utføre pragmatisk validering av en teknikk, det vil si å vurdere dens effektivitet, effektivitet, praktiske betydning, brukes vanligvis et uavhengig eksternt kriterium - en indikator på manifestasjonen av egenskapen som studeres i Hverdagen. Et slikt kriterium kan være akademisk ytelse (for tester av læringsevner, prestasjonstester, intelligenstester) og produksjonsprestasjoner (for profesjonsorienterte metoder), og effektiviteten til virkelige aktiviteter - tegning, modellering, etc. (for tester av spesielle spesialiteter). evner), subjektive vurderinger (for personlighetstester).

Amerikanske forskere D. Tiffin og E. McCormick, etter å ha analysert de eksterne kriteriene som ble brukt for å bevise gyldigheten, identifiserer fire typer:

1) ytelseskriterier (disse kan inkludere for eksempel mengden utført arbeid, akademiske prestasjoner, tid brukt på opplæring, veksthastighet for kvalifikasjoner, etc.); 2) subjektive kriterier (de inkluderer forskjellige typer svar som gjenspeiler en persons holdning til noe eller noen, hans mening, synspunkter, preferanser; vanligvis oppnås subjektive kriterier ved hjelp av intervjuer, spørreskjemaer, spørreskjemaer); 3) fysiologiske kriterier (de brukes til å studere påvirkningen av miljøet og andre situasjonsvariabler på menneskekroppen og psyken; pulsfrekvens, blodtrykk, elektrisk motstand i huden, symptomer på tretthet, etc. måles); 4) kriterier for ulykker (anvendt når formålet med studien for eksempel gjelder problemet med å velge ut personer som er mindre utsatt for ulykker til arbeid).

Det eksterne kriteriet må oppfylle tre grunnleggende krav:

Det må være relevant;

Fri for forstyrrelser;

Pålitelig.

Relevans refererer til den semantiske korrespondansen mellom et diagnostisk verktøy og et uavhengig vitalt kriterium. Det må med andre ord være tillit til at kriteriet involverer nettopp de trekk ved den enkelte psyke som måles med diagnoseteknikken. Det ytre kriteriet og den diagnostiske teknikken må stå i indre semantisk korrespondanse med hverandre og være kvalitativt homogene i psykologisk essens. Hvis for eksempel en test måler individuelle egenskaper ved tenkning, evnen til å utføre logiske handlinger med visse objekter og konsepter, bør kriteriet også se etter manifestasjonen av nettopp disse ferdighetene. Dette gjelder også faglig virksomhet. Den har ikke ett, men flere mål og mål, som hver er spesifikke og pålegger sine egne betingelser for gjennomføring. Dette innebærer at det finnes flere kriterier for å utføre profesjonelle aktiviteter. Suksess i diagnostiske teknikker bør derfor ikke sammenlignes med produksjonseffektivitet generelt. Det er nødvendig å finne et kriterium som, basert på arten av de utførte operasjonene, er korrelert med metodikken.

Hvis det er ukjent angående et eksternt kriterium om det er relevant for egenskapen som måles eller ikke, så blir det praktisk talt ubrukelig å sammenligne resultatene av en psykodiagnostisk teknikk med den. Det tillater ikke at man kommer til noen konklusjoner som kan vurdere metodikkens gyldighet.

Kravene til frihet fra innblanding er forårsaket av at for eksempel utdanningsmessig eller industriell suksess avhenger av to variabler: av personen selv, hans individuelle egenskaper, målt etter metoder, og av situasjonen, studie- og arbeidsforhold, som kan introdusere interferens og "forurense" det anvendte kriteriet . For å unngå dette til en viss grad bør grupper av mennesker som er i mer eller mindre like forhold velges ut til forskning. En annen metode kan brukes. Den består i å korrigere påvirkningen av interferens. Denne justeringen er vanligvis av statistisk natur. For eksempel bør produktiviteten ikke tas i absolutte termer, men i forhold til den gjennomsnittlige produktiviteten til arbeidere som arbeider under lignende forhold

Når de sier at et kriterium må ha statistisk signifikant reliabilitet, betyr dette at det må gjenspeile konstansen og stabiliteten til funksjonen som studeres.

Søket etter et adekvat og lett identifisert kriterium er en svært viktig og kompleks valideringsoppgave. I vestlig testing blir mange metoder diskvalifisert bare fordi de ikke ble funnet passende kriteriumå sjekke dem. For eksempel har de fleste spørreskjemaer tvilsomme validitetsdata fordi det er vanskelig å finne et adekvat eksternt kriterium som samsvarer med det de måler.

Vurdering av validiteten til metoder kan være kvantitativ og kvalitativ.

For å beregne en kvantitativ indikator - validitetskoeffisienten - sammenlignes resultatene oppnådd ved bruk av diagnoseteknikken med dataene som er oppnådd ved bruk av et eksternt kriterium for de samme individene. Er brukt forskjellige typer lineær korrelasjon (ifølge Spearman, ifølge Pearson).

Hvor mange emner trengs for å beregne gyldighet?

Praksis har vist at det ikke bør være mindre enn 50, men best er mer enn 200. Spørsmålet dukker ofte opp: hva bør verdien av validitetskoeffisienten være for at den skal anses som akseptabel? Generelt bemerkes det at det er tilstrekkelig at validitetskoeffisienten er statistisk signifikant. En gyldighetskoeffisient på omtrent 0,20-0,30 anses som lav, gjennomsnittlig - 0,30-0,50 og høy - over 0,60.

Men, som A. Anastasi, K. M. Gurevich og andre understreker, er det ikke alltid legitimt å bruke lineær korrelasjon for å beregne gyldighetskoeffisienten. Denne teknikken er berettiget bare når det er bevist at suksess i noen aktivitet er direkte proporsjonal med suksess i å utføre en diagnostisk test. Stillingen til utenlandske testologer, særlig de som er involvert i faglig egnethet og seleksjon, kommer oftest ned i den ubetingede erkjennelsen av at den som har utført flere oppgaver i prøven, er mer egnet for yrket. Men det kan også være at for å lykkes med en aktivitet må du ha en eiendom på nivået 40 % av testløsningen. Videre suksess i testen har ikke lenger noen betydning for yrket. Et tydelig eksempel fra monografien til K. M. Gurevich: en postmann må kunne lese, men enten han leser i normal hastighet eller i svært høy hastighet - dette har ikke lenger faglig betydning. Med en slik korrelasjon mellom metodens indikatorer og det eksterne kriteriet, kan den mest adekvate måten å etablere validitet på være forskjellskriteriet.

Et annet tilfelle er også mulig: et høyere eiendomsnivå enn profesjonen krever, forstyrrer faglig suksess. Så selv ved begynnelsen av det 20. århundre. Den amerikanske forskeren F. Taylor fant at de mest utviklede kvinnelige produksjonsarbeiderne har lav arbeidsproduktivitet. Det vil si at deres høye mentale utvikling hindret dem i å jobbe svært produktivt. I dette tilfellet vil analyse av varians eller beregning av korrelasjonsforhold være mer egnet for å beregne validitetskoeffisienten.

Som erfaringen til utenlandske testologer har vist, er ikke en eneste statistisk prosedyre i stand til å fullt ut gjenspeile mangfoldet av individuelle vurderinger. Derfor brukes ofte en annen modell for å bevise validiteten til metoder – kliniske vurderinger. Dette er ikke annet enn en kvalitativ beskrivelse av essensen av eiendommen som studeres. I dette tilfellet snakker vi om bruk av teknikker som ikke er avhengige av statistisk prosessering.

7. Begreper reliabilitet, validitet, reliabilitet av testen i henhold til A.G. Shmelev.

Test egenskaper

Hvilke andre viktige implikasjoner kan vi trekke fra testvåpenmetaforen? Denne metaforen lar oss mer nøyaktig og dypere forstå en rekke instrumentelle krav til tester som tester må oppfylle, samt standarder for bruk av tester. Jeg skal slett ikke liste opp alle de psykometriske egenskapene til tester her, men likevel er noen av de viktigste verdt å nevne – i hvert fall ikke strengt tatt, i hvert fall rent metaforisk.

1) Test pålitelighet. Kan et våpen laget i et provisorisk halvkjellerverksted, som de sier, "på knærne", være pålitelig? Dette våpenet vil skyte hvor som helst - noen ganger mot målet, men oftere sidelengs, og noen ganger kan det ganske enkelt eksplodere i hendene på skytteren. Her er det på sin plass å minne om følgende: pålitelige tester lages ikke i bittesmå laboratorier (og spesielt ikke ved et skrivebord av en ensom forfatter). Testens pålitelighet kontrolleres ikke bare på et representativt (masse)utvalg, men kan rett og slett ikke utvikles uten omfattende statistikk. Et representativt utvalg for teststandardisering er en slags prøveplass for nye våpen. Først etter slike felttester kan testdesigneren foreta målrettede ("seende") justeringer av den opprinnelige utformingen av våpenet sitt. Altså, allerede i eksemplet med denne ene egenskapen til testen - reliabilitet - ser vi hva? Metaforen "testvåpen" gir oss i denne sammenhengen. Et dårlig våpen styrker ikke, men tvert imot, svekker brukeren og setter ham i fare. Men er det mulig å bedømme kvaliteten på våpen generelt etter prøver av håndverksvåpen? Det er ikke tester generelt som er dårlige, men upålitelige tester.

2) Testvaliditet. La oss huske at dette er et mål på testens egnethet for psykodiagnostikk, et mål på samsvar med egenskapen som måles. Hvor vil våpenet skyte? Dette avhenger ikke bare av påliteligheten til selve testen, men også av brukeren. En upålitelig test kan ikke være gyldig. Dette aksiomet til måleteorien i denne sammenhengen er lett å forstå: hvis du ikke treffer silhuetten med fem trinn, hva slags gyldighet, hva slags korrespondanse av testen til egenskapen som måles kan vi snakke om, fordi ved hjelp av en slik "test" kan du ikke treffe fienden, og inn i "din" - den som står ved siden av deg, det vil si at du "fanger" ved hjelp av testen ikke målet, men et annet mental egenskap. Men hvis skytteren selv er blind, hvis han er fargeblind, som ikke skiller fargene på uniformene som hans egne og andres er kledd i, hvis han også er en alarmist, så vil han i panikk skyte selv fra pålitelige. håndvåpen mot både sine egne og andres. Dermed kan vi enkelt formulere en viktig konsekvens: testen kan ikke være gyldig i hendene på en ikke-profesjonell. Her er et annet aksiom for testologi, som dessverre kan være så vanskelig å forklare ikke bare for et massepublikum, men også for psykologene selv, fordi med ordene "pålitelighet" og "gyldighet" flyter forferdelige og uforståelige psykometriske formler inn i deres sinn. . Derfor virker disse konseptene for dem mer matematiske enn psykologiske, det vil si fremmede for deres "humanitære intellekt."

Igjen, i denne sammenheng, la oss gå tilbake til kritikk av tester. Er det mulig å bedømme testen, og spesielt tester generelt, hvis til og med ganske høykvalitets fabrikkvåpen blir overlevert til paniske rekrutter som enten skyter spurver fra en kanon (for eksempel bruker et tungt IQ-batteri som Wechsler-testen for å diagnostisere oppmerksomhetsforstyrrelse), eller skynde seg inn med en pistol, er det forgjeves å skyte mot en pansret tank (de prøver å forstå naturen og den meningsfulle betydningen av den interne konflikten ved hjelp av fargepreferanser i Luscher-testen, som etter min mening er egnet bare for en grov vurdering av humørbakgrunnen). Enhver person mer eller mindre kunnskapsrik i militære anliggender forstår som to og to: det er ikke noe universelt våpen og under forskjellige kampforhold er det nødvendig å bruke forskjellige ting. Men den menneskelige psyken er en mer subtil virkelighet, usynlig for utenforstående, enn slagmarken. Og så forvirrer vi alt i verden: treg posisjonell ildkamp, ​​aktiv artillerisperring og et rasende bajonettangrep i full lengde, når det er på tide å trekke granater fra beltene våre. Når du gjør et veldig kort utvalg av noen få oppgaver (noen skjulte figurer fra Gottschald-testen, noen få Rorschach-blekkflekker), bør du fortsatt være klar over at du er like sannsynlig å snuble over diagnostisk verdifull informasjon som hvilken som kan traff en stålbunker med en lett infanterigranat. Mest sannsynlig blir det ikke noe resultat! Men skal vi da konkludere med at alle tester er ineffektive? Jeg vil si at mange enkeltpsykologiske tester er et veldig svakt våpen mot godt kamuflerte festningsverk, mot forsvaret i dybden av den fler-etasjes menneskelige psyken, som på tidspunktet for sosial modenhet utvikler mange lag av svært sofistikerte psykologiske forsvarsmekanismer. Her kommer vi til problemet med pålitelighet - problemet med forholdet mellom bevisste og ubevisste mekanismer for psykologisk forsvar mot testing. R. Cattell kalte dette en gang problemet med motivasjonsforvrengninger. Det høres vakkert ut, selv om vi snakker om stygge ting – om mer eller mindre bevisste løgner.

3) Troverdighet. Dette er et problem med forfalskning. La oss i denne sammenheng formulere følgende noe paradoksale faglige og etiske standard: «Subjektet har rett til å lyve». Faktisk, hvis en test er et våpen for penetrering i den menneskelige psyken, så har subjektet rett til selvforsvar - å motstå denne penetrasjonen. Til slutt er det mulig å rettferdiggjøre en testperson som klarte å skjule sine problemer, sine defekter, ved å mobilisere for en sosialt ønskelig test: på denne måten demonstrerer han på testtidspunktet styrken til sine kompenserende mekanismer, evne til å løse problemer for moralsk utvikling, evne til å løse problemer for intellektuell utvikling og etc. 5, selv om han kanskje oppfører seg annerledes i hverdagen. Styrken til det pansrede skroget på skipet hans, som sikret dets usinkbarhet, viste seg å være sterkere enn slaget som psykologen utdelte med våpenet hans. Heder og ros til et slikt emne. Men denne oppgaven har også en viktig konsekvens: positive testresultater har mindre verdi og mindre prediktiv kraft enn negative resultater.

Derfor, hvis vi endelig forstår de grunnleggende ideene om essensen av testen, vil vi lære å bruke den tilstrekkelig i sosial praksis. Så lenge vi feiltolker essensen av testen og ikke ser tilstrekkelig begrensningene i bruken av den, gjør vi alvorlige feil. Er det nødvendig å forby spredning av våpen i et samfunn der ingen egentlig vet hvordan de skal brukes kompetent? Tilsynelatende vil det likevel være klokere å ikke forby det i det hele tatt, men heller å begrense det til en smalere krets av trente, sertifiserte brukere! Og de skal bare utstyres med sertifiserte verktøy, og ikke bare tilfeldige. Hvis potensielle byggherrer reiser fleretasjes bygninger på sumper eller kvikksand uten å legge et solid fundament, det vil si at de bryter med alle regler for sikker konstruksjonsteknologi, bør bygningen ikke bygges på denne måten i det hele tatt; Dette betyr ikke at arkitektoniske institutter, alle fabrikker som produserer byggematerialer og byggeorganisasjoner selv skal forbys. Dersom noen misbruker visse medisiner ved å gjøre dem om til narkotika, betyr ikke dette at legemiddelindustrien skal forbys, selv om strengheten i kontrollen med distribusjonen av farlige stoffer selvfølgelig må økes.

Tester og ekspertvurderinger

Standardiserte tester gir etter min mening ikke grunnlag for en endelig positiv diagnose (dvs. en diagnose om egnethet for en bestemt aktivitet), for dette må de suppleres med ekspertvurderinger (eller andre mindre standardiserte diagnostiske prosedyrer, inkludert ekspertvurderinger). i en eller annen grad, som for eksempel skjer i projektive teknikker).

Dermed er et positivt utfall av en testforsøk en logisk nødvendig, men ikke tilstrekkelig betingelse for en endelig positiv konklusjon. Siden jeg, som testolog, dessverre er godt klar over at våre medborgere noen ganger har alvorlige problemer med elementær logikk 5, la oss skjematisere hva som er sagt i form av følgende nettbrett:

La oss forklare dette med et meningsfullt eksempel. Først, la oss ta det mest trivielle tilfellet, langt fra psykologi - den allerede nevnte eksamen om kunnskap om reglene trafikk. Hvis kandidaten består prøven i henhold til reglene, kan han ennå ikke få utstedt førerkort - han må da bestå en mindre formell praktisk førerprøve. Hvis kandidaten stryker på prøven, får han ikke ta neste prøve. I denne sammenhengen er det på tide også å gi følgende ansvarsfraskrivelse: et negativt testresultat er ikke en dødsdom. Alle forstår at du kan lære reglene, komme igjen og ta eksamen på nytt.

La oss nå ta en mindre åpenbar (ennå ikke formalisert ved forskrift) prosedyre for å teste en kandidat når man søker på en jobb for nivået av såkalt "bedriftslojalitet". La oss anta at faget presenteres med et helt primitivt test-spørreskjema som inneholder enkle spørsmål som "Har du noen gang lurt lærere når de tar eksamen på skolen?" Som vi sa ovenfor, bruker personen i dette tilfellet sin rett til å forfalske og svarer "Det stemmer, det har jeg ikke." Og hvilken konklusjon trekker vi i denne saken? Nei! Men hvis motivet plutselig, i et anfall av åpenhet, svarer: «Feil, det skjedde», bør man i det minste være på vakt.

Dette prinsippet gjelder i enda større grad for grunnleggende prøver av grunnleggende fagkunnskap. Hvis en regnskapsførerkandidat ikke kan svare på et spørsmål i et konkurranseskjema om hva en "kontoplan" er, bør vi da fortsette å jobbe med denne kandidaten? Bør den dyre tiden til kvalifiserte eksperter brukes på å intervjue en slik kandidat i detalj? Selvfølgelig ikke 6.

Derfor foreslår jeg bokstavelig talt overalt, i alle grener av praksis, å bruke testen som et primært billig og formalisert filter, før bruken av mer komplekse og dyre ekspertprosedyrer. Til en viss grad ledes personellvurderingsspesialister som bruker Assessment Center-teknologien i dag av en lignende logikk.

Så platen ovenfor bør modifiseres til å se slik ut:

Positivt utfall av sakkyndig vurdering Negativt utfall av sakkyndig vurdering
Positivt testresultat Konklusjon om egnethet Konklusjon om uegnethet
Negativt testresultat Konklusjon om uegnethet Konklusjon om uegnethet

Som vi ser, for en positiv generell konklusjon, kreves en konjunksjon (logisk "AND") av to uavhengige hendelser - et positivt testresultat og et positivt resultat av ekspertvurderingen. Fraværet av minst ett av de positive resultatene gjør det ikke mulig å trekke en generell positiv konklusjon.

Kvaliteten på et slikt tofiltervalgssystem er uansett høyere enn et hvilket som helst enkeltfiltersystem – kun basert på ekspertvurderinger eller kun på tester. Og snakken om at testresultater i vårt land er veldig enkle å kjøpe (dessverre ble slike samtaler ofte startet, for eksempel på diskusjonsforumet til Unified State Exam-portalen ege.edu.ru) er enten bevisst demagogisk av natur, eller avslører igjen en defekt logisk tenkning. Der du kan kjøpe testresultater kan du som regel også kjøpe resultatene av en ekspertvurdering, og du må også spesifikt studere hvilke av filtrene som faktisk er mindre salgbare. Selv om nøkler lekkes selv om testen er vidt distribuert, beholder et negativt testresultat fortsatt sin verdi, men det er spesielt viktig at uforgjengelige eksperter kommer i spill etter et positivt utfall. Hvis vi kobler resultatene av to prosedyrer med en logisk "OG", er de numeriske resultatene av testen og ekspertvurderingen mer korrekte for ikke å summere, men å multiplisere, det vil si å aggregere ikke additivt, men multiplikativt:

hvor T er prøveresultatet, E er resultatet av sakkyndig vurdering, O er helhetsvurderingen. Hvis noen av faktorene tar en nullverdi (er under minimumsterskelen), så viser det samlede resultatet seg å være null uavhengig av verdien av den andre faktoren. Med ikke-nullverdier for begge komponentene i formelen, oppnås det maksimale resultatet hvis verdiene til T og E er nær hverandre. ?! Hvor kommer dette fra? Og hva har beløpet med det å gjøre? Denne tilnærmingen nøytraliserer noe effekten av å overvurdere en indikator på grunn av dens "kjøp".


Relatert informasjon.


Side 8 av 30


Validitet av kvalitative metoder

I vid forstand av ordet gyldighet metode- Overholdelse av empiriske data innhentet ved hjelp av hovedmålene for studien. Spørsmålet om gyldigheten av kvalitative metoder i tidligere år ble sterkt forvirret av spesialister i matematisk statistikk, som utvidet svært spesifikke statistiske kriterier for gyldighet til klasser av problemer og forskningssituasjoner som ikke hadde noe til felles med ideelle objekter som flerfargede baller tatt ut av en kurv, som sannsynlighetsteorien fungerer med. Kvalitative metoder- Metoder fokuserte ikke på massedatainnsamling, men på å oppnå en dybdeforståelse av de sosiale fenomenene som studeres.

Før vi går videre til å beskrive kvalitativ forskning, spesielt gruppeforskning, er det nødvendig å beskrive hvordan den skiller seg fra kvantitativ forskning. For å forstå disse forskjellene mer fullstendig, er det nødvendig å forstå hva som strengt tatt er en «feil» i forskningen.

Kvantitativ sosiologisk forskning er en type forskning basert på den matematiske sannsynlighetsteorien. Blant de aksiomatiske premissene til denne teorien er det et svært viktig premiss om at forskjellene mellom de analyserte objektene er begrenset til et fast sett med diskrete egenskaper. For eksempel er kulene som ligger i kurven forskjellige i farge, størrelse og antall tegnet på dem. Folk kan følgelig variere i deres demografiske egenskaper, holdninger osv., og det er viktig å merke seg at i et gitt spørreskjema er settet med egenskaper begrenset av antall kvantifiserte spørsmål i spørreskjemaet, og alle andre mulige egenskaper er antas å være identisk.

Hovedkriteriet som karakteriserer en statistisk typestudie er reliabilitet, dvs. reproduserbarheten av de oppnådde resultatene. Hvis vi gjennomfører en gjentatt undersøkelse med samme metodikk i samme sosiale gruppe og resultatene fra begge undersøkelsene er identiske,? det betyr at de er pålitelige. I dag er det ingen som bestrider det faktum at med en korrekt utført masserepresentativ undersøkelse ved bruk av formaliserte spørreskjemaer oppnås automatisk en høy grad av reproduserbarhet av resultater. Spørsmålet om deres gyldighet er imidlertid langt fra uttømt.

I matematisk sosiologi gyldigheten av studien- graden av samsvar til måleinstrumentet med det som skulle måles. I ordets strenge forstand er validering bare mulig i nærvær av et uavhengig eksternt kriterium, men en slik situasjon er sjelden i sosiologi. I alle andre tilfeller er gyldigheten av resultatene fra kvantitative undersøkelser ikke noe mer enn en hypotese, hvor vurderingen av graden av sannsynlighet ikke har noe å gjøre med matematiske og statistiske prosedyrer. Den lave graden av troverdighet til mange implisitte substanshypoteser som er latent innebygd av forskere i ordlyden og strukturen til formaliserte spørsmål, og noen ganger det fullstendige fraværet av slik troverdighet, er et svært alvorlig og lite forstått problem.

Den statistiske reliabiliteten til kvantitative forskningsresultater bør derfor ikke forveksles med deres reliabilitet og validitet i vid forstand av ordet. Kvantitativ forskning er strengt tatt bare pålitelig i den grad at selve reliabilitetsproblemet kan reduseres til dets statistiske tolkning. Hvis en slik reduksjon mislykkes eller er umulig i prinsippet, blir kvantitative data et ekstremt upålitelig grunnlag for konklusjoner.

Disse begrensningene som er pålagt gyldigheten av kvantitative forskningsmetoder blir ikke tatt i betraktning av positivistisk metodikk, som anerkjenner kvantitative metoder som ubetinget prioritet, og vurderer dem (og bare dem) som pålitelige og evidensbaserte. Denne tradisjonen er basert på et sett med ideer som anser dannelsen av konsepter som en deterministisk induktiv prosedyre for oppstigning fra fakta til en generaliserende teori. Orienteringen av positivistisk metodikk mot kvantitative forskningsmetoder stammer fra ideen om behovet for streng fiksering av "fakta" som studeres.

Legitimiteten av å bruke kvalitative metoder innenfor rammen av en kvantitativ tilnærming er anerkjent, men så å si i en hjelperolle. I metodiske beskrivelser, laget fra synspunktet om en kvantitativ tilnærming, understrekes det hele tiden at vitenskapelige data innhentet ved bruk av slike metoder er foreløpige, upålitelige osv. Det er selvfølgelig visse begrunnelser bak slike utsagn, men erfaringene fra empirisk arbeid opparbeidet over tiår viser at disse begrunnelsene på mange måter ikke er dype nok.

Definisjonen av en kvalitativ metodisk tilnærming er gitt i følgende formulering:

Kvalitativ analyse i ordets vid forstand- arten av implementeringen av sosiologisk forskning, der hovedvekten er på sosiologiens teoretiske ressurser, individuell erfaring, observasjon og intuisjon, tradisjonelle metoder for filosofisk og logisk analyse av kategorier og konsepter, historiske sammenligninger og bruk av personlig og offisielle dokumenter.

I motsetning til den kvantitative tradisjonen, har den kvalitative tradisjonen, som kan karakteriseres som intuisjonistisk, en tendens til å se dannelsen av konseptuelle representasjoner som en prosess for bildedannelse. Som D. Campbell bemerker, er vektleggingen i epistemologien på kvalitativ gjenkjennelse av et bilde som det første i forhold til gjenkjennelsen av dets atompartikler som kan kvantifiseres basert på en persons evne til å danne en helhetlig idé (gestalt) om objektet. under studier under forhold med uunngåelig ufullstendig og motstridende empirisk informasjon. Kvalitative metoder utfører en rekke viktige funksjoner som er undervurdert innenfor kvantitativ metodikk.

Årsakene til skiftet i prioritet mot bruk av kvalitative metoder i kvalitativ metodikk er i en viss forstand empiriske, siden disse årsakene er profesjonsmiljøets reaksjon på den lave vitenskapelige produktiviteten til mange studier utført av sosiologer som er eksplisitt eller implisitt påvirket av den kvantitative tilnærmingen. I løpet av de siste tiårene har lignende erfaring blitt samlet både i utlandet og i vårt land.

Så når man sammenligner kvantitative og kvalitative metoder når det gjelder deres gyldighet, bør det først og fremst bemerkes at områdene for deres gyldige anvendelse ikke sammenfaller med hverandre. Dette gjør en generalisert sammenligning av dem basert på validitetskriterier meningsløs. Det er klasser av problemer der kvantitative metoder har høy validitet og kvalitative metoder har lav validitet. På samme tid, eksisterer de? og dette aspektet er vanligvis lite vektlagt selv i spesialisert litteratur? andre klasser av problemer der det indikerte forholdet er direkte motsatt.

Hensikten med læreboken vår er ikke å vurdere spørsmål om metodikk for kvalitative metoder generelt. Spesifisiteten til fokusgrupper, så vel som individuelle dybdeintervjuer, hvis de gjennomføres i store serier, er at, i det minste teoretisk, er statistiske validitetskriterier også anvendelige for dem, selv om de er forskjellige fra de i kvantitativ forskning.

Tekstutskrifter av en serie gruppeintervjuer utført om et spesifikt tema utgjør en primær datamatrise på flere hundre sider. Denne matrisen er ganske egnet for analyse ved hjelp av statistiske metoder, både når det gjelder størrelse og heterogenitet. Heterogeniteten til arrayet sikres ved deltakelse av flere dusin respondenter, noe som allerede gir grunnlag for omtrentlig fordeling av lignende svar på en tre- eller femleddsskala: en klar minoritet, en minoritet, omtrent likt, et flertall, en klart flertall. Hovedsaken er imidlertid ikke dette. Spesifisiteten til den primære datamatrisen av gruppeintervjuer er at:

1. Analyseenheten er ikke respondenten, men ytringen. Siden hver respondent er bærer av mange utsagn, øker dette utvalget av primære analytiske enheter med minst en størrelsesorden, noe som gjør det statistisk signifikant.

2. Oppgaven med kvalitativ forskning omfatter ikke å bestemme antall eller andel bærere av et bestemt ståsted i samfunnet eller dets segment. I forhold til denne klassen av problemer er kvalitative metoder ugyldige.

Oppgaven til kvalitative metoder er å danne en liste over såkalte "hypoteser om eksistens"(meninger, vurderinger eller utsagn som finnes i samfunnet og antagelig har en distribusjonsgrad som ikke er null). Samtidig, som D. Templeton bemerker, er det å foretrekke å gjøre en feil ved å identifisere en ikke-eksisterende eller ubetydelig faktor enn å gå glipp av en svært betydningsfull faktor.

Det matematiske apparatet tilpasset for å løse problemer av denne typen er i prinsippet velkjent. Det brukes i lingvistikk for å sette sammen lister over lyder og stavelser, samt frekvensordbøker med ord og uttrykk. Det samme apparatet brukes også i sosiologisk forskning utført ved hjelp av innholdsanalyse(analyse av innholdet i kommunikasjonen, forutsetter en slik klassifisering av innholdet som studeres som gjør det mulig å identifisere dens grunnleggende struktur). Dette begrepet gjelder analyse av dokumenter eller visuelt materiale i stedet for intervjudata, men en lignende teknikk kan brukes til å undersøke svar på åpne spørreundersøkelser. Forskere utvikler et sett med kategorier som karakteriserer problemstillingene som studeres, og klassifiserer deretter det analyserte innholdet i samsvar med disse forhåndsdefinerte kategoriene. Imidlertid bør kategoriene defineres så tydelig som mulig for å minimere skjevheter som følge av ulike forskeres subjektive vurderinger. Denne teknikken lar deg få visse kvantitative data som kan utsettes for databehandling og statistisk analyse.

Den matematiske formuleringen av oppgaven ser omtrent slik ut: «Det er en presidentkandidat A, som det skrives om i avisene. Det kreves å sette sammen en så fullstendig liste over epitet som mulig som artikkelforfatterne karakteriserer denne kandidaten med. Hvor mye avistekster bør studeres slik at antallet uidentifiserte epitet med 95 % sannsynlighet ikke overstiger 5 %?

I likhet med det store flertallet av anvendte statistiske problemer, kan ikke dette problemet løses uten viss foreløpig kunnskap om arten av frekvensfordelingen til de ønskede epitetene, så vel som uten noen a priori antakelser. Avhengig av den praktiske bekvemmeligheten av å velge et bestemt system av forutsetninger, kan formuleringen av selve problemet variere. Å fordype seg i denne problemstillingen er utenfor rammen av vårt emne, siden i anvendt forskning utført ved bruk av fokusgruppemetoden, er et statistisk apparat som ligner på det beskrevet ovenfor, hvis det brukes et sted, bare i høyspesialisert forskning, langt fra anvendelsesområdet. av markedsføringsfokusgrupper.grupper. Det ser ut til å være to hovedårsaker til dette.

Den første? bruken av en slik enhet øker kostnadene for forskning betraktelig, og en kommersiell kunde er ikke tilbøyelig til å betale for matematiske "skjønnheter" hvis de ikke på noen måte påvirker de endelige konklusjonene. Av en rekke årsaker, som vil bli beskrevet nedenfor, anser både klienter og forskere det som ganske tilstrekkelig å fokusere på følgende subjektive kriterium: hvis mengden ny informasjon mottatt fra hver påfølgende gruppe har sunket kraftig, bør studien stanses.

Den andre grunnen er mye mer grunnleggende. Det er forbundet med det faktum at i dag, strengt operativt og mottagelig for automatisering, er isolering av semantiske enheter fra tekster bare mulig på nivå med ord og stabile setninger. Isolering, gruppering og topologisering av mer komplekse semantiske enheter, utført på det analytiske stadiet av kvalitativ sosiologisk forskning, kan bare utføres av en person på grunnlag av ennå ikke studerte ubevisste intellektuelle algoritmer. Rask fremgang i utviklingen av dataassisterte oversettelsesprogrammer tyder på at automatisert gjenkjenning av stadig mer komplekse meningsenheter over tid vil bli mulig. Dette arbeidet har imidlertid ennå ikke hatt noen innvirkning på praksisen med fokusgruppeforskning. I vår studie av litteraturen om markedsføringsfokusgrupper kom vi aldri over noen omtale av bruk av innholdsanalyse i noen form. Det finnes slike referanser innen akademisk forskning, men å studere denne problemstillingen krever spesielt arbeid.

Avsluttende vår vurdering av spørsmålet om gyldigheten av kvalitative metoder, la oss gå til spørsmålet om å identifisere områder med gyldig kvantitativ og kvalitativ forskning. Det ble vist ovenfor at disse områdene er fundamentalt forskjellige, siden klassene av problemer de løser er radikalt forskjellige. Området for gyldig anvendelse av formaliserte undersøkelser virker ubegrenset eller veldig bredt bare ved første øyekast. Faktisk er det begrenset til å identifisere graden av utbredelse av visse kunnskaper, meninger eller holdninger som:

a) må være kjent på forhånd, dvs. før undersøkelsen;

b) bør ikke være en fiksjon pålagt respondenten eller pseudodommer som ikke er karakteristiske for hans bevissthet.

Kvantitative metoder er ikke egnet til å identifisere selve eksistensen av kunnskap, meninger eller holdninger, slik det tydelig fremgår av følgende sammenligning av undersøkelsesresultater.

A. Kvantitativ forskning

Spørsmål: Hva foretrekker du? eplepai eller sjokolademuffins (% av respondentene)?

Eple pai? 26 %

Sjokolade cupcake - 22%

Begge - 43 %

Jeg synes det er vanskelig å svare? 9 %

B. Kvalitativ forskning

Spørsmål: Hva foretrekker du? eplepai eller sjokolade cupcake?

Svar: Jeg vet ikke. Jeg elsker begge.

Spørsmål: Ok, hvis du må ta en ting, hva ville det vært? Tenk på det.

Svar: Selvfølgelig er paiene forskjellige. Hvis jeg har mulighet til å ha mammas eplepai, vil jeg velge den fremfor hvilken som helst sjokoladecupcake. Hvis du trenger å ta en slags eplepai, så vet jeg ikke sikkert.

Spørsmål: Hva annet kan valget ditt avhenge av?

Svar: Det kommer for eksempel an på hva jeg spiser til lunsj. Hvis jeg skal ha en full lunsj, tror jeg at jeg skal ha eplepai. Eple pai? Dette er en stor delikatesse i familien min. Men hvis jeg spiste noe lett til lunsj, som fisk, er det bedre å ta en muffins. Hvis det er kaldt, vil jeg ikke takke nei til en sjokoladecupcake.

Dialogen ovenfor illustrerer godt det faktum at det enkle svaret "Jeg velger eplepai" avhenger av mange faktorer, i dette tilfellet? på hvem som har laget denne paien, på graden av sult, tettheten av lunsj og omgivelsestemperaturen. Denne listen kan trolig fortsettes. Men, som i mange andre tilfeller, ser ikke antallet slike faktorer, eller i det minste de vanligste, ut til å være særlig stort. Målet med kvalitativ forskning er, som allerede nevnt, å identifisere en liste over disse faktorene med en rimelig grad av fullstendighet. På dette området har kvalitativ forskning høy grad av validitet. Bestemmelse av frekvensfordelingen av effektene av identifiserte faktorer i den studerte populasjonen? et spørsmål om kvantitativ forskning. Imidlertid er to forbehold viktige:

a) fra et praktisk synspunkt kan kostnadene ved å gjennomføre en kvantitativ studie overstige den forventede risikoen ved å ta en viljesterk beslutning basert på mindre nøyaktig informasjon;

b) tilstrekkelig transformasjon av identifiserte faktorer til spørsmål i et formalisert spørreskjema er ofte vanskelig eller umulig, og det er ofte ekstremt vanskelig selv å fastslå mulig grad av denne utilstrekkelighet.

Disse forholdene reduserer ofte gyldigheten av kvantitativ forskning i en slik grad at det blir upraktisk å gjennomføre den.

Bare i de tilfellene hvor hypotesen om gyldigheten av ordlyden av spørsmål i formelle spørreskjemaer virker rimelig eller plausibel, kan kvantitativ forskning gi et gyldig resultat som gjør at beslutninger kan tas basert på mer nøyaktig informasjon.

Ved å oppsummere vurderingen av spørsmålet om gyldigheten av kvalitative metoder, formulerer vi følgende konklusjoner:

1. Oppgaven med kvalitativ forskning omfatter ikke å bestemme antall eller andel bærere av et bestemt synspunkt i samfunnet eller dets segment. I forhold til denne klassen av problemer er kvalitative metoder ugyldige. Deres oppgave er å lage en liste over såkalte "eksistenshypoteser".

2. Omfanget av gyldig anvendelse av kvantitative metoder er begrenset til å identifisere graden av utbredelse av visse kunnskaper, meninger eller holdninger, og ikke selve det faktum at de eksisterer.



Materialindeks

Begrepet validitet ble introdusert i utbredt bruk i psykologi av Campbell og Stanley på 1960-tallet i forhold til forskningsfunn som nøyaktig representerer egenskapene til fenomenet som beskrives eller forklares. Generelt sett er validitet konsistensen av resultatene fra en studie med det som ble studert i studien. Problemet med samsvar med det som studeres med de utvalgte forsknings- og teoretiske verktøyene er fortsatt diskutabelt i dag på grunn av kompleksiteten og allsidigheten til selve objektet - sosiopsykologisk fenomenologi. Sosialpsykologi presenterer dusinvis av definisjoner av gyldighet, ofte kryssende med andre, ikke mindre viktig konsept, pålitelighet, definert som nøyaktigheten til et forskningsinstrument og dets evne til å produsere konsistente resultater. Det bør også bemerkes at spørsmålet om gyldighet oftest diskuteres i konteksten av eksperimentell sosialpsykologi.

Den foreslåtte definisjonen av gyldighet refererer til å etablere den vitenskapelige strengheten og gyldigheten til forskningsresultater og understreker den relative naturen til sannheten om kunnskap i samfunnsvitenskapene. Som Elena Dzuki bemerker, i enhver vitenskapelig forskning må forskeren være i stand til å finne svar på minst følgende spørsmål: 1)

om det er en sammenheng mellom to variabler; 2)

om denne avhengigheten er kausal i naturen; 3)

er dette forholdet viktig? 4)

om måle- og observasjonsprosedyrer faktisk er relatert til konstruksjonene som studeres; 5)

om årsakssammenhengene identifisert i studien kan generaliseres (1997, s. 24).

Å finne svar på disse spørsmålene er ekstremt viktig, for det første av den grunn at forskeren ofte ikke tenker på om metodene og prosedyrene han velger samsvarer med egenskapene til fenomenet som studeres, om det er mulig å snakke ut fra resultatene. innhentet om deres tilstrekkelighet osv. I forhold til spørsmålene som stilles, kan vi snakke om flere typer validitet: intern og ekstern validitet; gyldigheten av statistiske slutninger og forskningsprosedyrer; konstruksjon og økologisk validitet. 5.

Intern gyldighet.

Intern validitet er i hvilken grad resultatene av en studie tillater kausale slutninger om påvirkningen av en variabel på en annen. Mest eksperimentell sosialpsykologisk forskning er interessert i å finne ut hvordan sosiale krefter som påvirker et individ påvirker hans sosiale atferd og beslutningstaking. I dette aspektet er en av de viktigste typene validitet den som bestemmer forholdet mellom avhengige og uavhengige variabler. Denne validiteten er assosiert med spesifikke prosedyrer som lar oss bestemme i hvilken grad konklusjonene som trekkes i en gitt studie er pålitelige. Når eksistensen av en sammenheng mellom variabel X og variabel Y er etablert, er det nødvendig å bestemme hvilken av variablene som er årsaken og hvilken som er effekten, det vil si å bestemme retningen til denne sammenhengen. Hvis Y observeres etter X, kan X sies å være årsaken til Y.

Det kan imidlertid være at avhengighetsforholdet mellom X og Y er forårsaket av en tredje variabel, C. For å etablere intern validitet er det nødvendig å vurdere alle muligheter for påvirkning av en tredje variabel, C, på variablene X og Y, og eliminere dem. En studie anses å ha intern validitet dersom det er påvist at det er en årsak-virkning-sammenheng mellom de avhengige og uavhengige variablene.

To spørsmål dukker ofte opp angående intern validitet:

Det første spørsmålet er knyttet til å bestemme tilstedeværelsen av reell innflytelse. Å svare på dette spørsmålet innebærer å spørre om vi har grunnlag for å konkludere med at det er forskjeller i målingen av den avhengige variabelen (dvs. er det reelle statistiske forskjeller?).

Det andre spørsmålet er knyttet til å finne ut om effekten virkelig skyldes påvirkning av denne variabelen eller noe annet? Hvis forskjellene blir akseptert som statistisk signifikante, kan vi da konkludere med at de er en konsekvens av den direkte påvirkningen av variabelen som studeres?

Årsaker til å redusere den interne validiteten til studien: 1)

Blande variabler. Dette er en av de største farene for gyldigheten av et eksperiment. Hvis, under et eksperiment, en tilfeldig faktor (ikke-eksperimentell variabel) interagerer med den avhengige variabelen og denne interaksjonen ikke kan måles separat fra interaksjonen mellom de avhengige og uavhengige variablene, er påvirkningen av de tilfeldige og uavhengige variablene umulig å skille. Problemet med confounding er spesielt akutt i studier der eksperimentatoren ikke kan kontrollere den uavhengige variabelen. 2)

Endringer knyttet til fag. Når du sjekker avhengige variabler, kan endringer som skjedde mellom to observasjonsøyeblikk ikke være forårsaket av uavhengige variabler, men av endringer som skjedde med forsøkspersonene selv (for eksempel personlige livshendelser, endringer i visse personlighetstrekk, etc.), dvs. , faktorer "modenhet" og "historie".

Med "modenhet" mener vi endringer som skjedde i forsøkspersonen mellom pre-test og post-test og som ikke var assosiert med påvirkning av uavhengige variabler. For eksempel, i forsøk på motorisk koordinasjon, kan forsøkspersoner oppleve forbedring på grunn av trening i perioden mellom forsøkene. Denne påvirkningen kan ikke forveksles med påvirkning av den uavhengige variabelen. "Historikk"-faktoren refererer til hendelser som skjedde med forsøkspersonene og som påvirket resultatene av eksperimentet. 1)

Pre-testens påvirkning. Fortesten forårsaker endringer i forsøkspersonene, og derfor kan resultatene av eksperimentet i noen tilfeller hovedsakelig avhenge av den i stedet for den avhengige variabelen. 2)

Endre forskerferdigheter. For eksempel kan en forsker etter en tid bli mer erfaren i observasjoner og derfor tolke oppførselen til forsøkspersoner annerledes.

I tillegg kan forskeren bli påvirket av faktorer som tretthet, som kan føre til feil i forsøk. 3)

Regresjon til gjennomsnittet. Dette fenomenet oppstår når individer testes gjentatte ganger på samme variabel. Det er fastslått at hvis forsøkspersonene fikk resultater i den første testen som var nær de høyeste indikatorene på skalaen, så under det gjentatte eksperimentet synker resultatene og blir nærmere gjennomsnittet, mens forsøkspersonene som mottok resultater nærme de laveste i den første testen med gjentatte målinger oppnår de bedre resultater. Regresjon til gjennomsnittet observeres også ved feil knyttet til endringer i en variabel. 4)

Frafall Det er kjent at noen fag i løpet av studiet forlater gruppen. De resterende fagene er naturlig nok annerledes enn de som droppet ut.

Anta at to adferdsmodifikasjonsteknikker blir undersøkt for å kontrollere kroppsvekten. Gruppe 1 ble foreskrevet en diett. I tillegg må forsøkspersoner i den første gruppen skrive ned alt de spiser hver dag i en dagbok, veie alle måltider nøyaktig og telle kaloriinnholdet i maten. Gruppe 2 ble ganske enkelt foreskrevet en diett. Det er ganske rimelig å anta at noen testgrupper med en mer tyngende oppgave vil falle ut av forsøket. På slutten av forsøket vil prosentandelen høyt motiverte forsøkspersoner i denne gruppen være større. Personer med høyere motivasjon hadde større sannsynlighet for å gå ned i vekt. Derfor kan forskeren komme til den feilaktige konklusjonen at forholdene i den første gruppen er mer effektive for vekttap. 2.

Ytre gyldighet.

Ekstern validitet refererer til muligheten for å generalisere forskningsresultater, det vil si generalisere konklusjoner hentet fra et eksperimentelt utvalg til hele befolkningen. Sosialpsykologer streber etter å få konklusjoner som er generaliserbare til et veldig bredt sosialt fellesskap, ofte basert på ideen om at det finnes universelle mønstre av global karakter. Resultatene fra studier med høy grad av generaliserbarhet har følgelig et høyt nivå av ekstern validitet. Ekstern validitet avhenger betydelig av prøvetakingsmetoden.

Det er tre hovedtyper av prøvetaking:

Tilfeldig prøvetaking. For eksempel vil resultatene av en studie av en gruppe tenåringer dannet tilfeldig være gyldige med en viss grad av sannsynlighet for alle tenåringer av en gitt nasjonalitet. En slik studie kan imidlertid være svært kompleks og kostbar, siden utvalget må være stort og homogent.

Heterogen (heterogen) prøve. I

I samsvar med målene for studien identifiseres ulike befolkningsgrupper som resultatene av studien forventes innhentet på. Det tilfeldige utvalget blir deretter analysert for å sikre at det inneholder et tilstrekkelig antall representanter fra hver gruppe.

Eksempel på et typisk tilfelle. For eksempel er det gitt en definisjon av den gjennomsnittlige unge hviterusseren. Studien bruker et utvalg som består av individer som oppfyller denne definisjonen. I dette tilfellet, hvis det utføres et eksperiment med universitetsstudenter, for eksempel om evnen til å forhandle, kan man ikke forvente at funnene vil være gjeldende for statsoverhoder. Men i den samme sosialpsykologien ble hovedkonklusjonene hentet spesifikt fra studentprøver, noe som skaper grunnlag for deres kritikk.

Ytre validitet reduseres også av uoverensstemmelser mellom fenomener observert i laboratoriet og fenomener observert i naturlige omgivelser. Det er vanskelig å avgjøre om den identifiserte avhengigheten kun forekommer i laboratoriet eller om den også observeres utenfor laboratoriet. Ytre validitet sikres ved gjentatt eksperimentering under heterogene forhold.

Vi kan snakke om minst fire hovedmuligheter for å begrense generaliseringen av forskningsresultater eller ekstern validitet: 1)

Vil det samme skje med andre grupper av mennesker eller med alle mennesker som funnet i forsøksutvalget? 2)

Vil det samme skje andre steder? 3)

Vil det være det samme andre ganger? 4)

Vil det samme gjelde for andre typer målinger?

Det første spørsmålet ble assosiert av Bracht og Glass med populasjonsvaliditet, og det andre med økologisk validitet, som vi nå skal begynne å vurdere. 3.

Befolkningsgyldighet.

Befolkningsvaliditet refererer til i hvilken grad en studies funn er generaliserbare til en populasjon. La oss huske hvor ofte vi ble vekket i en spenningstilstand av individuelle tidsskriftartikler om hvordan økt bakgrunnsstråling på en eller annen måte påvirker nyfødte (når eksempler på deformerte barn, etc.). nøyaktig det samme inntrykket ble skapt fra individuelle eksperimentelle "funn" i forhold til et eller annet biologisk grunnlag for kriminalitet, avhengighet, etc.

Muligheten for brede generaliseringer varierer selvfølgelig fra studie til studie, men tilstedeværelsen av en eller annen egenskap i hele befolkningen tas ofte for gitt, noe som like ofte motsier reelle fakta og konfronteres med bevisene på at ikke alle personer "kaukasisk nasjonalitet" er kriminelt og sosialt farlig, etc. Selvfølgelig er ytre validitet ekstremt viktig for anvendt forskning rettet mot å finne ut hvordan et bestemt påvirkningssystem "fungerer" i prinsippet og mindre interessert i å finne ut hvordan det implementeres under spesifikke forhold og i visse subkulturer og kontekster. Med en viss grad av sikkerhet kan vi si at populasjonsvaliditet blir spesielt relevant i dag i forbindelse med forsøk på å finne den optimale andelen idiografi og nomotetikk eller itikk og imik, dvs. unikt spesifikke og felles for ulike befolkningsgrupper. I det minste merker mange forskere behovet for å gå bort fra fokuset på å identifisere absolutt universelle mønstre. Dette spørsmålet er også relevant i sammenheng med problemet med å "revitalisere" sosiopsykologisk kunnskap, som involverer dens korrelasjon med det som skjer i det virkelige liv mennesker og assosiert med økologisk validitet 4.

Økologisk gyldighet.

Økologisk gyldighet refererer til korrespondansen mellom forskningsresultatene og prosedyrene og instrumentene som brukes til å studere og forklare fenomenologi under de virkelige forholdene for dens eksistens. Et stort problem med laboratorieeksperimenter er at resultatene kan generaliseres til virkelige omstendigheter som naturlig forekommer i menneskelig hverdag.En studie har høy økologisk validitet dersom resultatene bekreftes i feltstudier. Men dette gir heller ikke garantier for automatisk anerkjennelse av resultatene som økologisk gyldige, fordi innebærer også generalisering til andre omstendigheter og kontekster. Beskyldninger om lav økologisk gyldighet mot mange studier stammer ofte fra manglende evne til å gjenskape dem under virkelige forhold. Carlsmith foreslo å utpeke svært økologisk forskning med begrepet "sekulær realisme", eksperimentell, dvs. holdt inne kunstige forhold, ved å bruke begrepet «eksperimentell realisme» (1976). Eksempler på denne typen forskning er den originale laboratoriestudien av konformitet av Solomon Asch og de berømte eksperimentene til Stanley Milgram, som forårsaket en hel storm av diskusjoner om problemet med psykologisk etikk. Det bør også bemerkes at i visse situasjoner oppfører folk seg på samme måte under reelle forhold som i laboratorieforhold (for eksempel nyfødte eller flypassasjerer), mens de under andre omstendigheter viser markante forskjeller. Akkurat som noen mennesker opprettholder konsistens både i det virkelige liv og i laboratoriet, mens andre viser markante forskjeller. Med all den kritiske holdningen til den økologiske gyldigheten til klassiske sosialpsykologiske eksperimenter, kan man ikke ta fra seg hovedfordelen deres - objektivitet i klassisk forstand, som sikrer både entydige tolkninger og reproduserbarhet, dvs. bekreftelse. Det siste er direkte relatert til statistisk validitet. 5.

Gyldighet av statistiske slutninger.

Denne typen validitet tilsvarer å teste den statistiske signifikansen av sammenhengen mellom to variabler. Slike konklusjoner er alltid sannsynlige. Men i hverdagens bevissthet er det ofte en slags idealisering av statistisk bekreftelse. Forskere utvikler en dominans av statistisk bekreftelse, som fullstendig overstyrer forsøk på å validere dataene som er oppnådd.

Vi kan snakke om to typer feil: konklusjonen om at sammenhengen er signifikant når dette ikke stemmer; eller konklusjonen om at det ikke er noen signifikant sammenheng mellom variablene når det tvert imot er en.

Det er noen faktorer som kan redusere gyldigheten av statistiske konklusjoner: 1)

dårlig sensitivitet ved forskning, som viser seg når utvalgsstørrelsen er utilstrekkelig eller når det er stor variasjon i gruppene som sammenlignes, det vil si at forsøkspersonene er for forskjellige og skiller seg mye fra hverandre når det gjelder enkelte variabler; 2)

lav pålitelighet av måleteknikker eller variable manipulasjonsprosedyrer brukt i studien; 3)

interferensfaktorer tilstede i de eksperimentelle forholdene; 4)

brudd på vedtatte atferds- og behandlingsregler som er etablert for ulike statistiske metoder.

En strategi for å øke validiteten til statistiske slutninger er å redusere variabiliteten av feil ved å bruke for eksempel et gjentatt utvalg design eller bruk av homogene grupper. En mer detaljert diskusjon av forskningsdesignene vil bli presentert i avsnittet om eksperimentell metode. Den statistiske validiteten til en studie kan diagnostiseres både på forskningsdesignstadiet (for eksempel ved å sjekke prøvestørrelsesberegningen) og etter studien for å evaluere resultatene. 6.

Gyldighet av prosedyrer.

Den tredje typen validitet er validiteten til prosedyrer som gjør at variabler kan varieres og måles. Selv behovet for å definere de konseptuelle variablene som er relevante for studien i operasjonelle termer er en kilde til risiko. Faktisk kan det å "oversette" konseptet til nivået av spesifikke operasjoner reflektere de teoretiske prinsippene for studien utilstrekkelig.

variabler som kun er knyttet til visse

operasjoner utført i denne studien. 2)

variabler knyttet til eksperimentelle

forhold indirekte, for eksempel med forventningene til forskeren.

Ofte stimulerer forskeren ubevisst svaret han forventer å få. Dette kan unngås ved å bruke hands-off forskningsstrategier og hensiktsmessige målemetoder. I dette tilfellet skal forsøkspersonene ikke vite at de blir observert, noe som gjør det mulig å fjerne uønsket motivasjon i forhold til forsøket.

2. Konstruksjonsvaliditet.

Denne typen validitet ligner intern validitet og innebærer konsistens mellom funnene og teorien som ligger til grunn for studien. For å vurdere konstruksjonsvaliditet er det nødvendig å utelukke andre mulige teoretiske forklaringer på resultatene. Dersom det er tvil om hvordan eksperimentelle resultater står i forhold til teoretiske resultater, er det nødvendig å designe et nytt eksperiment som lar en velge mellom flere teoretiske forklaringer på resultatene. Denne typen validitet er den vanskeligste å oppnå fordi det er mange teorier som kan brukes til å forklare sammenhengene mellom variabler oppnådd i et eksperiment.

La oss vurdere to årsaker til nedgangen i konstruksjonsvaliditet. Den første er den svake forbindelsen mellom teori og eksperiment. Faktisk gir mange psykologiske studier vage operasjonelle definisjoner av teoretiske begreper. Den andre grunnen bestemmes av det faktum at for det første, forsøkspersoner begynner veldig ofte å spille rollen som et "godt" forskningsobjekt og oppfører seg på en slik måte at de "spiller sammen" med eksperimentatoren, og for det andre det faktum at forsøkspersoner, spesielt i eksperimenter som måler deres intellektuelle evner eller emosjonelle stabilitet , utvikle høy angst i forhold til forventet vurdering.

Det er nødvendig å avgjøre hvilken type validitet som er sentral i en gitt studie. Faktisk kan prosedyrer som brukes for å forbedre én type validitet redusere andre typer validitet.

For å øke gyldigheten av statistiske slutninger, bør en forsker for eksempel bruke objekter som er så heterogene som mulig, og dermed redusere muligheten for feil. Samtidig synker den ytre validiteten.

Typen prioritert validitet avhenger av typen forskning som utføres. For eksempel, hvis en eksperimentell studie etablerer et årsak-og-virkning-forhold mellom variabler, er intern validitet avgjørende. Tvert imot, når man beregner korrelasjoner mellom variabler, er det umulig å etablere retningen for årsak-og-virkning-forhold, derfor er intern validitet i dette tilfellet ikke av interesse sammenlignet med andre typer validitet.

Relatert til gyldighetsbegrepet er begrepet kontroll. Kontroll refererer til alle midler som brukes for å eliminere muligheten for å redusere validiteten til en studie. I praksis undersøker forskeren hvilke faktorer som kan redusere validiteten til studien og hvilke metoder som kan brukes for å nøytralisere disse faktorene.

Det er seks hovedkontrollmetoder. 1.

En av de mest brukte kontrollmetodene er å gjennomføre et eksperiment med en gruppe forsøkspersoner som ikke er påvirket av variabelen som studeres og som sammenlignes med forsøkspersoner som er utsatt for denne påvirkningen. For eksempel undersøkes to grupper angående en uavhengig variabel. Gruppe 1 mottar intervensjonen og kalles eksperimentell. Gruppe 2 får ingen behandling og kalles kontrollgruppen. Resultatene fra forsøksgruppen sammenlignes med resultatene fra kontrollgruppen. Hvis to grupper var identiske før en eksperimentell intervensjon, kan enhver forskjell mellom dem observert etter eksperimentet tilskrives den intervensjonen. Pre-test Eksperimentell

innvirkning Post

test Gruppe 1 (eksperimentell) Ja Ja Ja Gruppe 2 (kontroll) Ja Nei Ja Tabell Х.Х. Eksperimenter med en kontrollgruppe.

Denne tabellen viser forsøksgruppe 1, der pre-testen, det vil si den foreløpige målingen, ble utført. Deretter ble den eksperimentelle effekten utført

og til slutt ble det gjennomført en ettertest. Kontrollgruppe 2 mottok kun pre- og posttest og mottok ikke den eksperimentelle intervensjonen.

For noen målinger gir imidlertid ikke denne prosedyren mening. For eksempel, i en studie av to undervisningsmetoder, kan man bruke en gruppe som bare går på forelesninger og en gruppe som går på forelesninger og seminarer. Dette gjør det mulig å avgjøre hvilken undervisningsmetode som er best uten å bruke en gruppe som aldri har vært på forelesning. 2.

I den andre kontrollmetoden brukes ikke en kontrollgruppe, men det er to grupper av forsøkspersoner som er utsatt for påvirkninger av ulik form eller intensitet. Dermed brukes hver gruppe som en kontroll for den andre. I stedet for at gruppe 1 utsettes for en intervensjon og gruppe 2 brukes som kontroll, utsettes begge gruppene for intervensjoner som er forskjellige i form og intensitet, som for eksempel bruk av to ulike undervisningsmetoder (se tabell X.X.). Før-

test Eksperimentell

innvirkning Post

test Gruppe 1 (eksperimentell) Ja 1 Ja Gruppe 2 (kontroll) Ja 2 Ja

Tabell X.H. Eksperimenter med grupper utsatt for varierende intensitet. 3.

Den tredje kontrollmetoden er at hvert individ blir utsatt for all eksperimentell påvirkning. I dette tilfellet, i stedet for en kontrollgruppe, er det bare en kontrolleffekt, det vil si at forsøkspersonene tjener til å kontrollere seg selv. Disse eksperimentene utføres på ett emne. Den tredje typen kontroll brukes i noen områder av psykologien, for eksempel i studiet av sansning og persepsjon. 4.

Den fjerde typen kontroll er interferenskonvertering. Hvis faktorene som forstyrrer eksperimentet og påvirker resultatene er vanskelig å eliminere, kan de betraktes av eksperimentatoren som uavhengige variabler.

For eksempel, når man sammenligner dag- og kveldspsykologistudenter, kan faktorer som bestemmer forskjellen mellom disse gruppene (kveldselever er eldre, tilhører den sosiale gruppen av arbeidere, er slitne osv.) betraktes som forstyrrelser. Imidlertid kan disse faktorene konverteres til uavhengige variabler av eksperimentatoren. 5.

Den femte kontrollmetoden er statistisk kontroll. Det er spesielle statistiske kontrollprosedyrer som hovedsakelig utføres på datanivå. 6.

Den sjette kontrollmetoden er repetisjonsmetoden. Det består i å gjenta eksperimentet. Antall repetisjoner bestemmes av eksperimentatoren.

Repetisjon kan være umiddelbar, altså

eksperimentet gjentas uten endringer. Men denne typen kontroll brukes sjelden, da den er primitiv. Tvert imot, hvis et gjentatt eksperiment utføres på forskjellige typer emner eller bruker forskjellige operasjonelle definisjoner av teoretiske begreper, kan et slikt eksperiment betraktes som effektiv metode kontroll. Sammenfallet av resultatene fra de første og påfølgende eksperimentene gjør at vi kan hevde at eksperimentene er gjensidig bekreftet.

Måter å sammenligne målinger Det er to hovedmåter å sammenligne. 1.

Sammenligninger innenfor fag der ulike subjekter blir utsatt for ulike verdier av den uavhengige variabelen, det vil si to forskjellige behandlinger, eller ett subjekt er utsatt og et annet ikke, osv. 2.

Sammenligninger mellom emner der de samme individene er eksponert for hver verdi av den uavhengige variabelen.

La oss starte med å vurdere den første typen, det vil si sammenligninger innenfor studieobjektet. Det er flere faggrupper i anlegget. Ulike grupper er utsatt for ulike størrelser av den uavhengige variabelen. Denne metoden kan brukes til både eksperimentelle og korrelasjonsstudier. Denne tilnærmingen skaper problemer for intern validitet. Spørsmålet er faktisk om endringen observert i den uavhengige variabelen kan tilskrives selve variabelen, eller om denne endringen allerede er bestemt av eksisterende forskjeller i gruppene av subjekter. Da er det nødvendig, før man manipulerer den uavhengige variabelen, å danne grupper av emner som er mest mulig like hverandre. For å redusere forskjellen mellom faggrupper ved sammenligning innen fag, det vil si i undergrupper, brukes tre ulike metoder. 1.

Den første metoden er kontroll gjennom konstantitet, også kalt K-metoden. Kun én verdi av fagenes karakteristikk er valgt, og alle gruppene har denne verdien. For eksempel kjønn - det ble besluttet å gjennomføre en studie av alle kvinner, det vil si at en verdi av en eller flere egenskaper er valgt. Samtidig er det tillit til at alle grupper, alle individer viser denne verdien. 2.

Den andre metoden er kontroll ved årsaksvariasjon, den såkalte R-metoden. I dette tilfellet endres egenskapene til forsøkspersonene tilfeldig, noe som kan påvirke resultatene negativt. Ved å involvere flere forsøkspersoner kan det postuleres at egenskapene til forsøkspersonene er fordelt innenfor hver gruppe i henhold til samme fordeling observert i populasjonen. Med et tilstrekkelig stort antall studieobjekter er det sannsynlig at loven om normalfordeling spiller inn. 3.

Den tredje metoden er den sammenkoblede kontrollmetoden, eller M-metoden. I dette tilfellet blir fagene tildelt forskjellige grupper i henhold til systematiske endringer i deres egenskaper. Vi snakker om systematisk fordeling av emner i grupper, å sørge for at et emne som har en bestemt egenskap også er representert i en annen gruppe, osv. Følgelig blir emner paret i to grupper eller likestilt med hensyn til en variabel som antas å være sannsynligvis vil påvirke resultatene. Således kan man for eksempel i et forsøk anta at utdanningsnivået kan påvirke resultatene dersom hver gruppe inneholder like mange personer med lav, middels og høy utdanning. Dermed blir fagene justert med hensyn til én variabel (i dette tilfellet utdanningsnivå).

Den andre måten å sammenligne målinger på er å sammenligne mellom studiefagene. De samme personene, som nevnt ovenfor, er utsatt for hver verdi av den uavhengige variabelen. Dette er en mer sensitiv måling fordi forskjellen mellom den uavhengige variabelen ikke kan tilskrives forskjellen mellom forsøkspersonene selv. derimot denne tilnærmingen kan ikke brukes i følgende tilfeller: 1)

når en uavhengig variabel studeres med en korrelasjonsmetode, for eksempel når man etablerer en sammenheng mellom fagenes kjønn og deres kreative evner; 2)

når sammenligninger på alle nivåer har risiko for å endre subjektets respons fra hva responsen ville vært dersom subjektet ikke hadde vært utsatt for annen påvirkning.

Lignende artikler

  • Hva skjedde i 1328 Ivan Kalita

    Store politikere går ned i historien takket være deres gjerninger, og ikke kallenavnene deres, men det er de, en gang passende gitt, som lar etterkommere vurdere omfanget av herskerens personlighet. Ivan Danilovich fikk kallenavnet Kalita i løpet av livet på grunn av sin generøsitet...

  • Hva skjedde i 1328 Ivan Kalita

    13:24 — REGNUM Moskva Kreml under Ivan Kalita. ER. Vasnetsov. 1921 1328 Den 26. mars mottok prins Ivan Danilovich, med kallenavnet Kalita, fra den usbekiske Khan et merke for den store regjeringen "Men mens Moskva-prinsen etablerte seg ...

  • Betydningen av ordene som ofte gjentas av muslimer: subhanallah, mashallah, inshallah, Allahu akbar

    Hva betyr uttrykket "Allah Akbar"? Det var akkurat det spørsmålet sønnen min stilte meg her om dagen. Jeg har selv hørt denne setningen sikkert tusenvis av ganger, men jeg har aldri tenkt på hva den betyr. Men foreldrenes oppgave er å svare...

  • Storadmiral Pavel Stepanovich Nakhimov døde

    Admiral P.S. Nakhimov Nakhimov Pavel Stepanovich (1802-1855). Den fremragende russiske marinekommandanten Pavel Stepanovich Nakhimov ble født 6. juli (23. juni) i landsbyen Gorodok, Vyazemsky-distriktet, Smolensk-provinsen (nå landsbyen Nakhimovskoye, Andreevsky-distriktet...

  • Admiral Kornilov: kort biografi Hero of the Crimean War Kornilov

    For å si det mildt var innholdet i dette telegrammet ganske uvanlig. En regjering som hevder å ha «full makt», kunne neppe forvente at en person som er forpliktet til å underkaste seg militær disiplin ville tillate seg...

  • Byggeordrer i massevis

    Toskansk orden, en av de fem romerske arkitektoniske ordenene. Navnet er assosiert med etruskisk (toskansk) arkitektur. Det er fraværende i det greske ordenssystemet, selv om det ligner på den greske doriske ordenen, som er enklere i detalj, som den...