Syntetiska data
Syntetiska data är fiktiva data som har genererats på artificiell väg. I stället för att modifiera ett befintligt dataset för att göra det mindre identifierbart genereras ett helt nytt dataset med fiktiva individer och värden.
När man skapar syntetiska data ersätts känsliga värden i en datamängd med värden som genereras från en statistisk modell. Syntetiska data kan skapas på flera sätt, till exempel baserat på regler eller genom att använda en tränad maskininlärningsmodell, och för olika ändamål, som integritetsskydd, men också för dataverifiering eller för att testa programvara.

När ska jag använda syntetiska data?
- Syntetiska data kan fungera som ett mellansteg när du vill dela data med personuppgifter innan andra får tillgång till det verkliga datasetet. Detta kan till exempel vara användbart när mottagare av dina data vill bilda sig en uppfattning om innehållet, vilka variabler eller hur många observationer de behöver från det verkliga datasetet.
- Syntetiska data kan användas för att testa olika statistiska samband utan att behöva ha tillgång till det verkliga datasetet. En förutsättning är då att variablerna i det syntetiska datasetet någorlunda speglar fördelningen i det verkliga datasetet. Detta kan uppnås genom att låta ett verktyg för syntetiska data analysera det verkliga datasetet som inmatning. Den syntetiska utmatningen blir då statistiskt lik det verkliga datasetet, utan att något kan kopplas till en individ eller en rad i verkliga data.
- Syntetiska data kan också användas som ”dummydata” för att ta fram eller testa metoder eller kod utan att behöva ha tillgång till verkliga data. Du skapar denna typ av syntetiska data med så kallat strikt generativa verktyg. I detta fall behöver det syntetiska datasetet inte spegla verkliga data statistiskt utan bara strukturellt, det vill säga ha samma variabelnamn och datatyp. Om data speglar något statistiskt är det i stället i form av en generaliserbar fördelning, till exempel en normalfördelning i en population.
Hur kan jag skapa egna syntetiska data?
För att skapa syntetiska data behöver du använda specialiserade verktyg. Dessa programvaror använder avancerade algoritmer och statistiska modeller för att generera data som bibehåller de statistiska egenskaperna hos det ursprungliga datasetet utan att avslöja känslig information. För att skapa syntetiska data i dessa verktyg följer man i regel dessa steg:
- Dataförberedelse: Förbered det ursprungliga datasetet genom att identifiera och hantera saknade värden, rensa data och säkerställa att data är i rätt format för modellering.
- Modellträning: Träna en statistisk modell eller maskininlärningsmodell på det ursprungliga datasetet. Modellen lär sig de underliggande mönstren och fördelningarna i data.
- Generering av syntetiska data: Använd den tränade modellen för att generera ett nytt dataset som speglar de statistiska egenskaperna hos det ursprungliga datasetet men som innehåller fiktiva värden.
- Utvärdering och validering: Utvärdera kvaliteten på de syntetiska data genom att jämföra dess statistiska egenskaper med det ursprungliga datasetet och säkerställa att integriteten och användbarheten bibehålls.
Två exempel på verktyg beskrivs i avsnittet Verktyg. Du kan också läsa mer om syntetiska data i forskningsartikeln som i avsnittet Resurser.