Om begrebet forudsigelighedsgrad

Forudsigelighedsgraden viser hvor svært det er at forudsige en bogstavenheds udtale – eller en lydenheds stavemåde. Forudsigelighedsgraden (der også kaldes "konsistenskoefficienten") måles på en skala fra 0 til 1.

Hvis en bogstavenhed altid har den samme udtale (eller hvis en lydenhed altid har samme stavemåde), bliver forudsigelighedsgraden 1. Jo flere forskellige udtalemuligheder bogstavenheden har (eller jo flere forskellige stavemuligheder en lydenhed har), jo mere vil forudsigelighedsgraden nærme sig nul. Det spiller også ind om der er en enkelt udtale/stavemulighed der dominerer i forhold til de øvrige, eller om de forskellige udtalemuligheder/stavemuligheder er cirka lige sandsynlige. I det sidstnævnte tilfælde bliver forudsigelighedsgraden lavere end i det førstnævnte.

Sådan er forudsigelighedsgraden beregnet

Forudsigelighedsgraden er beregnet som et vægtet gennemsnit af de forskellige udtalemuligheders (hhv. stavemuligheders) andel af samtlige forekomster af den søgte enhed.

Et eksempel:

Hvis man søger på t under Fra bogstav til lyd, viser søgeresultat at bogstavenheden t har 21.011 forekomster på Bogstavlyds ordliste og en forudsigelighedsgrad på 0,445.

Forekomsterne fordeler sig således på tre udtale-muligheder:

[d] 12.694 forekomster. Andel af 21.011 = 0,604 (ca. 60 %)

[t] 4.752 forekomster. Andel af 21.011 = 0,226 (ca. 23 %)

[ð] 3.569 forekomster. Andel af 21.011 = 0,169 (ca. 17 %)

Forudsigelighedsgraden fås ved at gange de viste andele med sig selv og lægge dem sammen: (0,604 x 0,604) + (0,226 x 0,226) + (0,169 x 0,169) = 0,445

Ved afgrænsede søgninger (hvor den foregående/følgende bogstav- eller lydenhed specificeres) beregnes forudsigelighedsgraden for den søgte bogstav- eller lydenhed i den pågældende sammenhæng.

Hvis der eksempelvis søges på bogstavenheden t efter s, bliver resultatet et forekomsttal på 5.260 og en forudsigelighedsgrad på 0,961.

Forekomsterne fordeler sig nu på kun to udtalemuligheder:

[d] 5.155 forekomster. Andel af 5.260 = 0,980 (ca. 98 %)

[t] 105 forekomster. Andel af 5.260 = 0,019 (ca. 2 %)

Forudsigelighedsgraden er:

(0,979 x 0,979) + (0,021 x 0,021) = 0,959.

Eksemplet viser at det umiddelbart (dvs. uden viden om nabobogstaver) er forholdsvis vanskeligt at forudsige den præcise udtale af t (forudsigelighedsgrad = 0,445). Men hvis man ved at det foregående bogstav er et s, ændrer billedet sig markant (forudsigelighedsgrad = 0,979), fordi en enkelt udtalemulighed (d-lyd) er næsten enerådende i denne sammenhæng.