Suomen kielen sanalistoja

Tällä sivulla on tekemiäni muunnoksia Kotimaisten kielten keskuksen (Kotus) nykysuomen sanalistasta.

Tekemäni sanalistat ovat tekstitiedostoja, joissa jokainen sana on omalla rivillään. Tiedostoissa käytetään UTF-8-merkistökoodausta ja Unix-rivinvaihtoja. Tiedostot ovat zip-pakattuja.

Olen generoinut sanalistat tekemälläni Python-skriptillä. Se vaatii toimiakseen alkuperäisen sanalistan (kotus_v1.xml).

Katso myös: poimintoja suomen kielen sanalistalta

tällä sivulla käytettyjä termejä

heittomerkki
' (APOSTROPHE, U+0027)
käänteinen lajittelu
sanojen aakkostaminen ikään kuin ne olisi kirjoitettu takaperin; ensin tulevat siis a:han päättyvät sanat, sitten b:hen päättyvät sanat, jne.
pienaakkoset
merkit, joiden General Category -arvoksi on Unicodessa määritelty Lowercase_Letter; esim. a, é, š
suomalainen lajittelu
aakkostus sivulla Standardin SFS 4600 lyhyt selitys ja kommentaari kuvatulla tavalla
väliviiva
- (HYPHEN-MINUS, U+002D)

sanalistat

tiedosto sanajoukko sanoja lajittelu
kotus-all.txt.zip kaikki sanat duplikaatteineen 94 110 alkuperäinen
kotus-unique.txt.zip uniikit sanat (ei samaa sanaa useasti) 93 696 suomalainen
kotus-unique-LC,apo,hyp.txt.zip uniikit sanat, joissa ei ole muita merkkejä kuin pienaakkosia, heittomerkkejä ja väliviivoja 93 334 suomalainen
kotus-unique-LC,apo,hyp-rev.txt.zip uniikit sanat, joissa ei ole muita merkkejä kuin pienaakkosia, heittomerkkejä ja väliviivoja 93 334 käänteinen suomalainen
kotus-unique-LC,apo,hyp-len.txt.zip uniikit sanat, joissa ei ole muita merkkejä kuin pienaakkosia, heittomerkkejä ja väliviivoja 93 334 pituus
kotus-unique-non-LC,apo,hyp.txt.zip uniikit sanat, jotka sisältävät muita merkkejä kuin pienaakkosia, heittomerkkejä ja väliviivoja 362 suomalainen