Suomen kielen sanalistoja

Tällä sivulla on tekemiäni muunnoksia Kotimaisten kielten keskuksen (Kotus) nykysuomen sanalistasta.

Tekemäni sanalistat ovat tekstitiedostoja, joissa jokainen sana on omalla rivillään. Tiedostoissa käytetään UTF-8-merkistökoodausta ja Unix-rivinvaihtoja. Tiedostot ovat zip-pakattuja.

Olen generoinut sanalistat tekemälläni Python-skriptillä. Se vaatii toimiakseen alkuperäisen sanalistan (kotus_v1.xml).

Katso myös: poimintoja suomen kielen sanalistalta

Tällä sivulla käytettyjä termejä

heittomerkki
' (APOSTROPHE, U+0027)
käänteinen lajittelu
sanojen aakkostaminen ikään kuin ne olisi kirjoitettu takaperin; ensin tulevat siis a:han päättyvät sanat, sitten b:hen päättyvät sanat, jne.
pienaakkoset
merkit, joiden General Category -arvoksi on Unicodessa määritelty Lowercase_Letter; esim. a, é, š
suomalainen lajittelu
aakkostus sivulla Standardin SFS 4600 lyhyt selitys ja kommentaari kuvatulla tavalla
väliviiva
- (HYPHEN-MINUS, U+002D)

Sanalistat

tiedosto sanajoukko lajittelu sanoja tiedostokoko
kotus-all.txt.zip kaikki sanat duplikaatteineen alkuperäinen 94 110 312 964
kotus-unique.txt.zip uniikit sanat (ei samaa sanaa useasti) suomalainen 93 696 312 646
kotus-unique-LC,apo,hyp.txt.zip uniikit sanat, jotka koostuvat pelkistä pienaakkosista, heittomerkeistä ja väliviivoista suomalainen 93 334 310 547
kotus-unique-LC,apo,hyp-rev.txt.zip uniikit sanat, jotka koostuvat pelkistä pienaakkosista, heittomerkeistä ja väliviivoista käänteinen suomalainen 93 334 312 973
kotus-unique-LC,apo,hyp-len.txt.zip uniikit sanat, jotka koostuvat pelkistä pienaakkosista, heittomerkeistä ja väliviivoista pituus 93 334 361 718
kotus-unique-non-LC,apo,hyp.txt.zip uniikit sanat, jotka sisältävät muita merkkejä kuin pienaakkosia, heittomerkkejä ja väliviivoja suomalainen 362 2 318