Fokheldur

Skjáskot af ordabokin.is
Skjáskot af vefnum ordabokin.is tekið 25. nóvember 2016
Í tvær og hálfa viku er ég búinn að fikta í uppsetningu á vefnum. Ég keypti þemað Flatbase til að laga útlit vefsins að skissum sem ég teiknaði.

Nú er tilbúin frumútgáfa af aðalvefnum sem virkar nokkurn veginn eins og ég vil hafa hana. Það vantar enn allt innihaldið. Ýmsar fínstillingar og breytingar á smáatriðum eru eftir. Einnig er ekki víst að núverandi litir fái að halda sér. Ef vefurinn væri hús væri hann núna orðinn fokheldur.

Næstu daga ætla ég að gera nokkrar notendaprófanir. Því allir sem eitthvað hafa fjallað um miðlun efnis á vefnum og undirbúning vefverkefna eru sammála um gagnsemi notendaprófana.

Notendaprófun snýst um að fylgjast með einum notanda í einu nota vefinn. Þannig má komast að því hvernig notendur hegða sér á vefnum og mögulega finna villur, sjá hvað má bæta og hverju er ofaukið. Mælt er með því að prófa lítið í einu en oft, ekki þarf að fá marga notendur í hvert skipti og ekki þarf að hafa áhyggjur af því hverjir eru prófaðir.

Nú þegar er ein prófun búin. Ég á eftir að fá tvo til þrjá notendur í viðbót.

Grunnurinn

Einhvers staðar verður að byrja. Hvaðan eiga fyrstu orðin í orðasafninu að koma? Hér verður sagt frá því hvernig grunnurinn að því er fenginn og hvaða aðferð var beitt til þess.

Í upphafi var skannaður texti úr nokkrum íslenskum skáld- og smásögum. Þessar sögur eru eftirfarandi:

  • 79 af stöðinni (Indriði G. Þorsteinsson)
  • Englar alheimsins (Einar Már Guðmundsson)
  • Ég man þig (Yrsa Sigurðardóttir)
  • Góðir Íslendingar (Huldar Breiðfjörð)
  • Grafarþögn (Arnaldur Indriðason)
  • Íslandsklukkan (Halldór Laxness)
  • Lovestar (Andri Snær Magnason)
  • Margsaga (Þórarinn Eldjárn)
  • Mýrin (Arnaldur Indriðason)
  • Ofsögum sagt (Þórarinn Eldjárn)
  • Ofvitinn (Þórbergur Þórðarson)
  • Ó fyrir framan (Þórarinn Eldjárn)
  • Rokland (Hallgrímur Helgason)
  • Sérðu það sem ég sé (Þórarinn Eldjárn)
  • Sjálfstætt fólk (Halldór Laxness)

Eins og sjá má af listanum eru kynjahlutföll talsvert ójöfn. Takk fyrir að minnast ekki á það við mig!

Næst voru textarnir ljóslesnir með ljóslestursforritinu Readiris. Þessari vinnu var að mestu lokið áður en vinna við sjálft verkefnið hófst. Að auki var notaður texti úr nokkrum fréttum af fréttavefjum RÚV og Vísis, sem birtust dagana 7.-19. september 2016.

Með orðgreiningarforritinu AntConc var gerður listi yfir algengustu orðmyndirnar úr textasafninu. Samtals eru þetta 1.108.110 orð og 90.406 orðmyndir.

Antconc býður upp á möguleika að raða orðum eftir tíðni, í stafrófsröð og í stafrófsröð eftir síðasta staf í orði. Við gerð orðalistans var orðunum raðað eftir tíðni. 200 algengustu orðmyndirnar í textasafninu voru teknar saman og þær flokkaðar handvirkt í orðflokka.

Að því loknu voru skrifuð niður flettiorð af hverri orðmynd. Orðmyndirnar henni og hennar flokkast t.d. báðar sem flettiorðið hún. Meira vandamál reyndist að vinna með orðmyndir sem hægt er að flokka á fleiri en einn veg. Til dæmis orðmyndin hún, sem getur bæði verið mynd af orðunum hún og húnn. Þegar slík tilvik komu upp voru tekin nokkur dæmi af handahófi úr textasafninu og farið eftir notkun sem var algengust. Orðmyndin hún reyndist til dæmis mun algengari sem mynd af persónufornafninu hún heldur en af nafnorðinu húnn.

Að lokum varð til 100 orða listi yfir algengustu flettiorðin úr textasafninu. Þetta er listinn yfir 100 fyrstu orðin sem verða tekin inn í orðabókina. Hér má sjá listann, orðum raðað í stafrófsröð. Á honum eru einnig upplýsingar um hvaða orðflokkum þau tilheyra. Ég hef nú þegar ákveðið að flettiorð sem geta haft fleiri en eina merkingu á bak við sig verði saman undir einni færslu í orðabókinni. Dæmi um slíkt er orðið ganga, sem getur bæði verið sagnorð og nafnorð. Því verður aðeins ein færsla í stað tveggja undir heitinu ganga, þegar þar að kemur. Af sömu ástæðu eru sum orð á áðurnefndum lista undir fleiri en einum orðflokki.

Ofan á þennan lista er svo ætlunin að bæta smátt og smátt eftir því sem tímarnir líða.