Grunnurinn

Einhvers staðar verður að byrja. Hvaðan eiga fyrstu orðin í orðasafninu að koma? Hér verður sagt frá því hvernig grunnurinn að því er fenginn og hvaða aðferð var beitt til þess.

Í upphafi var skannaður texti úr nokkrum íslenskum skáld- og smásögum. Þessar sögur eru eftirfarandi:

  • 79 af stöðinni (Indriði G. Þorsteinsson)
  • Englar alheimsins (Einar Már Guðmundsson)
  • Ég man þig (Yrsa Sigurðardóttir)
  • Góðir Íslendingar (Huldar Breiðfjörð)
  • Grafarþögn (Arnaldur Indriðason)
  • Íslandsklukkan (Halldór Laxness)
  • Lovestar (Andri Snær Magnason)
  • Margsaga (Þórarinn Eldjárn)
  • Mýrin (Arnaldur Indriðason)
  • Ofsögum sagt (Þórarinn Eldjárn)
  • Ofvitinn (Þórbergur Þórðarson)
  • Ó fyrir framan (Þórarinn Eldjárn)
  • Rokland (Hallgrímur Helgason)
  • Sérðu það sem ég sé (Þórarinn Eldjárn)
  • Sjálfstætt fólk (Halldór Laxness)

Eins og sjá má af listanum eru kynjahlutföll talsvert ójöfn. Takk fyrir að minnast ekki á það við mig!

Næst voru textarnir ljóslesnir með ljóslestursforritinu Readiris. Þessari vinnu var að mestu lokið áður en vinna við sjálft verkefnið hófst. Að auki var notaður texti úr nokkrum fréttum af fréttavefjum RÚV og Vísis, sem birtust dagana 7.-19. september 2016.

Með orðgreiningarforritinu AntConc var gerður listi yfir algengustu orðmyndirnar úr textasafninu. Samtals eru þetta 1.108.110 orð og 90.406 orðmyndir.

Antconc býður upp á möguleika að raða orðum eftir tíðni, í stafrófsröð og í stafrófsröð eftir síðasta staf í orði. Við gerð orðalistans var orðunum raðað eftir tíðni. 200 algengustu orðmyndirnar í textasafninu voru teknar saman og þær flokkaðar handvirkt í orðflokka.

Að því loknu voru skrifuð niður flettiorð af hverri orðmynd. Orðmyndirnar henni og hennar flokkast t.d. báðar sem flettiorðið hún. Meira vandamál reyndist að vinna með orðmyndir sem hægt er að flokka á fleiri en einn veg. Til dæmis orðmyndin hún, sem getur bæði verið mynd af orðunum hún og húnn. Þegar slík tilvik komu upp voru tekin nokkur dæmi af handahófi úr textasafninu og farið eftir notkun sem var algengust. Orðmyndin hún reyndist til dæmis mun algengari sem mynd af persónufornafninu hún heldur en af nafnorðinu húnn.

Að lokum varð til 100 orða listi yfir algengustu flettiorðin úr textasafninu. Þetta er listinn yfir 100 fyrstu orðin sem verða tekin inn í orðabókina. Hér má sjá listann, orðum raðað í stafrófsröð. Á honum eru einnig upplýsingar um hvaða orðflokkum þau tilheyra. Ég hef nú þegar ákveðið að flettiorð sem geta haft fleiri en eina merkingu á bak við sig verði saman undir einni færslu í orðabókinni. Dæmi um slíkt er orðið ganga, sem getur bæði verið sagnorð og nafnorð. Því verður aðeins ein færsla í stað tveggja undir heitinu ganga, þegar þar að kemur. Af sömu ástæðu eru sum orð á áðurnefndum lista undir fleiri en einum orðflokki.

Ofan á þennan lista er svo ætlunin að bæta smátt og smátt eftir því sem tímarnir líða.

Fyrstu skrefin

Næstu vikur verða helgaðar undirbúningi verkefnisins.

Hugsuðurinn og gerandinn
Hugsuðurinn og gerandinn

Undirbúningur fyrir verkefni af þessu tagi er gríðarlega mikilvægur. Íslenska leiðin er sú að vaða beint í verkið en sleppa undirbúningnum. Íslendingar eru meiri gerendur en hugsuðir. Það verður helst allt að gerast ekki seinna en í gær!

Það er freistandi að fara íslensku leiðina: Framkvæma fyrst, en skipuleggja eftir á. Ég játa að ég hef verið að því kominn núna í fyrstu skrefunum að setja upp vef, dæla einhverju efni inn á hann, en skipuleggja það svo seinna. Það er kannski mest spennandi, því þá sjást strax einhver ummerki af vinnunni, en það er ekki rétta leiðin.

Eins og þegar við málum heima hjá okkur. Þá þurfum við fyrst að gera allt þetta „leiðinlega“ áður en við sjáum einhvern árangur af vinnunni. Við þurfum að þrífa óhreinindi af veggjum, taka nagla og skrúfur niður, sparsla í göt og sprungur, líma málningarlímband á viðeigandi staði og setja undirlag á gólfið áður en við getum sett málningu á vegginn.

Það þarf líka að vinna alla þessa „leiðinlegu“ vinnu, áður en nýr vefur er settur upp, þ.e. ef eitthvað á að vera í hann spunnið. Til dæmis þarf að skilgreina markhópa, ákveða hvernig leiðakerfið og veftréð eiga að líta út og huga að efni og skipulagi þess. Einnig er gott að heyra í notendum, til dæmis með viðtölum eða könnunum.

Næstu skref hjá mér verða þessi:

  • Setja upp framkvæmdaáætlun eða tímalínu verkefna.
  • Setja saman grunn að efninu sem verður á vefnum í upphafi.
  • Ákveða uppsetningu og uppbyggingu efnis.
  • Setja upp veftré.
  • Setja upp netkönnun og fá helstu markhópa (eða fulltrúa úr þeim) til að taka þátt í henni.

Það verður því ekki verkefnaskortur hér á bæ á næstunni!

Halló

og velkomin.

Afmælisdagurinn minn er góður dagur til að skrifa fyrstu færsluna á þennan vef.

Það er kominn tími til að spýta í lófana og keyra þetta verkefni í gang fyrir alvöru ef það á einhverntíma að verða búið.

Þetta verður snilld!

Meira seinna.