Samkeppnisgreining

Í upphafi verkefnisins tók ég saman fimm íslenskar veforðabækur til að hafa með í samkeppnisgreiningu. Það mætti líka tala um samanburðarmat – það er nær enska hugtakinu Comparative assessment. Matið er unnið eftir aðferð Leah Buley í bókinni The user experience team of one.

Í þessari greiningu verða tekin fyrir nokkur atriði sem eru vel gerð á viðkomandi vefjum (og ég vil taka til fyrirmyndar) og hvaða atriði mættu betur fara (og ég vil forðast).

Niðurstöðurnar verða notaðar við samsetningu þarfagreiningar ásamt niðurstöðum úr netkönnun.

Atriði sem tekin voru fyrir sérstaklega voru:

  • Hönnun (útlit)
  • Innihald
  • Virkni
  • Leit
  • Styrkleikar
  • Veikleikar

Íslenska.org

Hönnunin er einföld og þægileg. Enginn leitargluggi er á forsíðu vefsins. Leiðakerfi nær þvert yfir skjáinn. Vefurinn er ekki skalanlegur.

Vefurinn inniheldur íslenska rímorðabók og orðskiptibók, hvora á sinni síðu. Einnig er hægt að hlaða orðskiptilýsingunni niður sem einfaldri textaskrá. Leit á vefnum er einföld, hægt er að leita að hvaða orði sem er og vefurinn stingur upp á rímorði eða orðskiptingum. Leitargluggarnir gera ekki greinarmun á venjulegum orðum og bullorðum eða tilviljanakenndum stafarunum.

Helsti veikleiki vefsins er sá að hann virðist ekki hafa verið uppfærður síðan 2008, sem er hálfgerð synd, því hugmyndin og framtíðaráætlunin sem sagt er frá á vefnum lofa svo góðu.

Íslenska Wikiorðabókin

Orðabókin byggir á sömu hugmynd og alfræðiritið Wikipedia, þ.e. að allir með aðgang að nettengingu geti unnið saman að því að búa til orðabók. Vefurinn lítur út eins og hefðbundin síða á Wikipediu og virkni þessarra tveggja vefja er eins. Forsíðan er nokkuð efnismikil. Leiðakerfi birtist vinstra megin á forsíðunni. Vefurinn er ekki skalanlegur, en til er sérútgáfa með sömu virkni og innihaldi fyrir snjalltæki. Vefurinn inniheldur íslenska orðabók, sem samin er af notendum. Stundum fylgja beygingarlýsingar, myndir og þýðigar yfir á önnur tungumál.

Leitargluggi í tölvuútgáfunni er efst í hægra horni. Í snjallsímaútgáfunni nær hann þvert yfir skjáinn. Leitin er ekki ritstýrð og ekki er tekið tillit til rangrar stafsetningar. Ef notandi slær inn rangt stafsett orð eða annað orð sem ekki er til í orðabókinni er honum strax vísað á síðu sem býður upp á að bæta því við. Notendur verða að skrá sig inn undir notandanafni til að geta bætt og breytt orðabókinni.

Helstu styrkleikar orðabókarinnar, en jafnframt helstu veikleikar hennar, eru þeir að hún er samin af notendum. Ritstjórar fara ekki yfir efnið áður en það birtist. Þess vegna er alltaf hætta á því að rangar upplýsingar slæðist með. Hætta á skemmdarverkum er einnig til staðar. Kosturinn er sá að ef notendur rekast á rangar upplýsingar geta þeir sjálfir leiðrétt þær milliliðalaust – breytingarnar birtast strax. Vefurinn er gefinn út undir opnu höfundarleyfi og hver sem er má afrita og breyta textanum.

Orðabók.is

Vefurinn skiptist í þrjár orðabækur: Íslenska–enska–íslenska, Íslenska–danska–íslenska og stafsetningarorðabók. Að auki má finna beygingarmyndir íslenskra orða. Uppsetning vefsins er einföld og hefðbundin. Vefurinn er skalanlegur og kemur vel út í snjallsíma.

Til að fá nánari upplýsingar um uppflettiorðið geta notendur smellt á tengla yfir á utanaðkomandi vefi, s.s. Orðabanka Íslenskrar málstöðvar og Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytisins. Vefurinn er undir valdi ritstjóra. Auk orðabókarinnar má finna Orðabloggið; fróðleik um íslenska málnotkun. Þá má einnig kaupa leiðréttingarforrit sem hleðst niður í tölvu notenda. Notendur geta vistað orð með því að glósa þau og tekið miserfið stafsetningarpróf á ensku.

Helstu styrkleikar vefsins eru að hann býður upp á forskoðun og prófun áður en notendur ákveða hvort þeir vilja gerast áskrifendur. Áskrift er ókeypis fyrir notendur 20 ára og yngri. Vefurinn nýtir sér möguleika á fjölbreyttari miðlunarleiðum með hljóðdæmum. Efni hans er ekki komið úr orðabók á prentformi, heldur hefur það alla tíð verið stafrænt. Helsti veikleiki vefsins er sá að yfirleitt innihalda orðskýringarnar fremur takmarkaðar upplýsingar. Það sama má segja um beygingarlýsingar íslenskra orða. Vefurinn er þó góður til síns brúks ef aðeins þarf að vita hvað viðkomandi orð þýðir.

Leitin á vefnum er ekki ritstýrð en stungið er upp á niðurstöðum ef leitarorð eru rangt stafsett eða þau finnast ekki í orðasafninu. Þá er notendum boðið upp á að senda tillögu að nýju orði. Einnig er hægt að leita að orðum í öllum beygingarmyndum.

Slangurorðabók Snöru

Vefurinn er ekki skalanlegur – hann kemur best út ef hann er skoðaður á tölvuskjá. Uppsetningin minnir dálítið á bloggsíðu og gefur til kynna að vefurinn eigi að vera léttur og skemmtilegur. Myndir taka á móti notandanum á forsíðunni. Vefurinn inniheldur slangurorðabók sem notendur hafa sett saman. Orðabókin er ekki byggð á prentuðu efni.

Leitargluggi er efst á vefnum, u.þ.b. fyrir miðju. Einnig er hægt að leita að orðum eftir stafrófsröð. Tíu nýjustu orðin birtast á lista vinstra megin á forsíðunni. Fyrir ofan leitargluggann er notendum boðið að smella á séríslenska stafi með músinni. Það kemur sér vel ef notendur hafa ekki aðgang að íslensku lyklaborði. Leitin er ekki ritstýrð, ekki er tekið tillit til rangrar stafsetningar og ekki er boðið upp á algildisleit. (Wildcard-leit).

Styrkleikar vefsins eru þeir að notendur ráða efninu að mestu leyti. Hann er þó undir valdi ritstjóra. Hægt er að flokka orð eftir efnisflokkum. Auðvelt er að senda inn tillögur að breytingum og nýju efni. Hugleiðingar notenda birtast strax.

Helstu veikleikar vefsins eu þeir að hann er ekki skalanlegur og erfiðara er að skoða hann í snjallsímum. Hann virðist ekki vera uppfærður nema endrum og eins – svo er a.m.k. um forsíðuna. Athugasemdir sem birtast strax bjóða upp á rifrildi og leiðindi meðal notenda. Umræður minna oft óþarflega mikið á virka í athugasemdum á íslenskum fréttavefjum. (Sjá t.d athugasemdir við orðið Hugari).

Snara.is

Leitarglugginn á vefnum er áberandi efst á forsíðunni. Uppsetningin er óhefðbundin – merki vefsins er t.d. ekki efst í vinstra horni, heldur undir leitarglugganum og nær yfir mestallan skjáinn. Vefurinn er skalanlegur og virkar vel fyrir snjallsíma. Flestir hlutar vefsins krefjast áskriftargjalds, en hægt er að skoða hann allan í gegnum nettengingu hjá Háskóla Íslands.

Stungið er upp á leitarorðum um leið og orðið er slegið inn. Leitin er ritstýrð og tekur að hluta tillit til rangrar stafsetningar. Stungið er upp á leitarorðum ef stafsetning er röng. Mögulegt er að nota algildisleit.

Af íslenskum veforðabókum býður þessi vefur líklega upp á mesta úrvalið. (Kannski að vefjum Árnastofnunar undanskildum). Á vefnum eru 34 orðasöfn á átta tungumálum auk tveggja matreiðslubóka. Efnið er sótt úr bókum sem áður hafa verið gefnar út á prenti. Notendum er ekki boðið að gera breytingar, heldur er efnið samið af sérfræðingum í samsetningu orðabóka.

Áherslan er lögð á leitargluggann á forsíðunni, mikið hefur verið lagt upp úr því að hafa hann góðan, og notendum er strax beint þangað. Ekki er boðið upp á að leita í orðalistum fyrr en byrjað er að slá leitarorðið inn. Áður en að því kemur er hægt að velja í hvaða orðasafni á að leita. Það er einnig hægt eftir að leit er hafin, þannig má þrengja leitina ef niðurstöður eru of margar.

Styrkleiki vefsins er fjöldi orðasafnanna sem hægt er að fletta upp í. Vefurinn byggir á áður útgefnu efni á prentformi sem unnið er af sérfræðingum í orðabókagerð og þess vegna má gera ráð fyrir því að upplýsingar séu réttar.

Veikleikar vefsins eru að efni hans ber of mikil merki þess að vera komið úr prentformi. Rekast má á stytt orð og skammstafanir sem eru ekki eins nauðsynlegar þegar út á vefinn er komið. (Til dæmis má rekast á orðið „framkvsemd“ við leit að enska orðinu „Transaction“). Hann nýtir sér vefformið og möguleika þess ekki nógu vel. Leitarniðurstöður geta orðið langar og erfitt að komast í gegnum þær, sérstaklega ef leitað er að algengum orðum.

Er leitinni lokið?

Ég held ég sé dottinn niður á sæmilega lausn á leitarvirkninni í WordPress með aðstoð nokkurra viðbóta. Hér verður fjallað um viðbæturnar sem ég nota til að fá leitina til að virka eins og ég vil, í þeirri röð sem ég held að best sé að setja þær inn.

Orðabókin

Fyrst er það viðbótin WordPress dictionary. Hún auðveldar smíði orðabóka og orðasafna í WordPress. Upphaflega er hún á ensku, en framenda hennar má auðveldlega þýða yfir á hvaða tungumál sem er. Hún kostar tæpa 30 dali, eða um 3500 íslenskar krónur. Best er að nota hana í WordPress-þema sem styður a.m.k. tvær valmyndir.

Þegar búið er að setja viðbótina upp og virkja hana skýrir það sig nokkurn veginn sjálft hvernig hún virkar. Á Youtube má nálgast nokkur kennslumyndbönd. Á vef viðbótarinnar er einnig fræðsluefni, þannig að hér verður ekki farið út í frekari smáatriði.

Aukasvæði

Beint úr kassanum inniheldur orðabókin þrjú textasvæði:

  • Meginmál færslunnar, eða orðskýringu.
  • Uppruna orðsins (entry origin).
  • Tengd orð (Related entries).

Ég vildi bæta nýju textasvæði sem innihéldi allar beygingarmyndir viðkomandi orðs. Til þess notaði ég Advanced custom fields. Innahald textasvæðisins er fyrst og fremst hugsað sem leitarorð og því ekki nauðsynlegt að þau birtist með færslunum á framenda vefsins. Ég þurfti því ekki að fara út í frekari forritunarvinnu.

Ég bjó til svæðaflokkinn „Orðabókarupplýsingar“. Svæði í þessum flokki eru stillt þannig að þau birtast bara ef færslan er skrifuð með Orðabókarviðbótinni. Þau birtast ekki þegar skrifaðar eru venjulegar bloggfærslur eða síður í WordPress.

Inni í þessum svæðaflokki er eitt svæði: „Orðmyndir“. Þetta er einfalt textasvæði og ekki er skylda að fylla það út. Hægt er að breyta stillingunum á því og jafnvel bæta við fleiri svæðum ef þörf er á.

Nýr leitargluggi

Þá er það leitarglugginn. Með viðbótinni Search-live er hægt að bæta leitarglugga við hvaða WordPress-síðu eða -færslu sem er. Aðeins þarf að setja inn einfaldan kóða sem viðbótin býr til þegar búið er að stilla hvernig leitarglugginn á að virka.

Ég held að þessi viðbót sé ekki nauðsynleg fyrir framhaldið. Hún skilar ekki enn niðurstöðunum sem ég vil. En það er gott að geta haft leitargluggann hvar sem er, en ekki bara á fyrirfram ákveðnum stöðum sem WordPress ákveður. Þannig að þessi viðbót fær að vera með á þessu stigi málsins.

Falið efni

Viðbótin Search exclude útilokar færslur og síður frá því að birtast í leitarniðurstöðum. Þegar búið er að virkja viðbótina birtist lítið textasvæði sem hægt er að haka við ef óskað er eftir því að leitin fari framhjá viðkomandi færslu eða síðu. Þetta hefur bara áhrif á leitina í WordPress en ekki á Google.

Leitarvirknin

Ég vil að hægt verði að leita að orðum í öllum beygingarmyndum. Leitarorðin „Orðabókarinnar“ og „Orðabókanna“ ættu til dæmis að skila sömu færslu undir fyrirsögninni „Orðabók“.

Hér kemur Relevanssi til sögunnar. Grunnútgáfa hennar er ókeypis en hægt er að borga fyrir „advanced“ og „premium“ útgáfur, sem gefa fleiri möguleika. Ókeypis útgáfan virðist virka nógu vel hjá mér. Hægt er að láta hana leita í ákveðnum svæðum (til dæmis í textasvæðinu sem inniheldur beygingarmyndirnar) en útiloka önnur.

Hún leitar samt enn í meginmálssvæði orðabókarfærslunnar, þ.e. orðskýringunni. Og það vil ég ekki. Af hverju ekki?

Segjum að skýringin á orðinu „Orðabók“ sé:

„Rit sem inniheldur lista af orðum ákveðins tungumáls, yfirleitt í stafrófsröð. Yfirleitt fylgja orðskýringar með, stundum á sama tungumáli, en stundum á öðru tungumáli.“

Ef ég leita að orðinu „stundum“ gæti orðið „Orðabók“ komið upp í leitarniðurstöðunum, því að skýringin á orðinu inniheldur „stundum“. En þessi orð eru ekkert sérstaklega nátengd og því óþarfi að „Orðabók“ verði ein af niðurstöðum leitarinnar.

Þetta má leysa með því að hafa allar orðskýringar innan kóðans [noindex][/noindex]. Vandamálið við það er þó að þá gætu orðskýringarnar orðið ósýnilegar fyrir Google.

Engu að síður er þetta besta lausnin hingað til.

Ritstýrð leit

Þegar Relevanssi er komin upp er hægt að sækja viðbótina Autocomplete for Relevanssi. Eins og nafnið gefur til kynna býður hún upp á ritstýrða leit, þ.e. stingur upp á leitarorðum um leið og orðið er slegið inn í leitargluggann. Þannig má koma í veg fyrir að notendur slái inn rangt stafsett orð.

Hægt er að prófa leitarvirknina og samspil þessarra viðbóta í WordPress-sandkassanum. Sem stendur eru fjögur orð í orðabókinni: Api, banani, áttaviti og tæki. Hægt á að vera að leita að öllum orðmyndum þessarra orða.

Mér finnst þetta a.m.k. vera ásættanleg lausn, þangað til eitthvað annað kemur í ljós. Nú get ég farið að snúa mér að einhverju öðru í bili.

Lífið hálfnað

Haustönnin 2016 er meira en hálfnuð! Og mér finnst ég ekki vera byrjaður að gera neitt. Það er því kannski tími til kominn að líta yfir farinn veg, skoða hvað er búið og skipuleggja næstu skref.

Hvað er búið?

  • Setja upp framkvæmdaáætlun.
  • Netkönnun. Um 200 manns eru búin að svara henni.
  • Veftré – Flokkaheitin í aðalleiðakerfinu eru a.m.k. komin á hreint.
  • Skilgreina markhópa.
  • Skilgreina samkeppnisvefi/fyrirmyndir.
  • Grunnur að orðasafni.
  • Ákveða uppbyggingu á efni og orðskýringum.

Verkefnalistinn næstu þrjár til fjórar vikurnar
(flest verkefni eru komin af stað, en ekkert þeirra er búið):

  • Skoða og vinna úr svörum í netkönnun.
  • SVÓT-greining á verkefninu.
  • Vinna e.k. samkeppnisgreiningu á fyrirfram ákveðnum vefjum.
  • Koma skipulagi á greinargerðina, sem inniheldur fræðilega hluta verkefnisins. Setja upp beinagrind að efni.
  • Finna fleiri heimildir til að skoða.
  • Skrifa orðskýringar við a.m.k. 50 fyrstu orðin, til að byrja með.
  • Skrifa handrit að og taka upp a.m.k. þrjá podcast-þætti.
  • Prófa virkni vefumsjónarkerfa og ákveða hvað hentar best. (Finnst líklegt þegar hér er komið sögu að WordPress verði fyrir valinu, með tilheyrandi viðbótum).
  • Gera leitarmöguleikann á vefnum eins fullkominn og ég vil hafa hann. Hef ákveðið að leita aðstoðar forritara eða sérfræðinga við þann hluta.

Frí? Hvað er það?
Það er a.m.k. ekki til í orðabókinni minni…

Leitin

Það var þetta með leitina!

Leitarmöguleikinn þarf að virka vel í svona rafrænum orðabókum. Að hafa hana nægilega góða verður líklega stærsti höfuðverkurinn í þessu öllu saman. Jafnvel meiri heldur en að skrifa fjórar síður um orðabókafræði, sem ég hafði þó ekkert vit á fyrir.

Ég vil að hægt verði að leita að orðum í öllum beygingarmyndum. Leitastrengirnir „Orðabókarinnar“ og „Orðabókanna“ ættu til dæmis að skila sömu færslu undir fyrirsögninni „Orðabók“.

Ég er búinn að skoða nokkrar viðbætur í boði fyrir WordPress. Meðal annars viðbótina Advanced custom fields. Hún býður upp á að bæta svæðum við þau sem fyrir eru í bakendanum á WordPress, þ.e. fyrirsagnasvæðið og meginmálssvæðið. Þannig væri hægt að bæta við textasvæði sem væri sérstaklega ætlað til þess að láta beygingarmyndir viðkomandi orðs fylgja með.

En þá á eftir að finna einhverja viðbót sem gerir leitina nógu góða. Eitthvað sem útilokar ákveðin textasvæði frá leitinni. Því ég vil að leitarvélin leiti bara í þessu viðbótarsvæði með orðmyndunum og engu öðru. En það hefur ekki virkað nógu vel hingað til.

Leitin verður því að halda áfram!

Árnastofnun

Laugavegur 13
Laugavegur 13

Þetta er Laugavegur 13 í Reykjavík á fallegum haustdegi.

Þar er orðfræðisvið Árnastofnunar til húsa.

Ég fór í heimsókn þangað í síðustu viku, rétt fyrir veikindi, og fékk smá leiðsögn um grundvallarrit í orðabókarfræði.

Því að í greinargerðinni sem á að skila með vefnum vil ég hafa einhverja umfjöllun um fræðigreinina, verkefni hennar og viðfangsefni og segja frá því hvaða ákvarðanir þarf að taka við samsetningu orðabóka.

Þakkir fyrir móttökur og leiðsögn fá Eva María og Halldóra hjá Árnastofnun.

Veikindi

Síðasta vika var leiðinleg. Hún einkenndist meira og minna af veikindum.

En eitthvað verður maður að gera þó að maður sé veikur og treysti sér ekki út úr húsi.

Veikindi eru góður tími til að hugsa, skipuleggja og gera tilraunir.

Ég er sem sagt farinn að huga að því hvers konar vefumsjónarkerfi hentar fyrir þetta verkefni. Er að kanna hvaða kosti og galla Drupal-vefumsjónarkerfið hefur og er búinn að setja upp vef sem þjónar hlutverki sandkassa, leik- og tilraunasvæðis. Hér má smella til að skoða Drupal-vefinn.

Um helgina setti ég svo upp sambærilegan vef til að kanna kosti og galla WordPress-kerfisins. Hér má smella til að skoða WordPress-útgáfuna.

Það má þó ekki bindast þessum vefjum of tilfinningalegum böndum, setja þá í bókamerki eða gera þá að upphafssíðum í vafranum, því þeim verður báðum eytt þegar verkefninu er lokið.

Netkönnun

Stutt netkönnun er farin í loftið. Það tekur um tvær til fimm mínútur að svara henni.
Hér má smella til að taka þátt í könnuninni.

Hún er gerð til að kanna hug notenda til svipaðra vefja, sem sagt annarra orðabóka á rafrænu formi, og hvaða væntingar þeir hafa til þeirra.

Hún verður opin eitthvað fram í miðjan október.

Byrjaði á að herja á nokkra framhaldsskóla til að taka þátt í henni, vegna þess að framhaldsskólanemendur eru einn af skilgreindum markhópum vefsins. Stjórnendur skólanna hafa hingað til tekið beiðninni vel.

Þetta þýðir þó ekki að aðrir aldurshópar megi ekki taka þátt. Helst vil ég fá svör frá öllum aldurshópum.

Því miður eru engin verðlaun í boði nema gleðin og ánægjan yfir því að hafa gefið mér tíma af lífi sínu og að hafa stuðlað að framgangi vísindanna.

Orðabókafræði

Orðabókafræði (Lexicography) er fræðigrein innan málfræði sem fæst við orðabækur og samsetningu þeirra.

Höfundar orðabóka þurfa að taka margvíslegar ákvarðanir. Til dæmis:

  • Á orðabókin að vera einmála eða tvímála?
  • Hverjum er hún ætluð? Fræðimönnum á einhverju sviði? Eða almenningi?
  • Og kannski mikilvægasta spurningin: Hvaða flettiorð eiga að vera í henni? Og hvaða flettiorð eiga ekki að vera í henni?

Guðrún Kvaran, um orðaforða í Íslenskri orðabók:

„í orðabók ætlaðri almenningi á að láta daglegan orðaforða ríkja yfir sjaldgæfari samsetningum eða samsetningum sem eru vel skiljanlegar án skýringa.
[…]
Einnig þarf að fara yfir allan sérmerkta orðaforðann og fella þar margt út, sérstaklega fágætar plöntur og sjaldséð dýr, sem heima eiga í handbókum um slíkt efni.

Mannanöfn eiga lítið erindi í bók af þessu tagi. Þau voru valin af handahófi í ÍO 1983 og fjölmörg vantar sem töldust þó mjög algeng á þeim tíma sem bókin kom út.“
(Guðrún Kvaran: Uppruni orðaforðans í „Íslenskri orðabók“. Orð og tunga 4 (1998)).

Laufey Leifsdóttir, um sama efni:

„Sjaldgæf orð eiga trúlega ekki að vera í miklum mæli í Íslenskri orðabók en erfitt getur verið að meta vægi þeirra, t.d. er ógrynnin öll að finna af sjaldgæfum orðum í verkum Halldórs Laxness sem má svo sannarlega færa rök fyrir að eigi að vera hægt að fletta upp í Íslenskri orðabók.
[…]
langt því frá öll íðorð eiga heima í almennri orðabók á borð við Íslenska orðabók en þumalfingursregla okkar var sú að orð, sem menn geta rekist á skýringarlaust í fjölmiðlum eða kennslubókum á framhaldsskólastigi, eigi heima í orðabókinni.“
(Laufey Leifsdóttir: Íslensk orðabók í hálfa öld – Nokkur atriði um endurskoðun og endurnýjun Íslenskrar orðabókar. Orð og tunga 10 (2008)).

Að lokum: Ef orð hafa fleiri en eina merkingu, hvaða skýringu á þá að nefna fyrst?

„Annað vandamál, sem snýr að skýringartextum nafnorða, er í hvaða röð á að raða skýringum þeirra. Þessu má lýsa sem tveimur aðferðum, annars vegar sögulegri og hins vegar samtímalegri röðun. Með sögulegri aðferð er átt við að fyrsta skýring nafnorðs sé e.k. ,grunnmerking’, t.d. að borð merki ,fjöl, plægður viður, borðviður, smíðaefni’ og aðrar merkingar orðsins fylgi þar á eftir. Þar með má fá nokkurs konar merkingarlegt samhengi í skýringar flettunnar. Samtímaaðferðin er þá sú að algengasta skýring orðs sé höfð fremst. Ef sú leið er farin getur uppröðunin hæglega orðið sú að ,grunnmerkingin’ sé forn skýring orðs og komi fyrir í sjötta lið, en á hinn bóginn sér notandinn strax skýringu sem hann kannast við. Við orðið borð er til dæmis fyrsta skýring nú ,plata á fótum til að vinna, snæða, sitja við’ en grunnmerking ,fjöl, plægður viður, borðviður, smíðaefni’ er í öðrum lið. Í flettunni borg er svo fyrsta merking ,kastali, virki’ en ekki sú sem er algengust, ,staður, bær’. Í Íslenskri orðabók voru frá upphafi notaðar báðar þessar leiðir og engri sérstakri línu fylgt í þessum frágangi. Ótal spurningar vakna. Hver er algengasta merking orðs? Rofnar samhengi við merkingarlegan uppruna um of ef skýringum er raðað upp eftir því hversu almennar þær eru? Hverjar eru þarfir notandans? Leitar hann algengustu merkingar eða kemur honum ,rökleg röð’ betur?“
(Laufey Leifsdóttir: Íslensk orðabók í hálfa öld – Nokkur atriði um endurskoðun og endurnýjun Íslenskrar orðabókar. Orð og tunga 10 (2008)).

Grunnurinn

Einhvers staðar verður að byrja. Hvaðan eiga fyrstu orðin í orðasafninu að koma? Hér verður sagt frá því hvernig grunnurinn að því er fenginn og hvaða aðferð var beitt til þess.

Í upphafi var skannaður texti úr nokkrum íslenskum skáld- og smásögum. Þessar sögur eru eftirfarandi:

  • 79 af stöðinni (Indriði G. Þorsteinsson)
  • Englar alheimsins (Einar Már Guðmundsson)
  • Ég man þig (Yrsa Sigurðardóttir)
  • Góðir Íslendingar (Huldar Breiðfjörð)
  • Grafarþögn (Arnaldur Indriðason)
  • Íslandsklukkan (Halldór Laxness)
  • Lovestar (Andri Snær Magnason)
  • Margsaga (Þórarinn Eldjárn)
  • Mýrin (Arnaldur Indriðason)
  • Ofsögum sagt (Þórarinn Eldjárn)
  • Ofvitinn (Þórbergur Þórðarson)
  • Ó fyrir framan (Þórarinn Eldjárn)
  • Rokland (Hallgrímur Helgason)
  • Sérðu það sem ég sé (Þórarinn Eldjárn)
  • Sjálfstætt fólk (Halldór Laxness)

Eins og sjá má af listanum eru kynjahlutföll talsvert ójöfn. Takk fyrir að minnast ekki á það við mig!

Næst voru textarnir ljóslesnir með ljóslestursforritinu Readiris. Þessari vinnu var að mestu lokið áður en vinna við sjálft verkefnið hófst. Að auki var notaður texti úr nokkrum fréttum af fréttavefjum RÚV og Vísis, sem birtust dagana 7.-19. september 2016.

Með orðgreiningarforritinu AntConc var gerður listi yfir algengustu orðmyndirnar úr textasafninu. Samtals eru þetta 1.108.110 orð og 90.406 orðmyndir.

Antconc býður upp á möguleika að raða orðum eftir tíðni, í stafrófsröð og í stafrófsröð eftir síðasta staf í orði. Við gerð orðalistans var orðunum raðað eftir tíðni. 200 algengustu orðmyndirnar í textasafninu voru teknar saman og þær flokkaðar handvirkt í orðflokka.

Að því loknu voru skrifuð niður flettiorð af hverri orðmynd. Orðmyndirnar henni og hennar flokkast t.d. báðar sem flettiorðið hún. Meira vandamál reyndist að vinna með orðmyndir sem hægt er að flokka á fleiri en einn veg. Til dæmis orðmyndin hún, sem getur bæði verið mynd af orðunum hún og húnn. Þegar slík tilvik komu upp voru tekin nokkur dæmi af handahófi úr textasafninu og farið eftir notkun sem var algengust. Orðmyndin hún reyndist til dæmis mun algengari sem mynd af persónufornafninu hún heldur en af nafnorðinu húnn.

Að lokum varð til 100 orða listi yfir algengustu flettiorðin úr textasafninu. Þetta er listinn yfir 100 fyrstu orðin sem verða tekin inn í orðabókina. Hér má sjá listann, orðum raðað í stafrófsröð. Á honum eru einnig upplýsingar um hvaða orðflokkum þau tilheyra. Ég hef nú þegar ákveðið að flettiorð sem geta haft fleiri en eina merkingu á bak við sig verði saman undir einni færslu í orðabókinni. Dæmi um slíkt er orðið ganga, sem getur bæði verið sagnorð og nafnorð. Því verður aðeins ein færsla í stað tveggja undir heitinu ganga, þegar þar að kemur. Af sömu ástæðu eru sum orð á áðurnefndum lista undir fleiri en einum orðflokki.

Ofan á þennan lista er svo ætlunin að bæta smátt og smátt eftir því sem tímarnir líða.

Fyrstu skrefin

Næstu vikur verða helgaðar undirbúningi verkefnisins.

Hugsuðurinn og gerandinn
Hugsuðurinn og gerandinn

Undirbúningur fyrir verkefni af þessu tagi er gríðarlega mikilvægur. Íslenska leiðin er sú að vaða beint í verkið en sleppa undirbúningnum. Íslendingar eru meiri gerendur en hugsuðir. Það verður helst allt að gerast ekki seinna en í gær!

Það er freistandi að fara íslensku leiðina: Framkvæma fyrst, en skipuleggja eftir á. Ég játa að ég hef verið að því kominn núna í fyrstu skrefunum að setja upp vef, dæla einhverju efni inn á hann, en skipuleggja það svo seinna. Það er kannski mest spennandi, því þá sjást strax einhver ummerki af vinnunni, en það er ekki rétta leiðin.

Eins og þegar við málum heima hjá okkur. Þá þurfum við fyrst að gera allt þetta „leiðinlega“ áður en við sjáum einhvern árangur af vinnunni. Við þurfum að þrífa óhreinindi af veggjum, taka nagla og skrúfur niður, sparsla í göt og sprungur, líma málningarlímband á viðeigandi staði og setja undirlag á gólfið áður en við getum sett málningu á vegginn.

Það þarf líka að vinna alla þessa „leiðinlegu“ vinnu, áður en nýr vefur er settur upp, þ.e. ef eitthvað á að vera í hann spunnið. Til dæmis þarf að skilgreina markhópa, ákveða hvernig leiðakerfið og veftréð eiga að líta út og huga að efni og skipulagi þess. Einnig er gott að heyra í notendum, til dæmis með viðtölum eða könnunum.

Næstu skref hjá mér verða þessi:

  • Setja upp framkvæmdaáætlun eða tímalínu verkefna.
  • Setja saman grunn að efninu sem verður á vefnum í upphafi.
  • Ákveða uppsetningu og uppbyggingu efnis.
  • Setja upp veftré.
  • Setja upp netkönnun og fá helstu markhópa (eða fulltrúa úr þeim) til að taka þátt í henni.

Það verður því ekki verkefnaskortur hér á bæ á næstunni!