Hlaðvarpið

Fyrsti hlaðvarpsþátturinn er farinn í loftið.

Það eru tilbúnir (eða næstum því tilbúnir) tveir aðrir þættir og stefnan er sú að birta þá næstu tvo mánudaga héðan í frá.

Ég kýs að kalla þættina Málfarslögregluna.

Þegar þeir verða allir orðnir aðgengilegir verður vika í skil á þessu öllu saman.

Hér má hlusta á fyrsta þáttinn.

Fokheldur

Skjáskot af ordabokin.is
Skjáskot af vefnum ordabokin.is tekið 25. nóvember 2016
Í tvær og hálfa viku er ég búinn að fikta í uppsetningu á vefnum. Ég keypti þemað Flatbase til að laga útlit vefsins að skissum sem ég teiknaði.

Nú er tilbúin frumútgáfa af aðalvefnum sem virkar nokkurn veginn eins og ég vil hafa hana. Það vantar enn allt innihaldið. Ýmsar fínstillingar og breytingar á smáatriðum eru eftir. Einnig er ekki víst að núverandi litir fái að halda sér. Ef vefurinn væri hús væri hann núna orðinn fokheldur.

Næstu daga ætla ég að gera nokkrar notendaprófanir. Því allir sem eitthvað hafa fjallað um miðlun efnis á vefnum og undirbúning vefverkefna eru sammála um gagnsemi notendaprófana.

Notendaprófun snýst um að fylgjast með einum notanda í einu nota vefinn. Þannig má komast að því hvernig notendur hegða sér á vefnum og mögulega finna villur, sjá hvað má bæta og hverju er ofaukið. Mælt er með því að prófa lítið í einu en oft, ekki þarf að fá marga notendur í hvert skipti og ekki þarf að hafa áhyggjur af því hverjir eru prófaðir.

Nú þegar er ein prófun búin. Ég á eftir að fá tvo til þrjá notendur í viðbót.

Kynning

Ég hélt stutta kynningu á stöðu verkefnisins í morgun fyrir samnemendum í hagnýtri menningarmiðlun sem eru í sömu stöðu og ég, þ.e. að vinna að lokaverkefni eða undirbúa það.

Fékk líka margar góðar hugmyndir á meðan sem ef til vill verða að veruleika síðar.

Sé smellt á myndina hér fyrir neðan má sækja glærupakka á pdf-formi sem ég notaði við kynninguna.

Glæar númer 1 í glærukynningu

Samkeppnisgreining

Í upphafi verkefnisins tók ég saman fimm íslenskar veforðabækur til að hafa með í samkeppnisgreiningu. Það mætti líka tala um samanburðarmat – það er nær enska hugtakinu Comparative assessment. Matið er unnið eftir aðferð Leah Buley í bókinni The user experience team of one.

Í þessari greiningu verða tekin fyrir nokkur atriði sem eru vel gerð á viðkomandi vefjum (og ég vil taka til fyrirmyndar) og hvaða atriði mættu betur fara (og ég vil forðast).

Niðurstöðurnar verða notaðar við samsetningu þarfagreiningar ásamt niðurstöðum úr netkönnun.

Atriði sem tekin voru fyrir sérstaklega voru:

  • Hönnun (útlit)
  • Innihald
  • Virkni
  • Leit
  • Styrkleikar
  • Veikleikar

Íslenska.org

Hönnunin er einföld og þægileg. Enginn leitargluggi er á forsíðu vefsins. Leiðakerfi nær þvert yfir skjáinn. Vefurinn er ekki skalanlegur.

Vefurinn inniheldur íslenska rímorðabók og orðskiptibók, hvora á sinni síðu. Einnig er hægt að hlaða orðskiptilýsingunni niður sem einfaldri textaskrá. Leit á vefnum er einföld, hægt er að leita að hvaða orði sem er og vefurinn stingur upp á rímorði eða orðskiptingum. Leitargluggarnir gera ekki greinarmun á venjulegum orðum og bullorðum eða tilviljanakenndum stafarunum.

Helsti veikleiki vefsins er sá að hann virðist ekki hafa verið uppfærður síðan 2008, sem er hálfgerð synd, því hugmyndin og framtíðaráætlunin sem sagt er frá á vefnum lofa svo góðu.

Íslenska Wikiorðabókin

Orðabókin byggir á sömu hugmynd og alfræðiritið Wikipedia, þ.e. að allir með aðgang að nettengingu geti unnið saman að því að búa til orðabók. Vefurinn lítur út eins og hefðbundin síða á Wikipediu og virkni þessarra tveggja vefja er eins. Forsíðan er nokkuð efnismikil. Leiðakerfi birtist vinstra megin á forsíðunni. Vefurinn er ekki skalanlegur, en til er sérútgáfa með sömu virkni og innihaldi fyrir snjalltæki. Vefurinn inniheldur íslenska orðabók, sem samin er af notendum. Stundum fylgja beygingarlýsingar, myndir og þýðigar yfir á önnur tungumál.

Leitargluggi í tölvuútgáfunni er efst í hægra horni. Í snjallsímaútgáfunni nær hann þvert yfir skjáinn. Leitin er ekki ritstýrð og ekki er tekið tillit til rangrar stafsetningar. Ef notandi slær inn rangt stafsett orð eða annað orð sem ekki er til í orðabókinni er honum strax vísað á síðu sem býður upp á að bæta því við. Notendur verða að skrá sig inn undir notandanafni til að geta bætt og breytt orðabókinni.

Helstu styrkleikar orðabókarinnar, en jafnframt helstu veikleikar hennar, eru þeir að hún er samin af notendum. Ritstjórar fara ekki yfir efnið áður en það birtist. Þess vegna er alltaf hætta á því að rangar upplýsingar slæðist með. Hætta á skemmdarverkum er einnig til staðar. Kosturinn er sá að ef notendur rekast á rangar upplýsingar geta þeir sjálfir leiðrétt þær milliliðalaust – breytingarnar birtast strax. Vefurinn er gefinn út undir opnu höfundarleyfi og hver sem er má afrita og breyta textanum.

Orðabók.is

Vefurinn skiptist í þrjár orðabækur: Íslenska–enska–íslenska, Íslenska–danska–íslenska og stafsetningarorðabók. Að auki má finna beygingarmyndir íslenskra orða. Uppsetning vefsins er einföld og hefðbundin. Vefurinn er skalanlegur og kemur vel út í snjallsíma.

Til að fá nánari upplýsingar um uppflettiorðið geta notendur smellt á tengla yfir á utanaðkomandi vefi, s.s. Orðabanka Íslenskrar málstöðvar og Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytisins. Vefurinn er undir valdi ritstjóra. Auk orðabókarinnar má finna Orðabloggið; fróðleik um íslenska málnotkun. Þá má einnig kaupa leiðréttingarforrit sem hleðst niður í tölvu notenda. Notendur geta vistað orð með því að glósa þau og tekið miserfið stafsetningarpróf á ensku.

Helstu styrkleikar vefsins eru að hann býður upp á forskoðun og prófun áður en notendur ákveða hvort þeir vilja gerast áskrifendur. Áskrift er ókeypis fyrir notendur 20 ára og yngri. Vefurinn nýtir sér möguleika á fjölbreyttari miðlunarleiðum með hljóðdæmum. Efni hans er ekki komið úr orðabók á prentformi, heldur hefur það alla tíð verið stafrænt. Helsti veikleiki vefsins er sá að yfirleitt innihalda orðskýringarnar fremur takmarkaðar upplýsingar. Það sama má segja um beygingarlýsingar íslenskra orða. Vefurinn er þó góður til síns brúks ef aðeins þarf að vita hvað viðkomandi orð þýðir.

Leitin á vefnum er ekki ritstýrð en stungið er upp á niðurstöðum ef leitarorð eru rangt stafsett eða þau finnast ekki í orðasafninu. Þá er notendum boðið upp á að senda tillögu að nýju orði. Einnig er hægt að leita að orðum í öllum beygingarmyndum.

Slangurorðabók Snöru

Vefurinn er ekki skalanlegur – hann kemur best út ef hann er skoðaður á tölvuskjá. Uppsetningin minnir dálítið á bloggsíðu og gefur til kynna að vefurinn eigi að vera léttur og skemmtilegur. Myndir taka á móti notandanum á forsíðunni. Vefurinn inniheldur slangurorðabók sem notendur hafa sett saman. Orðabókin er ekki byggð á prentuðu efni.

Leitargluggi er efst á vefnum, u.þ.b. fyrir miðju. Einnig er hægt að leita að orðum eftir stafrófsröð. Tíu nýjustu orðin birtast á lista vinstra megin á forsíðunni. Fyrir ofan leitargluggann er notendum boðið að smella á séríslenska stafi með músinni. Það kemur sér vel ef notendur hafa ekki aðgang að íslensku lyklaborði. Leitin er ekki ritstýrð, ekki er tekið tillit til rangrar stafsetningar og ekki er boðið upp á algildisleit. (Wildcard-leit).

Styrkleikar vefsins eru þeir að notendur ráða efninu að mestu leyti. Hann er þó undir valdi ritstjóra. Hægt er að flokka orð eftir efnisflokkum. Auðvelt er að senda inn tillögur að breytingum og nýju efni. Hugleiðingar notenda birtast strax.

Helstu veikleikar vefsins eu þeir að hann er ekki skalanlegur og erfiðara er að skoða hann í snjallsímum. Hann virðist ekki vera uppfærður nema endrum og eins – svo er a.m.k. um forsíðuna. Athugasemdir sem birtast strax bjóða upp á rifrildi og leiðindi meðal notenda. Umræður minna oft óþarflega mikið á virka í athugasemdum á íslenskum fréttavefjum. (Sjá t.d athugasemdir við orðið Hugari).

Snara.is

Leitarglugginn á vefnum er áberandi efst á forsíðunni. Uppsetningin er óhefðbundin – merki vefsins er t.d. ekki efst í vinstra horni, heldur undir leitarglugganum og nær yfir mestallan skjáinn. Vefurinn er skalanlegur og virkar vel fyrir snjallsíma. Flestir hlutar vefsins krefjast áskriftargjalds, en hægt er að skoða hann allan í gegnum nettengingu hjá Háskóla Íslands.

Stungið er upp á leitarorðum um leið og orðið er slegið inn. Leitin er ritstýrð og tekur að hluta tillit til rangrar stafsetningar. Stungið er upp á leitarorðum ef stafsetning er röng. Mögulegt er að nota algildisleit.

Af íslenskum veforðabókum býður þessi vefur líklega upp á mesta úrvalið. (Kannski að vefjum Árnastofnunar undanskildum). Á vefnum eru 34 orðasöfn á átta tungumálum auk tveggja matreiðslubóka. Efnið er sótt úr bókum sem áður hafa verið gefnar út á prenti. Notendum er ekki boðið að gera breytingar, heldur er efnið samið af sérfræðingum í samsetningu orðabóka.

Áherslan er lögð á leitargluggann á forsíðunni, mikið hefur verið lagt upp úr því að hafa hann góðan, og notendum er strax beint þangað. Ekki er boðið upp á að leita í orðalistum fyrr en byrjað er að slá leitarorðið inn. Áður en að því kemur er hægt að velja í hvaða orðasafni á að leita. Það er einnig hægt eftir að leit er hafin, þannig má þrengja leitina ef niðurstöður eru of margar.

Styrkleiki vefsins er fjöldi orðasafnanna sem hægt er að fletta upp í. Vefurinn byggir á áður útgefnu efni á prentformi sem unnið er af sérfræðingum í orðabókagerð og þess vegna má gera ráð fyrir því að upplýsingar séu réttar.

Veikleikar vefsins eru að efni hans ber of mikil merki þess að vera komið úr prentformi. Rekast má á stytt orð og skammstafanir sem eru ekki eins nauðsynlegar þegar út á vefinn er komið. (Til dæmis má rekast á orðið „framkvsemd“ við leit að enska orðinu „Transaction“). Hann nýtir sér vefformið og möguleika þess ekki nógu vel. Leitarniðurstöður geta orðið langar og erfitt að komast í gegnum þær, sérstaklega ef leitað er að algengum orðum.

Lífið hálfnað

Haustönnin 2016 er meira en hálfnuð! Og mér finnst ég ekki vera byrjaður að gera neitt. Það er því kannski tími til kominn að líta yfir farinn veg, skoða hvað er búið og skipuleggja næstu skref.

Hvað er búið?

  • Setja upp framkvæmdaáætlun.
  • Netkönnun. Um 200 manns eru búin að svara henni.
  • Veftré – Flokkaheitin í aðalleiðakerfinu eru a.m.k. komin á hreint.
  • Skilgreina markhópa.
  • Skilgreina samkeppnisvefi/fyrirmyndir.
  • Grunnur að orðasafni.
  • Ákveða uppbyggingu á efni og orðskýringum.

Verkefnalistinn næstu þrjár til fjórar vikurnar
(flest verkefni eru komin af stað, en ekkert þeirra er búið):

  • Skoða og vinna úr svörum í netkönnun.
  • SVÓT-greining á verkefninu.
  • Vinna e.k. samkeppnisgreiningu á fyrirfram ákveðnum vefjum.
  • Koma skipulagi á greinargerðina, sem inniheldur fræðilega hluta verkefnisins. Setja upp beinagrind að efni.
  • Finna fleiri heimildir til að skoða.
  • Skrifa orðskýringar við a.m.k. 50 fyrstu orðin, til að byrja með.
  • Skrifa handrit að og taka upp a.m.k. þrjá podcast-þætti.
  • Prófa virkni vefumsjónarkerfa og ákveða hvað hentar best. (Finnst líklegt þegar hér er komið sögu að WordPress verði fyrir valinu, með tilheyrandi viðbótum).
  • Gera leitarmöguleikann á vefnum eins fullkominn og ég vil hafa hann. Hef ákveðið að leita aðstoðar forritara eða sérfræðinga við þann hluta.

Frí? Hvað er það?
Það er a.m.k. ekki til í orðabókinni minni…

Leitin

Það var þetta með leitina!

Leitarmöguleikinn þarf að virka vel í svona rafrænum orðabókum. Að hafa hana nægilega góða verður líklega stærsti höfuðverkurinn í þessu öllu saman. Jafnvel meiri heldur en að skrifa fjórar síður um orðabókafræði, sem ég hafði þó ekkert vit á fyrir.

Ég vil að hægt verði að leita að orðum í öllum beygingarmyndum. Leitastrengirnir „Orðabókarinnar“ og „Orðabókanna“ ættu til dæmis að skila sömu færslu undir fyrirsögninni „Orðabók“.

Ég er búinn að skoða nokkrar viðbætur í boði fyrir WordPress. Meðal annars viðbótina Advanced custom fields. Hún býður upp á að bæta svæðum við þau sem fyrir eru í bakendanum á WordPress, þ.e. fyrirsagnasvæðið og meginmálssvæðið. Þannig væri hægt að bæta við textasvæði sem væri sérstaklega ætlað til þess að láta beygingarmyndir viðkomandi orðs fylgja með.

En þá á eftir að finna einhverja viðbót sem gerir leitina nógu góða. Eitthvað sem útilokar ákveðin textasvæði frá leitinni. Því ég vil að leitarvélin leiti bara í þessu viðbótarsvæði með orðmyndunum og engu öðru. En það hefur ekki virkað nógu vel hingað til.

Leitin verður því að halda áfram!

Veikindi

Síðasta vika var leiðinleg. Hún einkenndist meira og minna af veikindum.

En eitthvað verður maður að gera þó að maður sé veikur og treysti sér ekki út úr húsi.

Veikindi eru góður tími til að hugsa, skipuleggja og gera tilraunir.

Ég er sem sagt farinn að huga að því hvers konar vefumsjónarkerfi hentar fyrir þetta verkefni. Er að kanna hvaða kosti og galla Drupal-vefumsjónarkerfið hefur og er búinn að setja upp vef sem þjónar hlutverki sandkassa, leik- og tilraunasvæðis. Hér má smella til að skoða Drupal-vefinn.

Um helgina setti ég svo upp sambærilegan vef til að kanna kosti og galla WordPress-kerfisins. Hér má smella til að skoða WordPress-útgáfuna.

Það má þó ekki bindast þessum vefjum of tilfinningalegum böndum, setja þá í bókamerki eða gera þá að upphafssíðum í vafranum, því þeim verður báðum eytt þegar verkefninu er lokið.

Netkönnun

Stutt netkönnun er farin í loftið. Það tekur um tvær til fimm mínútur að svara henni.
Hér má smella til að taka þátt í könnuninni.

Hún er gerð til að kanna hug notenda til svipaðra vefja, sem sagt annarra orðabóka á rafrænu formi, og hvaða væntingar þeir hafa til þeirra.

Hún verður opin eitthvað fram í miðjan október.

Byrjaði á að herja á nokkra framhaldsskóla til að taka þátt í henni, vegna þess að framhaldsskólanemendur eru einn af skilgreindum markhópum vefsins. Stjórnendur skólanna hafa hingað til tekið beiðninni vel.

Þetta þýðir þó ekki að aðrir aldurshópar megi ekki taka þátt. Helst vil ég fá svör frá öllum aldurshópum.

Því miður eru engin verðlaun í boði nema gleðin og ánægjan yfir því að hafa gefið mér tíma af lífi sínu og að hafa stuðlað að framgangi vísindanna.

Grunnurinn

Einhvers staðar verður að byrja. Hvaðan eiga fyrstu orðin í orðasafninu að koma? Hér verður sagt frá því hvernig grunnurinn að því er fenginn og hvaða aðferð var beitt til þess.

Í upphafi var skannaður texti úr nokkrum íslenskum skáld- og smásögum. Þessar sögur eru eftirfarandi:

  • 79 af stöðinni (Indriði G. Þorsteinsson)
  • Englar alheimsins (Einar Már Guðmundsson)
  • Ég man þig (Yrsa Sigurðardóttir)
  • Góðir Íslendingar (Huldar Breiðfjörð)
  • Grafarþögn (Arnaldur Indriðason)
  • Íslandsklukkan (Halldór Laxness)
  • Lovestar (Andri Snær Magnason)
  • Margsaga (Þórarinn Eldjárn)
  • Mýrin (Arnaldur Indriðason)
  • Ofsögum sagt (Þórarinn Eldjárn)
  • Ofvitinn (Þórbergur Þórðarson)
  • Ó fyrir framan (Þórarinn Eldjárn)
  • Rokland (Hallgrímur Helgason)
  • Sérðu það sem ég sé (Þórarinn Eldjárn)
  • Sjálfstætt fólk (Halldór Laxness)

Eins og sjá má af listanum eru kynjahlutföll talsvert ójöfn. Takk fyrir að minnast ekki á það við mig!

Næst voru textarnir ljóslesnir með ljóslestursforritinu Readiris. Þessari vinnu var að mestu lokið áður en vinna við sjálft verkefnið hófst. Að auki var notaður texti úr nokkrum fréttum af fréttavefjum RÚV og Vísis, sem birtust dagana 7.-19. september 2016.

Með orðgreiningarforritinu AntConc var gerður listi yfir algengustu orðmyndirnar úr textasafninu. Samtals eru þetta 1.108.110 orð og 90.406 orðmyndir.

Antconc býður upp á möguleika að raða orðum eftir tíðni, í stafrófsröð og í stafrófsröð eftir síðasta staf í orði. Við gerð orðalistans var orðunum raðað eftir tíðni. 200 algengustu orðmyndirnar í textasafninu voru teknar saman og þær flokkaðar handvirkt í orðflokka.

Að því loknu voru skrifuð niður flettiorð af hverri orðmynd. Orðmyndirnar henni og hennar flokkast t.d. báðar sem flettiorðið hún. Meira vandamál reyndist að vinna með orðmyndir sem hægt er að flokka á fleiri en einn veg. Til dæmis orðmyndin hún, sem getur bæði verið mynd af orðunum hún og húnn. Þegar slík tilvik komu upp voru tekin nokkur dæmi af handahófi úr textasafninu og farið eftir notkun sem var algengust. Orðmyndin hún reyndist til dæmis mun algengari sem mynd af persónufornafninu hún heldur en af nafnorðinu húnn.

Að lokum varð til 100 orða listi yfir algengustu flettiorðin úr textasafninu. Þetta er listinn yfir 100 fyrstu orðin sem verða tekin inn í orðabókina. Hér má sjá listann, orðum raðað í stafrófsröð. Á honum eru einnig upplýsingar um hvaða orðflokkum þau tilheyra. Ég hef nú þegar ákveðið að flettiorð sem geta haft fleiri en eina merkingu á bak við sig verði saman undir einni færslu í orðabókinni. Dæmi um slíkt er orðið ganga, sem getur bæði verið sagnorð og nafnorð. Því verður aðeins ein færsla í stað tveggja undir heitinu ganga, þegar þar að kemur. Af sömu ástæðu eru sum orð á áðurnefndum lista undir fleiri en einum orðflokki.

Ofan á þennan lista er svo ætlunin að bæta smátt og smátt eftir því sem tímarnir líða.