Er leitinni lokið?

Ég held ég sé dottinn niður á sæmilega lausn á leitarvirkninni í WordPress með aðstoð nokkurra viðbóta. Hér verður fjallað um viðbæturnar sem ég nota til að fá leitina til að virka eins og ég vil, í þeirri röð sem ég held að best sé að setja þær inn.

Orðabókin

Fyrst er það viðbótin WordPress dictionary. Hún auðveldar smíði orðabóka og orðasafna í WordPress. Upphaflega er hún á ensku, en framenda hennar má auðveldlega þýða yfir á hvaða tungumál sem er. Hún kostar tæpa 30 dali, eða um 3500 íslenskar krónur. Best er að nota hana í WordPress-þema sem styður a.m.k. tvær valmyndir.

Þegar búið er að setja viðbótina upp og virkja hana skýrir það sig nokkurn veginn sjálft hvernig hún virkar. Á Youtube má nálgast nokkur kennslumyndbönd. Á vef viðbótarinnar er einnig fræðsluefni, þannig að hér verður ekki farið út í frekari smáatriði.

Aukasvæði

Beint úr kassanum inniheldur orðabókin þrjú textasvæði:

  • Meginmál færslunnar, eða orðskýringu.
  • Uppruna orðsins (entry origin).
  • Tengd orð (Related entries).

Ég vildi bæta nýju textasvæði sem innihéldi allar beygingarmyndir viðkomandi orðs. Til þess notaði ég Advanced custom fields. Innahald textasvæðisins er fyrst og fremst hugsað sem leitarorð og því ekki nauðsynlegt að þau birtist með færslunum á framenda vefsins. Ég þurfti því ekki að fara út í frekari forritunarvinnu.

Ég bjó til svæðaflokkinn „Orðabókarupplýsingar“. Svæði í þessum flokki eru stillt þannig að þau birtast bara ef færslan er skrifuð með Orðabókarviðbótinni. Þau birtast ekki þegar skrifaðar eru venjulegar bloggfærslur eða síður í WordPress.

Inni í þessum svæðaflokki er eitt svæði: „Orðmyndir“. Þetta er einfalt textasvæði og ekki er skylda að fylla það út. Hægt er að breyta stillingunum á því og jafnvel bæta við fleiri svæðum ef þörf er á.

Nýr leitargluggi

Þá er það leitarglugginn. Með viðbótinni Search-live er hægt að bæta leitarglugga við hvaða WordPress-síðu eða -færslu sem er. Aðeins þarf að setja inn einfaldan kóða sem viðbótin býr til þegar búið er að stilla hvernig leitarglugginn á að virka.

Ég held að þessi viðbót sé ekki nauðsynleg fyrir framhaldið. Hún skilar ekki enn niðurstöðunum sem ég vil. En það er gott að geta haft leitargluggann hvar sem er, en ekki bara á fyrirfram ákveðnum stöðum sem WordPress ákveður. Þannig að þessi viðbót fær að vera með á þessu stigi málsins.

Falið efni

Viðbótin Search exclude útilokar færslur og síður frá því að birtast í leitarniðurstöðum. Þegar búið er að virkja viðbótina birtist lítið textasvæði sem hægt er að haka við ef óskað er eftir því að leitin fari framhjá viðkomandi færslu eða síðu. Þetta hefur bara áhrif á leitina í WordPress en ekki á Google.

Leitarvirknin

Ég vil að hægt verði að leita að orðum í öllum beygingarmyndum. Leitarorðin „Orðabókarinnar“ og „Orðabókanna“ ættu til dæmis að skila sömu færslu undir fyrirsögninni „Orðabók“.

Hér kemur Relevanssi til sögunnar. Grunnútgáfa hennar er ókeypis en hægt er að borga fyrir „advanced“ og „premium“ útgáfur, sem gefa fleiri möguleika. Ókeypis útgáfan virðist virka nógu vel hjá mér. Hægt er að láta hana leita í ákveðnum svæðum (til dæmis í textasvæðinu sem inniheldur beygingarmyndirnar) en útiloka önnur.

Hún leitar samt enn í meginmálssvæði orðabókarfærslunnar, þ.e. orðskýringunni. Og það vil ég ekki. Af hverju ekki?

Segjum að skýringin á orðinu „Orðabók“ sé:

„Rit sem inniheldur lista af orðum ákveðins tungumáls, yfirleitt í stafrófsröð. Yfirleitt fylgja orðskýringar með, stundum á sama tungumáli, en stundum á öðru tungumáli.“

Ef ég leita að orðinu „stundum“ gæti orðið „Orðabók“ komið upp í leitarniðurstöðunum, því að skýringin á orðinu inniheldur „stundum“. En þessi orð eru ekkert sérstaklega nátengd og því óþarfi að „Orðabók“ verði ein af niðurstöðum leitarinnar.

Þetta má leysa með því að hafa allar orðskýringar innan kóðans [noindex][/noindex]. Vandamálið við það er þó að þá gætu orðskýringarnar orðið ósýnilegar fyrir Google.

Engu að síður er þetta besta lausnin hingað til.

Ritstýrð leit

Þegar Relevanssi er komin upp er hægt að sækja viðbótina Autocomplete for Relevanssi. Eins og nafnið gefur til kynna býður hún upp á ritstýrða leit, þ.e. stingur upp á leitarorðum um leið og orðið er slegið inn í leitargluggann. Þannig má koma í veg fyrir að notendur slái inn rangt stafsett orð.

Hægt er að prófa leitarvirknina og samspil þessarra viðbóta í WordPress-sandkassanum. Sem stendur eru fjögur orð í orðabókinni: Api, banani, áttaviti og tæki. Hægt á að vera að leita að öllum orðmyndum þessarra orða.

Mér finnst þetta a.m.k. vera ásættanleg lausn, þangað til eitthvað annað kemur í ljós. Nú get ég farið að snúa mér að einhverju öðru í bili.

Lífið hálfnað

Haustönnin 2016 er meira en hálfnuð! Og mér finnst ég ekki vera byrjaður að gera neitt. Það er því kannski tími til kominn að líta yfir farinn veg, skoða hvað er búið og skipuleggja næstu skref.

Hvað er búið?

  • Setja upp framkvæmdaáætlun.
  • Netkönnun. Um 200 manns eru búin að svara henni.
  • Veftré – Flokkaheitin í aðalleiðakerfinu eru a.m.k. komin á hreint.
  • Skilgreina markhópa.
  • Skilgreina samkeppnisvefi/fyrirmyndir.
  • Grunnur að orðasafni.
  • Ákveða uppbyggingu á efni og orðskýringum.

Verkefnalistinn næstu þrjár til fjórar vikurnar
(flest verkefni eru komin af stað, en ekkert þeirra er búið):

  • Skoða og vinna úr svörum í netkönnun.
  • SVÓT-greining á verkefninu.
  • Vinna e.k. samkeppnisgreiningu á fyrirfram ákveðnum vefjum.
  • Koma skipulagi á greinargerðina, sem inniheldur fræðilega hluta verkefnisins. Setja upp beinagrind að efni.
  • Finna fleiri heimildir til að skoða.
  • Skrifa orðskýringar við a.m.k. 50 fyrstu orðin, til að byrja með.
  • Skrifa handrit að og taka upp a.m.k. þrjá podcast-þætti.
  • Prófa virkni vefumsjónarkerfa og ákveða hvað hentar best. (Finnst líklegt þegar hér er komið sögu að WordPress verði fyrir valinu, með tilheyrandi viðbótum).
  • Gera leitarmöguleikann á vefnum eins fullkominn og ég vil hafa hann. Hef ákveðið að leita aðstoðar forritara eða sérfræðinga við þann hluta.

Frí? Hvað er það?
Það er a.m.k. ekki til í orðabókinni minni…

Leitin

Það var þetta með leitina!

Leitarmöguleikinn þarf að virka vel í svona rafrænum orðabókum. Að hafa hana nægilega góða verður líklega stærsti höfuðverkurinn í þessu öllu saman. Jafnvel meiri heldur en að skrifa fjórar síður um orðabókafræði, sem ég hafði þó ekkert vit á fyrir.

Ég vil að hægt verði að leita að orðum í öllum beygingarmyndum. Leitastrengirnir „Orðabókarinnar“ og „Orðabókanna“ ættu til dæmis að skila sömu færslu undir fyrirsögninni „Orðabók“.

Ég er búinn að skoða nokkrar viðbætur í boði fyrir WordPress. Meðal annars viðbótina Advanced custom fields. Hún býður upp á að bæta svæðum við þau sem fyrir eru í bakendanum á WordPress, þ.e. fyrirsagnasvæðið og meginmálssvæðið. Þannig væri hægt að bæta við textasvæði sem væri sérstaklega ætlað til þess að láta beygingarmyndir viðkomandi orðs fylgja með.

En þá á eftir að finna einhverja viðbót sem gerir leitina nógu góða. Eitthvað sem útilokar ákveðin textasvæði frá leitinni. Því ég vil að leitarvélin leiti bara í þessu viðbótarsvæði með orðmyndunum og engu öðru. En það hefur ekki virkað nógu vel hingað til.

Leitin verður því að halda áfram!

Árnastofnun

Laugavegur 13
Laugavegur 13

Þetta er Laugavegur 13 í Reykjavík á fallegum haustdegi.

Þar er orðfræðisvið Árnastofnunar til húsa.

Ég fór í heimsókn þangað í síðustu viku, rétt fyrir veikindi, og fékk smá leiðsögn um grundvallarrit í orðabókarfræði.

Því að í greinargerðinni sem á að skila með vefnum vil ég hafa einhverja umfjöllun um fræðigreinina, verkefni hennar og viðfangsefni og segja frá því hvaða ákvarðanir þarf að taka við samsetningu orðabóka.

Þakkir fyrir móttökur og leiðsögn fá Eva María og Halldóra hjá Árnastofnun.

Veikindi

Síðasta vika var leiðinleg. Hún einkenndist meira og minna af veikindum.

En eitthvað verður maður að gera þó að maður sé veikur og treysti sér ekki út úr húsi.

Veikindi eru góður tími til að hugsa, skipuleggja og gera tilraunir.

Ég er sem sagt farinn að huga að því hvers konar vefumsjónarkerfi hentar fyrir þetta verkefni. Er að kanna hvaða kosti og galla Drupal-vefumsjónarkerfið hefur og er búinn að setja upp vef sem þjónar hlutverki sandkassa, leik- og tilraunasvæðis. Hér má smella til að skoða Drupal-vefinn.

Um helgina setti ég svo upp sambærilegan vef til að kanna kosti og galla WordPress-kerfisins. Hér má smella til að skoða WordPress-útgáfuna.

Það má þó ekki bindast þessum vefjum of tilfinningalegum böndum, setja þá í bókamerki eða gera þá að upphafssíðum í vafranum, því þeim verður báðum eytt þegar verkefninu er lokið.

Netkönnun

Stutt netkönnun er farin í loftið. Það tekur um tvær til fimm mínútur að svara henni.
Hér má smella til að taka þátt í könnuninni.

Hún er gerð til að kanna hug notenda til svipaðra vefja, sem sagt annarra orðabóka á rafrænu formi, og hvaða væntingar þeir hafa til þeirra.

Hún verður opin eitthvað fram í miðjan október.

Byrjaði á að herja á nokkra framhaldsskóla til að taka þátt í henni, vegna þess að framhaldsskólanemendur eru einn af skilgreindum markhópum vefsins. Stjórnendur skólanna hafa hingað til tekið beiðninni vel.

Þetta þýðir þó ekki að aðrir aldurshópar megi ekki taka þátt. Helst vil ég fá svör frá öllum aldurshópum.

Því miður eru engin verðlaun í boði nema gleðin og ánægjan yfir því að hafa gefið mér tíma af lífi sínu og að hafa stuðlað að framgangi vísindanna.

Orðabókafræði

Orðabókafræði (Lexicography) er fræðigrein innan málfræði sem fæst við orðabækur og samsetningu þeirra.

Höfundar orðabóka þurfa að taka margvíslegar ákvarðanir. Til dæmis:

  • Á orðabókin að vera einmála eða tvímála?
  • Hverjum er hún ætluð? Fræðimönnum á einhverju sviði? Eða almenningi?
  • Og kannski mikilvægasta spurningin: Hvaða flettiorð eiga að vera í henni? Og hvaða flettiorð eiga ekki að vera í henni?

Guðrún Kvaran, um orðaforða í Íslenskri orðabók:

„í orðabók ætlaðri almenningi á að láta daglegan orðaforða ríkja yfir sjaldgæfari samsetningum eða samsetningum sem eru vel skiljanlegar án skýringa.
[…]
Einnig þarf að fara yfir allan sérmerkta orðaforðann og fella þar margt út, sérstaklega fágætar plöntur og sjaldséð dýr, sem heima eiga í handbókum um slíkt efni.

Mannanöfn eiga lítið erindi í bók af þessu tagi. Þau voru valin af handahófi í ÍO 1983 og fjölmörg vantar sem töldust þó mjög algeng á þeim tíma sem bókin kom út.“
(Guðrún Kvaran: Uppruni orðaforðans í „Íslenskri orðabók“. Orð og tunga 4 (1998)).

Laufey Leifsdóttir, um sama efni:

„Sjaldgæf orð eiga trúlega ekki að vera í miklum mæli í Íslenskri orðabók en erfitt getur verið að meta vægi þeirra, t.d. er ógrynnin öll að finna af sjaldgæfum orðum í verkum Halldórs Laxness sem má svo sannarlega færa rök fyrir að eigi að vera hægt að fletta upp í Íslenskri orðabók.
[…]
langt því frá öll íðorð eiga heima í almennri orðabók á borð við Íslenska orðabók en þumalfingursregla okkar var sú að orð, sem menn geta rekist á skýringarlaust í fjölmiðlum eða kennslubókum á framhaldsskólastigi, eigi heima í orðabókinni.“
(Laufey Leifsdóttir: Íslensk orðabók í hálfa öld – Nokkur atriði um endurskoðun og endurnýjun Íslenskrar orðabókar. Orð og tunga 10 (2008)).

Að lokum: Ef orð hafa fleiri en eina merkingu, hvaða skýringu á þá að nefna fyrst?

„Annað vandamál, sem snýr að skýringartextum nafnorða, er í hvaða röð á að raða skýringum þeirra. Þessu má lýsa sem tveimur aðferðum, annars vegar sögulegri og hins vegar samtímalegri röðun. Með sögulegri aðferð er átt við að fyrsta skýring nafnorðs sé e.k. ,grunnmerking’, t.d. að borð merki ,fjöl, plægður viður, borðviður, smíðaefni’ og aðrar merkingar orðsins fylgi þar á eftir. Þar með má fá nokkurs konar merkingarlegt samhengi í skýringar flettunnar. Samtímaaðferðin er þá sú að algengasta skýring orðs sé höfð fremst. Ef sú leið er farin getur uppröðunin hæglega orðið sú að ,grunnmerkingin’ sé forn skýring orðs og komi fyrir í sjötta lið, en á hinn bóginn sér notandinn strax skýringu sem hann kannast við. Við orðið borð er til dæmis fyrsta skýring nú ,plata á fótum til að vinna, snæða, sitja við’ en grunnmerking ,fjöl, plægður viður, borðviður, smíðaefni’ er í öðrum lið. Í flettunni borg er svo fyrsta merking ,kastali, virki’ en ekki sú sem er algengust, ,staður, bær’. Í Íslenskri orðabók voru frá upphafi notaðar báðar þessar leiðir og engri sérstakri línu fylgt í þessum frágangi. Ótal spurningar vakna. Hver er algengasta merking orðs? Rofnar samhengi við merkingarlegan uppruna um of ef skýringum er raðað upp eftir því hversu almennar þær eru? Hverjar eru þarfir notandans? Leitar hann algengustu merkingar eða kemur honum ,rökleg röð’ betur?“
(Laufey Leifsdóttir: Íslensk orðabók í hálfa öld – Nokkur atriði um endurskoðun og endurnýjun Íslenskrar orðabókar. Orð og tunga 10 (2008)).

Grunnurinn

Einhvers staðar verður að byrja. Hvaðan eiga fyrstu orðin í orðasafninu að koma? Hér verður sagt frá því hvernig grunnurinn að því er fenginn og hvaða aðferð var beitt til þess.

Í upphafi var skannaður texti úr nokkrum íslenskum skáld- og smásögum. Þessar sögur eru eftirfarandi:

  • 79 af stöðinni (Indriði G. Þorsteinsson)
  • Englar alheimsins (Einar Már Guðmundsson)
  • Ég man þig (Yrsa Sigurðardóttir)
  • Góðir Íslendingar (Huldar Breiðfjörð)
  • Grafarþögn (Arnaldur Indriðason)
  • Íslandsklukkan (Halldór Laxness)
  • Lovestar (Andri Snær Magnason)
  • Margsaga (Þórarinn Eldjárn)
  • Mýrin (Arnaldur Indriðason)
  • Ofsögum sagt (Þórarinn Eldjárn)
  • Ofvitinn (Þórbergur Þórðarson)
  • Ó fyrir framan (Þórarinn Eldjárn)
  • Rokland (Hallgrímur Helgason)
  • Sérðu það sem ég sé (Þórarinn Eldjárn)
  • Sjálfstætt fólk (Halldór Laxness)

Eins og sjá má af listanum eru kynjahlutföll talsvert ójöfn. Takk fyrir að minnast ekki á það við mig!

Næst voru textarnir ljóslesnir með ljóslestursforritinu Readiris. Þessari vinnu var að mestu lokið áður en vinna við sjálft verkefnið hófst. Að auki var notaður texti úr nokkrum fréttum af fréttavefjum RÚV og Vísis, sem birtust dagana 7.-19. september 2016.

Með orðgreiningarforritinu AntConc var gerður listi yfir algengustu orðmyndirnar úr textasafninu. Samtals eru þetta 1.108.110 orð og 90.406 orðmyndir.

Antconc býður upp á möguleika að raða orðum eftir tíðni, í stafrófsröð og í stafrófsröð eftir síðasta staf í orði. Við gerð orðalistans var orðunum raðað eftir tíðni. 200 algengustu orðmyndirnar í textasafninu voru teknar saman og þær flokkaðar handvirkt í orðflokka.

Að því loknu voru skrifuð niður flettiorð af hverri orðmynd. Orðmyndirnar henni og hennar flokkast t.d. báðar sem flettiorðið hún. Meira vandamál reyndist að vinna með orðmyndir sem hægt er að flokka á fleiri en einn veg. Til dæmis orðmyndin hún, sem getur bæði verið mynd af orðunum hún og húnn. Þegar slík tilvik komu upp voru tekin nokkur dæmi af handahófi úr textasafninu og farið eftir notkun sem var algengust. Orðmyndin hún reyndist til dæmis mun algengari sem mynd af persónufornafninu hún heldur en af nafnorðinu húnn.

Að lokum varð til 100 orða listi yfir algengustu flettiorðin úr textasafninu. Þetta er listinn yfir 100 fyrstu orðin sem verða tekin inn í orðabókina. Hér má sjá listann, orðum raðað í stafrófsröð. Á honum eru einnig upplýsingar um hvaða orðflokkum þau tilheyra. Ég hef nú þegar ákveðið að flettiorð sem geta haft fleiri en eina merkingu á bak við sig verði saman undir einni færslu í orðabókinni. Dæmi um slíkt er orðið ganga, sem getur bæði verið sagnorð og nafnorð. Því verður aðeins ein færsla í stað tveggja undir heitinu ganga, þegar þar að kemur. Af sömu ástæðu eru sum orð á áðurnefndum lista undir fleiri en einum orðflokki.

Ofan á þennan lista er svo ætlunin að bæta smátt og smátt eftir því sem tímarnir líða.

Fyrstu skrefin

Næstu vikur verða helgaðar undirbúningi verkefnisins.

Hugsuðurinn og gerandinn
Hugsuðurinn og gerandinn

Undirbúningur fyrir verkefni af þessu tagi er gríðarlega mikilvægur. Íslenska leiðin er sú að vaða beint í verkið en sleppa undirbúningnum. Íslendingar eru meiri gerendur en hugsuðir. Það verður helst allt að gerast ekki seinna en í gær!

Það er freistandi að fara íslensku leiðina: Framkvæma fyrst, en skipuleggja eftir á. Ég játa að ég hef verið að því kominn núna í fyrstu skrefunum að setja upp vef, dæla einhverju efni inn á hann, en skipuleggja það svo seinna. Það er kannski mest spennandi, því þá sjást strax einhver ummerki af vinnunni, en það er ekki rétta leiðin.

Eins og þegar við málum heima hjá okkur. Þá þurfum við fyrst að gera allt þetta „leiðinlega“ áður en við sjáum einhvern árangur af vinnunni. Við þurfum að þrífa óhreinindi af veggjum, taka nagla og skrúfur niður, sparsla í göt og sprungur, líma málningarlímband á viðeigandi staði og setja undirlag á gólfið áður en við getum sett málningu á vegginn.

Það þarf líka að vinna alla þessa „leiðinlegu“ vinnu, áður en nýr vefur er settur upp, þ.e. ef eitthvað á að vera í hann spunnið. Til dæmis þarf að skilgreina markhópa, ákveða hvernig leiðakerfið og veftréð eiga að líta út og huga að efni og skipulagi þess. Einnig er gott að heyra í notendum, til dæmis með viðtölum eða könnunum.

Næstu skref hjá mér verða þessi:

  • Setja upp framkvæmdaáætlun eða tímalínu verkefna.
  • Setja saman grunn að efninu sem verður á vefnum í upphafi.
  • Ákveða uppsetningu og uppbyggingu efnis.
  • Setja upp veftré.
  • Setja upp netkönnun og fá helstu markhópa (eða fulltrúa úr þeim) til að taka þátt í henni.

Það verður því ekki verkefnaskortur hér á bæ á næstunni!

Halló

og velkomin.

Afmælisdagurinn minn er góður dagur til að skrifa fyrstu færsluna á þennan vef.

Það er kominn tími til að spýta í lófana og keyra þetta verkefni í gang fyrir alvöru ef það á einhverntíma að verða búið.

Þetta verður snilld!

Meira seinna.