Aineiston selailu ja haku Doriassa

 

Aineistoa voi etsiä joko selaamalla tai suorittamalla hakuja.

Selaus

Dokumentteja voidaan selata nimekkeen, julkaisuajan, tekijän tai asiasanoituksen mukaan. Linkit selaukseen löytyvät Dorian vasemmasta sivupalkista. Jos haluat selata vain tietyn kokoelman sisältämiä dokumentteja, siirry ensin haluttuun kokoelmaan ja valitse vasta sitten haluamasi selaustapa. Etusivulla oltaessa selaus kohdistuu kaikkiin Doriassa oleviin dokumentteihin.

 

Haku ja sen syntaksi

Dorian käyttää Lucene hakumoottoria ja haku on sen mukainen. Lisää ohjeita syntaksista on saatavilla esimerkiksi täältä.

Myös haun voi kohdistaa tiettyyn kokoelmaan tai koko aineistoon. Kohdistus valitaan hakukyselylle tarkoitetun tekstilaatikon alapuolelta. Pääsivulla valinta ei ole näkyvissä, haku kohdistuu silloin aina koko aineistoon. Haku etsii sekä dokumentin metadatakenttien sisältöä, että dokumentin kokotekstiä. Aivan kaikissa töissä hakua ei saada ulottumaan kokotekstiin tiedoston rajoitusten vuoksi, mutta tämä on onneksi harvinaista. Hakusyntaksi ei tee eroa isojen ja pienten kirjainten välillä.

 

Hakusyntaksin käytössä olevat varatut merkit.

Hakusyntaksi käyttää erityismerkityksessä seuraavia merkkejä:

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \

Jos haettava sana tai fraasi kuitenkin sisältää varatun merkin, sen erityismerkityksen voi kumota asettamalla \ -merkki välittömästi ennen varattua merkkiä.

 

Sana / fraasihaku.

Yleisimmin käytetyssä ja yksinkertaisimmassa hakutavassa hakutermi muodostetaan yhdestä tai useammasta sanasta. Jos hakutermissä on useampi sana, niiden kaikkien tulee esiintyä dokumentissa. Fraasi, eli sanayhtymä ilmaistaan lainausmerkkien sisällä. Sanojen eteen voi myös lisätä plus (+) tai miinus (-) –merkin. Plussalla varustetut sanat on löydyttävä ja miinuksella varustetut eivät puolestaan saa löytyä dokumentista.

           

Esimerkki: takka kamiina patteri lämmitys

 

Kaikki nämä neljä sanaa tulee esiintyä metadatassa tai kokotekstissä, jotta dokumentti esiintyy hakutuloksessa.

 

Esimerkki: julkinen valta” +koulu -hallitus

 

Lainausmerkkien sisällä oleva fraasi ”julkinen valta” on esiinnyttävä tarkalleen samalla tavalla dokumentissa. Lisäksi sanan ”koulu” on löydyttävä ja sanaa ”hallitus” ei saa löytyä dokumentista.

 

Booleanhaku

Hauissa voi käyttää loogisia operaattoreita AND, OR ja NOT. Huomaa, että nämä operaattorit tulee kirjoittaa isoilla kirjaimilla. Sulkeita voi käyttää muuttamaan operaattoreiden presedenssiä, eli suoritusjärjestystä. AND, OR ja NOT operaattoreiden sijaan voi käyttää myös &&; || ja !, merkkejä, vastaavassa järjestyksessä.

 

Esimerkki: leikkaus OR editointi NOT potilas

 

Sana leikkaus tai editointi tulee esiintyä, mutta ei potilas –sanaa.

 

Esimerkki: kirurgia ||  (leikkaus && sairaala) ! editointi

 

Kirurgia tai vaihtoehtoisesti sekä leikkaus, että sairaala –sanojen tulee esiintyä, mutta editointi sanaa ei saa esiintyä.

 

Kenttähaku

Haun voi kohdistaa myös suoraan indeksoituihin metadatakenttiin. Kaikki kentät eivät ole indeksoitu. Kohdennus metadatakenttään tehdään hakualiaksien avulla. Hakualiakset ja niitä vastaavat Dublin Core -kentät on listattu alla:

abstract -> dc.description.*
author -> dc.contributor.author
author -> dc.creator.*
identifier -> dc.identifier.*
keyword -> dc.relation.*
keyword -> dc.subject.*
title -> dc.title.*
date -> dc.date.issued
type -> dc.type.*
language -> dc.language.*
author -> dc.contributor.dis
author -> dc.contributor.prt
author -> dc.contributor.editor
inputdate -> dc.date.accessioned
yomatrikkeli -> doria.relation.yomatrikkeli
tyyppi -> dc.type.*
subject -> dc.subject.*
series -> dc.relation.ispartofseries
mainwork -> dc.relation.ispartof
publisher -> dc.publisher.*
rights -> dc.rights.*
format -> dc.format.*
contributor -> dc.contributor.*
programme -> dc.programme

Lukuohje: Alias on rivillä ensimmäisenä, esim. author ja nuolen jälkeen Dublin Core -kenttä, johon alias osoittaa. Alias voi osoittaa myös useampaan metadatakenttään, kuten esim. author-aliaksen tapauksessa. *-merkki Dublin Coren elementti-osuuden jälkeen tarkoittaa sitä, että alias viittaa kaikki mahdollisiin tarkentimiin (Dublin Core qualifiereihin), esim. title viittaa dc.title -kenttään, mutta myös esim. dc.tite.alternative -kenttään.

 

Haussa ilmoitetaan haluttu kenttä ja välittömästi kentän jälkeen annetaan kaksoispiste ja haettava sana tai fraasi.

 

Esimerkki: author:heidi AND date:2006

 

Haettiin kaikki Heidi -nimisten tekemät työt, jotka on kirjattu vuodelle 2006

 

Esimerkki: identifier:URN\:NBN\:fi\:ula-20115131119

 

Haettiin julkaisua, jonka URN-tunnus on URN:NBN:fi:ula-20115131119. Huom! Koska URN-tunnus sisältää varattua merkkejä (aliashakuun tarkoitettu kaksoispiste), niiden erityismerkitys piti kumota \ -merkillä. Lista kaikista varatuista merkeistä ylempänä ohjeissa.

 

Kenttähaussa voi myös niputtaa useamman hakutermin sulkeiden avulla.

           

Esimerkki: abstract:(”kasvojen hoito” kosmetologia)

 

Tiivistelmässä tulee esiintyä fraasi ”kasvojen hoito” ja sana kosmetologia.

 

Wild card -haku

Hakutermien sanoista voi jättää osan kirjaimista avoimeksi. Yksittäinen kirjain voidaan korvata kysymysmerkillä (?) ja useampi kirjain asteriskilla (*): Esimerkiksi a?to täsmää sanoihin auto, aito, Arto yms. Ilmaisu a*to voi puolestaan täsmätä edellisten lisäksi sanoihin aalto, asunto, Antto, aatto yms.

 

Sumeahaku

Haussa voi käyttää epätarkkoja hakukriteerejä yksittäisiä sanoja esitettäessä. Tästä on hyötyä esimerkiksi silloin, kun tiedetään sanan muoto vain suurin piirtein. Tällöin sanan perään annetaan tilde (~) –merkki. Esimerkiksi Burkina Fason pääkaupunkia etsiessä virheellinen muoto Ougadapougou~ täsmää oikeaan muotoon, Ouagadougou, vaikka hakutermissä oli kaksi kirjainta eri tavalla. Huomattavaa on myös, että hakusanan ei välttämättä tarvitse olla samanpituinen kuin tulossanan, esim. sanker~ voi täsmätä sanaan shankar. Tämä sumea täsmäystapa pohjautuu Levenshteinin etäisyys –algoritmille (kutsutaan joskus myös editointietäisyys-algoritmiksi).

 

Läheisyyshaku

Jos halutaan etsitä dokumenttia, jossa tiettyjen sanojen tulee esiintyä tekstissä lähellä toisiaan, käytetään sumeassakin haussa käytettyä tilde (~) –merkkiä, mutta eri tavalla:

 

Esimerkki: ”auto korjaus” ~5

 

Etsittiin siis dokumenttia, jossa sanat ”auto” ja korjaus” esiintyvät korkeintaan viiden sanan etäisyydellä toisistaan.

 

Relevanssihaku

Hakutermin merkittävyyttä hakutuloksessa voi korostaa antamalla sanan perään ^ –merkin ja painoarvon numerona.

 

Esimerkki: liikunta^5 terveys ^2 kunto

 

Yllä haettiin tietoa liikunnasta ja erityisesti sen vaikutuksista terveyteen, mutta myös kuntoon. Haussa ilmaistaan, että hakutulokseen halutaan suurin painoarvo liikunta-sanalle, toiseksi suurin terveys –sanalle ja kunto –sanan esiintyminenkin on haussa plussaa, mutta ei niin merkittävä sana kuin edelliset.