Inteligentný slovník slovenských slov - časté otázky

V tejto časti nájdete odpovede na časté otázky ohľadom databázy slovenských slov (resp. inteligentného slovníka slovenských slov, ako tento projekt nazývame). Okrem uloženého zoznamu slov v databáze totiž dokáže poskytnúť informácie aj o ďalších slovách, ktoré nie sú súčasťou databázy. Vďaka algoritmom umelej inteligencie sa dokáže veľmi rýchlo naučiť nové slová alebo tiež odhaliť zložené slová :)


Naším hlavným cieľom je vytvoriť plnohodnotnú databázu slovenských slov navonok fungujúcu ako slovník slov. Či už pre vzdelávanie alebo aj pre spracovanie slovenského textu. Takýto (inteligentný) slovník slovenských slov by mal poskytovať informácie o slovnom druhu slova, gramatických kategóriách slova v prípade ohybných slovných druhov, informácie o stupňovaní slova a vzory slov.
O spustení tejto sekcie sme veľa rozmýšľali a dlho ju plánovali. Podľa našich informácii v súčasnosti neexistuje databáza slov, ktorá by obsahovala informácie o tvaroch a gramatických kategóriách slov v dostatočnej kvalite, a preto ju budeme postupne budovať.
Bohužiaľ, správnosť na 100% sa zaručiť nedá: pri tak veľkom počte slov sa mohlo niečo nevšimnúť. Všetky identifikované chyby a preklepy však priebežne opravujeme a pri každom slove je možné nahlásiť chybu.
Špeciálnou časťou je experimentálny nástroj, ktorý sa snaží odhadnúť informácie o slovách, ktoré ešte nie sú v slovníku. Ten môžete spustiť v prípade, že hľadané slovo (napr. nové slovo svojka alebo slová vzniknuté spojením ultrarýchly, ultramaratón ) nie je v slovníku identifikované, pričom sa bežne používa. Tento experimentálny nástroj je schopný informácie o slove automaticky odhadnúť, ale pri týchto slovách sa zobrazuje upozornenie o tom, že tvary slov sú odhadnuté. Slovník okrem toho obsahuje viacero inteligentných režimov, ktorými sa snaží odvodzovať nové slová a vďaka tomu dokáže určovať aj vlastnosti neznámych slov (napríklad slová, ktoré vznikajú predponami, spájaním a pod.).
Pri vytvorení prvotnej verzie databázy slov sme využili korpusy voľne dostupných textov z internetu (napr. z encyklopédie Wikipédia). Tvary slov sme určili pomocou zoznamu slov z projektu sk-spell (http://www.sk-spell.sk.cx), ktorý sa zameriava na podporu slovenčiny v Open Source programoch. Zvyšná čast bola získaná z korpusov a ich tvary odvodené lingvistickými pravidlami na základe podobnosti (napr. slová učenie a líčenie sú dostatočne podobné, aby sa dali odvodiť pravidlá pri tvorbe slov.) V skutočnosti nejde ani tak o databázu slov (tá nie je veľmi veľká), ale o inteligentné vlastnosti slovníka, ktorý dokáže na základe dostupných dát informácie o slovách vypočítať. To je hlavný dôvod, prečo používame názov inteligentný slovník slovenských slov, a nie databáza slov (databáza tvorí len malú časť slovníka, zaujímavejšie sú schopnosti aplikácie, ktorá dáta počíta). Pre validáciu správnosti mnohých slov a tvarov bola použitá morfologická databáza dostupná na stránkach SAV (http://korpus.juls.savba.sk/morphology_database.html).
Pre vyhľadanie slova v slovníku musíte zadať jeho základý tvar (nazývaný tiež lema slova). Lema slova je slovníkový tvar slova a jeho formát záleží od slovného druhu:
  • Základný tvar podstatného mena je tvar v nominatíve jednotného čísla (napr. matka, otec, dieťa). Ak slovo neexistuje v jednotnom čísle (napr. pomnožné podstatné mená), tak je základný tvar nominatív množného čísla (napr. nohavice).
  • Základný tvar prídavného mena je tvar v mužskom rode a v nominatíve jednotného čísla (napr. pekný)
  • Základný tvar zámen je v nominatíve jednotného čísla (napr. ja), ak taký tvar neexistuje tak v nominatíve množného čísla (napr. my)
  • Základný tvar čísloviek je v nominatíve jednotného čísla (napr. jeden), ak taký tvar neexistuje tak v nominatíve množného čísla (napr. dva, tri)
  • Základný tvar slovesa je v neurčitku (napr. čítať, kresliť, učiť, skloňovať, časovať ...)

Pri hľadaní slov môžete, ale nemusíte, uviesť prepdonu ne- (napr. pri slove neporiadok). Pri použití predpony ne- náš vyhľadávač slov túto predponu sám identifikuje. V slovenčine je však lema slov vždy bez predpony (teda lema pre slovo nečítať je čítať rovnako ako lemma pre slovo neporiadok je poriadok). Takže pri testovaní svojich znalostí zo slovenčiny formou hier pre učenie slovenského jazyka je potrebné uvádzavať skutočnú lemu (bez predpony).

Slovník je inteligentný a nespolieha sa len na databázu slov. Okrem detekcie predpôn ne- a odhadovania tvarov pre neznáme slová dokáže identifikovať aj zložené slová, ktoré sa skladajú z viac slov:

Ak ste slovo v slovníku slov nenašli, najskôr si overte, či zadávate slovo v základnom tvare (vysvetlenie v predchádzajúcej otázke). Pokiaľ slovo v slovníku nie je, tak nám môžete poslať návrh na jeho vloženie.

Nie je to nutné, ale je to lepšie. Ak uvediete slovo bez diakritiky, zobrazí sa zoznam všetkých možných slov (napr. slovo pracka, pračka, práčka alebo rola, roľa). Na veľkosti písmen tiež nezáleží, ale keď sa nájdu dve slová líšiace sa len vo veľkosti písma (napr. Viera, viera), je potrebné medzi tvarmi vybrať. Ak vyhľadávač žiadne slovo nenájde, pokúsi sa zobraziť aspoň podobné slová.

V slovenčine sa často stáva, že má jedno slovo viacero významov a v každom význame má rozne gramatické kategórie: Pre každý výskyt slova uchovávame samostatný záznam.
Okrem známych vzorov slov (chlap, hrdina, dub, stroj, mesto, srdce, vysvedčenie, dievča, žena, ulica, dlaň, stroj) sa občas používajú aj menej známe vzory ako gazdiná, kuli a idea. Aj keď sa nie vždy o týchto vzoroch učí na školách, najmä pre určovanie tvarov cudzích slov sa zvyknú občas používať.
Pokojne nás oslovte, napíšte komentár do diskusného fóra alebo kontakt nájdete v sekcii redakcia. Akékoľvek námety na zlepšenie sú vítané.