Pozdrav,
evo, konkretna naloga (tudi za Sterleta in še ona druga dva gospoda iz JU). :-)
Na Lugos mailing listi smo imeli pred par leti debato na temo opensource spell checkerja. Ravno danes jo je nekdo obnovil.
Torej, težava je v tem, da je slovar, ki ga uporablja Linux nekoliko zastarel (manjkajo novejše / dodatne) besede, druga stvar je,da bi bilo fino narediti en izboljšan spell checker, tezave in grammar checker. Menda so neki Nizozemci pred par leti začeli razvijati nek grammar checker, vendar bi morali vanj vnesti slovenska pravopisna pravila.
OK, zdaj pa konkretno.
Treba bi bilo dobiti seznam vseh slovenskih besed (SSKJ) ter pravopis v neki "računalniški" obliki (v smislu računalniških pravil - tukaj je treba še konkretno raziskat kaj točno se pravzaprav potrebuje). Zelo prav bi prišel tudi ročno oblikoslovno označen korpus (gre za precej let dela, ki ga je vložil ZRC).
Te "baze" pa bi moral dati / dovoliti uporabo ZRC SAZU. Na Lugos mailing listi je pred leti nekdo zapisal, da to ni preveč verjetno, je pa res, da se niti ni poskušalo narediti tega.
No, moji argumenti zakaj bi bilo to treba narediti so bili tile: a) tak projekt je pomemben za ohranjanje slovenskega jezika b) zapiranje slovarja in pravopisa predstavlja neko obliko privatizacije jezika, čeprav po drugi strani razumem "lastnika" teh baz, da nad njimi ohrani coyright oziroma s tem vsaj malo zasluži c) ZRC je javna ustanova, ki je do tega svojega izdelka zelo verjetno prišla pretežno s pomočjo javnega financiranja d) sinergijski učinki, npr. sodišča uporabljajo OOo in bi jim to zelo prišlo prav,... lahko bi se naredil tudi plugin za MS Word, itd...
No, ker je bila okrog tega menda pred ene 20 leti že velika kregarija (menda tudi po časopisih), bi predlagal takole.
Nekdo se loti zadeve in ugotovi: 1. kaj od programja ki bi znalo to delat je na voljo (aspell, http://www.languagetool.org/...) 2. katere "baze" (besede, pravila,...) to programje potrebuje 3. ali bi bilo treba to programje še kaj razviti, kdo to zna (recimo IJS se je ukvarjal z jezikovnimi tehnologijami) 4. kaj od "baz" sploh obstaja (in kaj je v elektronski obliki)
Potem pa se pride z enim konkretnim predlogom. Recimo: a) ZRC se zaprosi, da te baze odstopi b) ministrstvo za kulturo se zaprosi, da baze odkupi in izda pod CC licenco c) MVZT razpiše projekt razvoja odprtokodnega softwera, ki bi znal delat grammar checking za različne platforme in programe (OOo, FF, MSOffice, TB,...).
Ker vidim, da je tukaj precej navdušencev, bi bil zelo vesel, če se nekdo loti zbiranja teh informacij. Malo se bo verjetno treba sprehodit po raznih ustanovah. Jaz sem žal časovno precej na tesnem, lahko pa pomagam pri pisanju kakšnih dopisov ali dokumenta, ki bi povzel stanje in ponudil možne rešitve. Podatkov pa žal ne utegnem zbirat.
Ni vrag, da se zadeva ne premakne. Če se pa ne, se bo vsaj vedelo na čem smo. In konec koncev je to tudi možno izhodišče za kakšno akcijo javnega pritiska.
Kaj pravite?
lp, M.