[Fellowship-Slovenia] Open source spell

11 Nov 2010


      Pozdrav,
evo, konkretna naloga (tudi za Sterleta in še ona druga dva gospoda iz
JU). :-)
Na Lugos mailing listi smo imeli pred par leti debato na temo opensource
spell checkerja. Ravno danes jo je nekdo obnovil.
Torej, težava je v tem, da je slovar, ki ga uporablja Linux nekoliko
zastarel (manjkajo novejše / dodatne) besede, druga stvar je,da bi bilo
fino narediti en izboljšan spell checker, tezave in grammar checker.
Menda so neki Nizozemci pred par leti začeli razvijati nek grammar
checker, vendar bi morali vanj vnesti slovenska pravopisna pravila.
OK, zdaj pa konkretno.
Treba bi bilo dobiti seznam vseh slovenskih besed (SSKJ) ter pravopis v
neki "računalniški" obliki (v smislu računalniških pravil - tukaj je
treba še konkretno raziskat kaj točno se pravzaprav potrebuje). Zelo
prav bi prišel tudi ročno oblikoslovno označen korpus (gre za precej let
dela, ki ga je vložil ZRC).
Te "baze" pa bi moral dati / dovoliti uporabo ZRC SAZU. Na Lugos mailing
listi je pred leti nekdo zapisal, da to ni preveč verjetno, je pa res,
da se niti ni poskušalo narediti tega.
No, moji argumenti zakaj bi bilo to treba narediti so bili tile:
a) tak projekt je pomemben za ohranjanje slovenskega jezika
b) zapiranje slovarja in pravopisa predstavlja neko obliko privatizacije
jezika, čeprav po drugi strani razumem "lastnika" teh baz, da nad njimi
ohrani coyright oziroma s tem vsaj malo zasluži
c) ZRC je javna ustanova, ki je do tega svojega izdelka zelo verjetno
prišla pretežno s pomočjo javnega financiranja
d) sinergijski učinki, npr. sodišča uporabljajo OOo in bi jim to zelo
prišlo prav,... lahko bi se naredil tudi plugin za MS Word, itd...
No, ker je bila okrog tega menda pred ene 20 leti že velika kregarija
(menda tudi po časopisih), bi predlagal takole.
Nekdo se loti zadeve in ugotovi:
1. kaj od programja ki bi znalo to delat je na voljo (aspell,
http://www.languagetool.org/...)
2. katere "baze" (besede, pravila,...) to programje potrebuje
3. ali bi bilo treba to programje še kaj razviti, kdo to zna (recimo IJS
se je ukvarjal z jezikovnimi tehnologijami)
4. kaj od "baz" sploh obstaja (in kaj je v elektronski obliki)
Potem pa se pride z enim konkretnim predlogom. Recimo:
a) ZRC se zaprosi, da te baze odstopi
b) ministrstvo za kulturo se zaprosi, da baze odkupi in izda pod CC licenco
c) MVZT razpiše projekt razvoja odprtokodnega softwera, ki bi znal delat
grammar checking za različne platforme in programe (OOo, FF, MSOffice,
TB,...).
Ker vidim, da je tukaj precej navdušencev, bi bil zelo vesel, če se
nekdo loti zbiranja teh informacij. Malo se bo verjetno treba sprehodit
po raznih ustanovah. Jaz sem žal časovno precej na tesnem, lahko pa
pomagam pri pisanju kakšnih dopisov ali dokumenta, ki bi povzel stanje
in ponudil možne rešitve. Podatkov pa žal ne utegnem zbirat.
Ni vrag, da se zadeva ne premakne. Če se pa ne, se bo vsaj vedelo na čem
smo. In konec koncev je to tudi možno izhodišče za kakšno akcijo javnega
pritiska.
Kaj pravite?
lp, M.

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

[Fellowship-Slovenia] Open source spell