[ostatní] Ceska databaze slov pro kontrolu pravopisu

C++, C#, Visual Basic, Delphi, Perl a ostatní

Moderátor: Moderátoři Živě.cz

Odeslat příspěvekod Lukáš Mach 29. 5. 2005 21:19

Dobry den,

zkousel jsem si naprogramovat vlastni kontrolu pravopisu (nic sloziteho, jen na uceni prace s databazi). Ted bych potreboval nejaky soubor s ceskymi slovy.

Stahnul jsem si neco ze stranek pspadu, jenze to je az moc obsahle (rozbalene = 4 MB) a moje parodie na pocitac to nezvlada (do MySQL se veslo jen 350 000 slov a pak to konci errorem, ale o to nejde). Potreboval bych spis neco o rozsahu spellcheckeru pro ceskou verzi Mozilly, ale z xpi souboru to neumim vykopat. Nevite o nejakem zdroji?
I still trust Half-blood Prince.
Lukáš Mach
Junior
Uživatelský avatar

Odeslat příspěvekod JanFiala 30. 5. 2005 04:59

[quote="Lukáš Mach"tDobry den,
Stahnul jsem si neco ze stranek pspadu, jenze to je az moc obsahle (rozbalene = 4 MB) a moje parodie na pocitac to nezvlada (do MySQL se veslo jen 350 000 slov a pak to konci errorem, ale o to nejde). Potreboval bych spis neco o rozsahu spellcheckeru pro ceskou verzi Mozilly, ale z xpi souboru to neumim vykopat. Nevite o nejakem zdroji?[/quote]

1. pokud neco vykradam (i kdyz z free programu), je slusne se zeptat. Viz licence k PSPadu

2. pouzivat na kontrolu pravopisu jakoukoliv databazi (myslim SQL) je nesmysl, protoze to bude silene pomale. Musis si to napred nacist do nejake pametove struktury a z te k tem slovum pristupovat.
Co můžeš udělat dnes, odlož na včerejšek
JanFiala
Expert
Uživatelský avatar

Odeslat příspěvekod Juraj(smazano) 30. 5. 2005 06:36

ak by si chcel silou mocou robit nieco uzitocne a pouzitelne, mozes skusit spravit kontrolu pravopisu pouzitim narodneho korpusu. Staci napisat vasej akademie vied (u nas je to Slovenska akademia vied) a vysvetlit im, co potrebujes.
Juraj(smazano)
Kolemjdoucí

Odeslat příspěvekod ondra11 (novy) 30. 5. 2005 06:53

Obycejne se na jednoduchou kontrolu pravopisu pouziva DAWG - neboli faktorovy automat. Neni nic jednodussiho nez si to naprogramovat. I kdyz mam databazi nekterych ceskych slov i na oraclu (750 000). (Jinak muzes cesky pravopis samozrejme stahnout z nejakeho open-source projektu... napriklad ispell)
ondra11 (novy)
Junior

Odeslat příspěvekod Lukáš Mach 30. 5. 2005 15:22

Diky za reakci,

JanFiala píše:1. pokud neco vykradam (i kdyz z free programu),


Nejak nevim, co vykradam. Jak jsem rikal, chci to pouzit jen tak z legrace pro studijni ucely, coz autorsky zakon povoluje. Mimoto pouziti slova "vykradat" vypada, jako kdybych k tomu musel vynalozit nejakou specialni aktivitu, ale ja stahnul .dic soubor a rozbalil ho...

JanFiala píše:je slusne se zeptat.


Mne prislo lepsi se zeptat, az kdyz zjistim, jestli to chci pouzit.

JanFiala píše:Viz licence k PSPadu


Pri stahovani slovniku licenci PSPadu nepotkam.

JanFiala píše:pouzivat na kontrolu pravopisu jakoukoliv databazi (myslim SQL) je nesmysl, protoze to bude silene pomale. Musis si to napred nacist do nejake pametove struktury a z te k tem slovum pristupovat.


No ja to chci delat v PHP a se s velkymi poli zas tak dobre nepracuje (PHP si vytvari kopie, coz zvysuje pametovou narocnost).
Naposledy upravil Lukáš Mach dne 30. 5. 2005 15:28, celkově upraveno 1
I still trust Half-blood Prince.
Lukáš Mach
Junior
Uživatelský avatar

Odeslat příspěvekod Lukáš Mach 30. 5. 2005 15:26

Juraj píše:ak by si chcel silou mocou robit nieco uzitocne a pouzitelne, mozes skusit spravit kontrolu pravopisu pouzitim narodneho korpusu. Staci napisat vasej akademie vied (u nas je to Slovenska akademia vied) a vysvetlit im, co potrebujes.


Diky, s tim korpusem je to zajimavy napad. Jestli se nepletu, tak v nem ale jsou i nespisovne, hovorove a nespravne vyrazy (vzhledem k tomu, ze je tam celkem presny zaznam z TV, dopisu, radii, ...)

ondra11 píše:Obycejne se na jednoduchou kontrolu pravopisu pouziva DAWG - neboli faktorovy automat. Neni nic jednodussiho nez si to naprogramovat. I kdyz mam databazi nekterych ceskych slov i na oraclu (750 000). (Jinak muzes cesky pravopis samozrejme stahnout z nejakeho open-source projektu... napriklad ispell)


Diky, zajimave. Ja si rikal, ze bych z toho slovniku sestavil trie, ale moc tomu nerozumim, tohle je urcite lepsi.
I still trust Half-blood Prince.
Lukáš Mach
Junior
Uživatelský avatar

Odeslat příspěvekod JanFiala 30. 5. 2005 18:12

[quote="Lukáš Mach"tMne prislo lepsi se zeptat, az kdyz zjistim, jestli to chci pouzit. [/quote]

Pak je to v poradku, stejne bych ti to povolil. Jen mi to pripada jako slusnost.

Pokud budes pri kontrole pravopisu hledat kazde slovo pomoci dotazu v databazi, bude to silene pomale.
K te pametove narocnosti. Otazkou je, zda je lepsi mit zabranych 20MB pameti a funkcni kontrolu pravopisu nebo mit male naroky na pamet a nepouzitelnou kontrolu pravopisu.

Predstav si, ze mas stranku, ktera ma 60 radku, na kazdem radku 20 slov. To je 1200 dotazu do tabulky, ktera nemuze byt ani poradne indexovana, protoze pokud jsou vsechny zaznamy odlisne, index ztraci vyznam - vlastne ti opise obsah sloupce.

Vykon zvysis treva vytvarenim Hashe slov, pak porovnavas cisla, coz je mnohokrat ryhclejsi nez retezce, popr. vytvorit index jen na jedno nebo 2 pvni pismena apod.
Co můžeš udělat dnes, odlož na včerejšek
JanFiala
Expert
Uživatelský avatar

Odeslat příspěvekod cache 30. 5. 2005 18:24

Lukáš Mach: imho bude najefektivnejsie pouzitie si "offline" skonvertovat tu databazu do takehoto formatu:
Kód: Vybrat vše
<?
$cz_lang= array(
   "abakus" => 1,
   "abakusový" => 1,
...
   "úředníčkem" => 1
)
?>
[/cod
to subor includovat a potom hladat napr. tymto sposobom:
Kód: Vybrat vše
if (!$cz_lang[$slovo]) { echo "zle slovo" }


JanFiala: nevadilo by, ak by som si aj ja tie slovniky pre svoju potrebu pouzil? :)
Můj bože, to je budoucnost! Mí rodiče, přátelé, má dívka.. Už je nikdy neuvidím.. JUPÍÍÍÍÍÍ! (Fry s1e1)
cache
Pokročilý
Uživatelský avatar

Odeslat příspěvekod JanFiala 30. 5. 2005 18:50

cache píše:JanFiala: nevadilo by, ak by som si aj ja tie slovniky pre svoju potrebu pouzil? :)


Nevadilo :-)
Co můžeš udělat dnes, odlož na včerejšek
JanFiala
Expert
Uživatelský avatar

Odeslat příspěvekod cache 30. 5. 2005 19:37

JanFiala píše:Nevadilo :-)

Super, tak sa hned aj musim podelit, ako mi to slape ;)

vstupny formular:
Obrázek

vysledok:
Obrázek

len je to pomerne pomale ;)

p.s. ide mi to zatial len doma, neviem ci sa to oplati dat niekam na web, este by ma zavrazdili za to ze kazda kontrola schrumne par MB pamate ;)

//edit: menil som umiestnenie screenshotov..
Můj bože, to je budoucnost! Mí rodiče, přátelé, má dívka.. Už je nikdy neuvidím.. JUPÍÍÍÍÍÍ! (Fry s1e1)
cache
Pokročilý
Uživatelský avatar

Odeslat příspěvekod JanFiala 30. 5. 2005 20:06

Co se tyka obsahu slovenskeho slovniku, tak stiznosti ke svym krajanum. Ja jsem delal cesky slovnik a stalo me to nekolik desitek hodin prace - napsat si utilitu, ktera bude vybirat nezarazena slova, prohanet to tunami eletronickeho textu, probirat se desetitisici novych slov a vyhazet odpad...

Proto jsem reagoval tak, ze by bylo aspon slusne se zeptat...
Co můžeš udělat dnes, odlož na včerejšek
JanFiala
Expert
Uživatelský avatar

Odeslat příspěvekod cache 30. 5. 2005 20:13

JanFiala píše:Co se tyka obsahu slovenskeho slovniku, tak stiznosti ke svym krajanum. Ja jsem delal cesky slovnik a stalo me to nekolik desitek hodin prace - napsat si utilitu, ktera bude vybirat nezarazena slova, prohanet to tunami eletronickeho textu, probirat se desetitisici novych slov a vyhazet odpad...

Proto jsem reagoval tak, ze by bylo aspon slusne se zeptat...

Ja sa nestazujem :!: Len som poukazoval ;)
Ale ked si najdem viac casu, tak ma napadlo, ze po prestudovani funkcnosti slovnika v oo.org by sa dal pouzit ten :)
Můj bože, to je budoucnost! Mí rodiče, přátelé, má dívka.. Už je nikdy neuvidím.. JUPÍÍÍÍÍÍ! (Fry s1e1)
cache
Pokročilý
Uživatelský avatar

Odeslat příspěvekod JanFiala 30. 5. 2005 20:30

Nebo treba muzes vyuzit ISpell
podobnych projektu je vic...
Co můžeš udělat dnes, odlož na včerejšek
JanFiala
Expert
Uživatelský avatar


Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 0 návštevníků