Rangado – Vortstatistika ekzamenado de la plurlingva teksto de la konstitucipropono de Eŭropa Unio

Bujdosó Iván

Temo: Korpuslingvistiko, lingvoteknologio

Temeroj: eŭropaj lingvoj; Esperanto; Zipf-leĝo; korpusvolumeno; simileco de la statistikaj proprecoj de la finnugraj lingvoj

La evoluo de la komputaj rimedoj

En la pasintaj 10 jaroj la disvastiĝo de la personaj komputiloj donis novan elanon al la vortstatistikaj esploroj (hungare: Dominich 2005, Esperante: Gledhill 1998).  

1.         Dum pasinteco oni nefacile kaj multekoste povis akiri komputivon, nune la uzado de maŝinoj de granda komputivo estas ĉiutaga afero.

2.         Eksterordinare kreskis la kvanto de la tekstoj storitaj en elektronikaj formoj.

3.         La statistikaj programoj hodiaŭ jam estas konsistigaj partoj de la oficejaj programoj.

Ĉio ĉi ebligas, ke ni povu registri kaj analizi per komputaj rimedoj la okazaĵojn de la ĉiutaga vivo.

La vortstatistikaj esploroj ĝis nun okazis iniciatite de privataj ambicioj, ne de ŝtate apogitaj institutoj. Do la afero estas same, kiel ĉe Esperanto. Subite ni trovas, ke aperis potencaj rimedoj.

 El mia propra praktiko mi mencias kelkajn ekzemplojn. Ni prenu unu el mia profesia vivo, kiel lekciisto ĉe la katedro Aplikata Lingvistiko, ELTE, Budapest.

La analizaj programoj aperas ĉie en la studmaterialoj kaj ankaŭ en la ĉiutaga vivo

La komputado aperas ankaŭ ĉe la instruado de studobjektoj pri aplika lingvistiko. Tia estas „Komputa lingvistiko”, „Mezurado kaj taksado de la lingva kapablo”, „Lingvopedagogia teknologio” kaj „Lingvaj studplanoj kaj studmaterialoj”, ĉe kiuj la analizaj metodoj baziĝantaj pri la komputado ludas gravan rolon. La samajn studobjektojn mi faras ankaŭ ce Esperanto-fako, ne hungare, sed nature Esperante.

Mi planas, ke ekde la sekva semestro mi anoncos nedevigan studobjekton: Zipfa leĝo kaj lingvokomputado. Ĝi celus komparan prilaboron de paralelaj tekstoj.

La komputado estas uzebla ankaŭ en la privata vivo. Estas grava la sankonscia vivstilo. Se iu ricevas ekzemple sangtensi-malpliigan medikamenton de la kuracisto, tiu povas kalkuli la efikecon de la kuraca periodo per la t-pruvo, se oni registradas la mezuraĵojn de la komenco ĝis difinita tempo. Tio signifas enskribon de kelklitera matematika simbolo kaj kelkajn musmovojn.

La analizaj programoj ĉe la lingvoekzamenejo

Kiel sciate en Hungario ĉiujare pluraj miloj da homoj faras ŝtate aprobitan ekzamenon pri Esperanto. Mi intence ne diras konkretan ciferon, ĉar en la ekzamenejo oni kalkulas laŭ la enpagita ekzamenkotizo. Kaj bedaŭrinde estas tiuj, kiuj nur enpagas la kotizon, sed ne aperan ĉe la ekzameno kaj estas alia parto, kiu sensukcese aperas ĉela ekzameno kaj post unu monato ŝli denove anoncas sin al ekzameno, tiel „plibonigante” la statistikon. La enpagoj estas ĉirkaŭ 5000 ĉiujare por Esperanto. La nomro de ekzamenitoj estas tiom granda, ke oni povas la datumojn statistike prilabori kaj eble tiri konkludojn.

En ĉiuj studlibroj pri statistikaj studoj oni supozas, ke la distribuo estas normala, ĉar por tia distribu estas ellaboritaj esploraj metodoj. Se la nombro de statistikaj datumoj estas grandaj, tiam eĉ bone funkcias tiuj analizaj programoj, kiuj estis ellaboritaj, ni diru, por la ideala normala distribuo.

Jen statistika bildo pri tiu ĉi temo, kion mi faris por mia PhD-disertaĵo defendita en 2004. Vi povas konsulti la detalan dulingvan enhavtabelon kaj la tutan tekston en la hungara. La bildo montras interesajn aferojn. Ni rigardu iom da ili. La sukcesa ekzameno estas 60 poentoj el la 100 poentoj. Estas relative multe da malsukcesaj ekzamenitoj, kiuj atingas ĉirkaŭ 24 poentojn. Estas tre sukcesaj, kiuj pli ol atendite atingas super 90 poentoj. Kaj ĉe la sukceslimo 56-64 estas iom malpli ol atendite.

 

 

 

Tradukhelpa programo

Por paroli ne nur pri statistikaj programoj, ni rigardu tian universitatan aktivadon, kian verŝajne ĉiuj universtataj lekciistoj povus proponi, sendepende de tio, ĉu tie estas Esperanto-fako, lingvoekzameno aŭ tute ne. Mi petas vin, provu apliki tian ĉi aferon al viaj cirkonstancoj.

Inter miaj instruistaj aktivadoj estas la plej ŝatata la de mi elpensita studobjekto „Lingvoinstruado kaj hejmpaĝredaktado”. Mi demandis min, kiom da instruista helpo estas bezonata por universitata studento – kiu ja estas verŝajne pli inteligenta ol la averaĝo – por povigi ŝlin traduki Esperantlingvan fakan tekston. Ni sciu, ke ekzistas en interreto programo tradukanta el Esperanto en la hungaran (esperanto.hu/szotar). La programo donas la signifon de ĉiuj vortoj kaj krome ĝi klarigas ĉiujn konsistigantajn morfemojn kaj gramatikajn signojn.

Se la teksto ne estas tro komplika, studento povas traduki la tekston sen antaŭkono de Esperanto kaj sen instruista helpo. Por logi la studentojn ajnfakajn de ELTE mi anoncas la kurson kun la titolo: „Lingvoinstruado kaj hejmpaĝredaktado”. La prilaborenda materialo estas la hejmpaĝredakta kurso de Franko Luin. Ĝi ampleksas 10 lecionojn, po 2÷3 paĝoj da tekstoj (esperanto.se/htmlkurso).

Post la kvara fojo de la sukcesa seminaria duonjaro mi komencis analizi la materialon de la kurso kaj mi konstatis, ke la 10 lecionoj enhavas entute nur 555 morfemojn. La studentoj povas eĉ parkerigi tiujn vortojn dum duono da jaroj aŭ tiujn vortojn, kiuj estas pli oftaj.

Krom la vortoj estas la specialaj lingvaj rimedoj de Esperanto, kiuj diferencas de la hungara kaj oni devas atenti pri ili. Tiu listo ne estas longa, ĝi estas nur el 12 listeroj.

 

1.   Malplenajn liniojn – agordigo de akuzativo kaj pluralo

2.   Tio/ĝi/tiu  - kiel ili diferencas

3.   Esti uzata/uzita

4.   Volas aperi - volas, ke iu aperu

5.   -il ,-ejo, -ig, -iĝ, -um

6.   kiel plursence

7.   kiu plursence

8.   da, el kiel ili diferencas

9.   sia-propra kiel ili diferencas

10.      kiel formi vortojn, ekzemple: tra-vid-ebl-a, pli-bel-ig-i

11.      frazkonstruado kiel: Estas bona kutimo kompletigi ….

12.      Havi + akuzativo

Hipotezo pri Esperanto

Mi do konvinkiĝis, ke inteligenta studento povas traduki ne tro malfacilan tekston el Esperanto en la hungaran per helpo de komputaj rimedoj. Sed mia opinio ne estas deviga por iu ajn. Estas alipensantoj.

La lingva karakterizo de Esperanto ekestis samtempe kun ĝia naskiĝo. Ĉar Esperanto estas planita lingvo, unue oni pridemandis ĝin pri tio, kiom ĝi plenumas la kriteriojn pretendeblajn de ideala lingvo. La kreantoj de la artefaritaj lingvoj povas elekti inter du konceptoj. Oni povas krei filozofian aŭ laŭ alia nomo apriorian lingvon. Umberto Eco karakterizis tiun ĉi jene: 

„… se ni volas krei karakterojn karakterizantaj aĵojn aŭ ecojn: unue ni bezonas la inventaron de la aĵoj kaj ecoj. Ĉar en la naturaj lingvoj la kvanto de la vortoj estas limigita, sed la kvanto de la aĵoj estas teorie nelimigita (tiuj estas la realaj aĵoj, la mensaj entoj kaj la diversaj neesencaĵoj), tiel la problemo krei realajn karakterojn donas al ni duflankan taskon de kunmeto de signogarnituro jen universala jen iel limigita. Ni devas decidi, kiuj estas la plej ĝeneralaj aĵoj kaj ecoj, poste ni povas difini la devenantajn ecojn laŭ la principo de kunmeto de elementaj proprecoj. Ni devas difini ĉiujn enhavojn esprimeblajn de la lingvoj per „molekulaj” organoj, kiujn semantikaj atomoj aŭ signoj konsistigas” (Eco 1998, 212).    

La esploroj en tiu direkto alportis vere multajn kaj belajn praktikajn partajn rezultojn. Sed tamen ni ne povas atendi ke en la proksima estonteco ia fina rezulto povu naskiĝi. La montrado de aĵoj kaj fenomenoj per modeloj estas ebla nur ĝis certa nivelo. La leĝo pri gravito, kiun konstatis Newton, en la praktiko estas matematike manipulebla nur por du korpoj, la Suno kaj la Tero. Por solvi la tiel nomatan „trikorpan problemon” (la priatenton de la Luno) jam ne estas sufiĉaj niaj matematikaj rimedoj. En tiu ĉi kazo estas bezonata modelo korektita per praktikaj datumoj anstataŭ teoria modelo. 

Tio klarigas, ke la vojo de la kreantoj de artefaritaj lingvoj kondukas al la studado de leĝoj de ekzistantaj lingvoj, la fakta realigo de la tiel akireblaj principoj kaj la elprovado en la praktiko. La ses miliardoj da parolantoj de la ses miloj da lingvoj ne povas erari.

La diskuto okazinta en la komenco de la pasinta jarcento pri la artefaritaj lingvoj ne povis produkti decidigan argumenton kontraŭ Esperanto, ke sur tiu bazo la adeptoj de la komuna lingvo sin estus devigintaj por prilaboro de alitipa artefarita lingvo. Tion ni povas redoni per la vortoj de Meillet: „Ĉia teoria diskuto estas senutila: Esperanto funkcias” (Meillet 1918, 268 citas Eco 1998, 309).

Pri la funkciado de Esperanto ni povas certiĝi en multaj okazoj. Ĉiutage en la jaro aperas almenaŭ unu libro en Esperanto, la retumilo donas plurajn  milionojn da trovoj por la entajpita vorto ’esperanto’. La esperantlingva varianto de interreta libere redaktebla enciklopedio okupas la 16-an lokon inter la lingvoj laŭ la kvanto de la difinitaj vortoj (= 28457 la 14-an de oktobro 2005).

Malgraŭ tio en multaj homoj aperas skrupuloj. Se Esperanto ricevus pli grandan terenon, ĉu ni ekirigus iaspecan Monstron (Golemo en Prago), kiu poste tro forte influus nian vivon. Tiuj timoj eble nur subkonsciaj manifestiĝas en tio, ke oni provas pridubigi la kvaliton de la lingvo, ĝian taŭgecon por la informŝanĝo inter la nacioj. Ke eble tiu ĉi lingvo ne estas simila al la aliaj, ke ĝi iel „ekstervicas”.

Kompardo de lingvoj

La komputilo, la programoj kaj la datumoj fariĝis parto de nia ĉiutaga vivo. La ŝanĝiĝo estas tiel rapida, ke iuj aplikoj naskiĝas ne pere de oficialaj projektoj, sed spontanee. Ankaŭ la ideo de nuna temo naskiĝis tiel. Mi aŭskultis la prelegon de H. Frank pri lingvo-kibernetiko, kie temis pri la temperaturo de iu teksto (Dum AIS-sesio, 2004-8-30, Komarno). Li direktis min al la studoj de Zipf kaj Mandelbrot. Zipfa leĝo studas tiujn fenomenojn kies distribuo ne estas normala, sed estas kelkaj tre oftaj kaj multe da tre maloftaj eventoj. Ekzemple la distribuo de la havaĵoj estas laŭ tiu ĉi, kiel tion montris la itala sciencisto Pareto: 20 procentoj de la loĝantoj posedas 80 procentojn de ĉiuj havaĵoj. La merito de Zipf estis, ke li ordigis la distribuon laŭ ofteca rango kaj ĉefe tio, ke li desegnis tion kun logaritmaj aksoj. Tiam la distribua kurbo fariĝas linia. Oni povas determini la klinon al la akso de tiu ĉi linio.

La du subaj bildetoj montras la distribuon de ĉiuj esperantaj vortoj en la teksto de konstitucio-propono a) kun logaritmaj aksoj b) kun linearaj aksoj. En la kazo a) oni povas bone vidi ke la „kurbo” estas preskaŭ linia pro la konvene elektita prezento.

1-a figuro: La sama distribuo en du diversaj prezentoj

 

Se vi rigardas la dekstran bildeton, vi apenaŭ povas ion ekscii pri la afero. Tion vi tamen vidas tute klare, ke ĝi ne estas laŭ normala distribuo. Tie jam tute ne estas validaj la belaj analizaj metodoj prilaboritaj por la normala distribuo. Ni apliku la Zipfan leĝon. Sed jen la maldekstra bildo montras rekton, kiu havas klinon. Ĝi estas difrenca ĉe ĉiuj lingvoj. Sur tiu ĉi bildo vi vidas la du kurbojn de la vortoj de la Esperantltingva teksto de la konstituci-propono de Eŭropa Unio. Tie vi vidas ekvacion kiel:

y = - 0,9632x + 3,1406

R2 = 0,9668

Ni poste renkontos la emfazitan numeron (=0,9632).

La titolo de mia prelego do povas esti rangigo, aŭ rangado. Mi restis ĉe rangado, ĉar ĝi laŭlitere povas esti la titolo de la sama prelego en la hungara. Fakte mia prelego en la korpuslingvistika sekcio de la kongreso de Asocio de Hungaraj Apliklingvistoj ĉiprintempe titoliĝis tiel ĉi. Vi do pensas, ke vi nun jam ricevas remaĉitan tekston, sed ne estas tiel. Mi pasinoktobre prelegis ĉe nia katedra – tamen tutlanda – konferenco, kaj vi ricevos la rezulton de ambaŭ prelegoj kun valoraj aldonaĵoj.

Iam antaŭ unu jaro mi scivolis, kion mi povus trovi pri tiuj temoj en interreto kaj mi enskribis la vortojn ’esperanto’ kaj ’Zipf’. Je mia surprizo mi ekvidis tie seminarian taskon de iu Usona univesitato. La studentoj, kiuj studas tie komputadon, ricevis la taskon esplori ĉu Esperanto ekstervicas laŭ la vortstatistikaj karakterizaĵoj. Tiu ĉi demando ne estas sen bazo. Se en Esperanto estas kongruo inter la formo de iu vorto kaj ĝia funkcio en la frazo, tiam eble la lingvo montras ian eksterordinaran statistikan proprecon, kvazaŭ ĝiaj tekstoj estus faritaj laŭ la XML-konvencio. Kiel eblas tio, ke studentoj povas legi simplan fakan tekston per vortaro? Tio eblus nur se la teksto estus garnita per kromaj informoj, kiel tion faras la XML-notacio. Por detale informiĝi pri XML, bonvolu enskribiĝi al apliklingvistika fako de ELTE, aŭ legi la prelogojn de Marc Bavant en interreto.

La taskon donanta lekciisto ‘enamiĝis’ al la temo. El la seminaria tasko fariĝis serioza esploro eĉ kun la apliko de la plej evoluinta teorio: artefarita neŭra reto. Ili ekzamenis ses lingvojn: anglan, Esperanton, francan, germanan, italan kaj hispanan. Ĉe ĉiuj lingvoj estis grandega korpuso, ĉe la angla 97 libroj, ĉe Esperanto 34 libroj, entute 283 libroj. La rezulton de la esploro oni konigis en la internacia scienca konferenco de IASTED “Artefarita Inteligento kaj ĝia Apliko” (Manaris et al. 2006). Ĉefaj konstatoj:

a)         Esperanto dum la mallonga, 120 jara historio sufiĉe evoluis por montri „naturajn” statistikajn proprecojn;

b)        Esperanto estas „artefarita”, sed laŭ la statistikaj datumoj oni ne povas diferencigi la naturan kaj la artefaritan lingvojn.

La esploro baziĝis sur la Zipf-leĝo. Oni determinis ĉe ĉiuj lingvoj la kvanton de vortoj, vortduoj, vorttrioj, vortdistancoj kaj la vorlongecoj. La statistikaj proprecoj de Esperanto estis inter la proprecoj de la aliaj kvin lingvoj. Per la apliko de neŭraj retoj oni instruis la analizan sistemon je tio, ke ĝi aŭtomate rekonu la lingvon de iu teksto. La divenado sukcesis plej bone, se oni aplikis la korelacian koeficienton kaj la klinon de la Zipf-linio de la vortdistanco.

Elektado de la esplorota teksto

La supra esploro ekzamenis nur ses lingvojn. Mi trovis tre interesan 21-lingvan materialon sur interreto, kiu ja troviĝas en la titolo de tiu ĉi prelego. Kvankam tiu ĉi materialo ampleksas nur po 35 paĝojn, tamen ĝi havas kelkajn favorajn proprecojn. La tradukadon – certe – oni faris tre zorgeme, ĉar ĝi estas la oficiala dokumento de Eŭropa Unio. Same la esperantlingvan tradukadon faris zorgeme plurlingva internacia grupo. Kaj tie mi devas halti dum minuto kaj sincere danki al geedza paro Ludoviko Molnár kaj Julianna Farkas, kiuj multon faris por la tradukado kaj al István Mészáros, kiu laboris multe por ke la materialo estu libere alirebla en interreto.  La dokumentoj ja tutcerte havas la saman enhavon. Ĝia alia avantaĝo estas la multlingveco, ja ĝi aperis en ĉiuj oficialaj lingvoj de Eŭropa Unio.

Prilaboro de la tekstoj

Mi forigis el la teksto la signojn de dispartigo kaj interpunkciado (indikoj pri paragrafoj, punkto, komo, ktp.). Mi prilaboris la purajn vortojn per la tabelmanipula programo Excel, utiligante la funkciojn: PECO, LOG, HORIZONTALA SERĈO, kaj la desegnadon de la klino de grafikaĵo, tiel determinante la regresan linion. Mi metis la datumojn sur interreton, kie mi prilaboris la esperantlingvan tekston: oocities.com/bujdos xo

La ricevitaj Zipf-koeficientoj montras bonan kongruon kun la rezultoj de Manaris:

kun hispana

Esperanto

itala

franca

hispana

germana

angla

averaĝo, Bujdosó

0,9632

1,0168

1,0423

1,0415

1,0105

1,1108

averaĝo, Manaris

0,9204

0,9947

1,0448

0,9255

0,9745

1,1858

sen hispana

Esperanto

itala

franca

hispana

germana

angla

averaĝo, Bujdosó

0,963

1,017

1,042

 

1,011

1,111

averaĝo, Manaris

0,9204

0,9947

1,0448

 

0,9745

1,1858

 

2-a figuro Grafika prezento de la unua tabelo

Kiom granda estu korpuso?

Tiu ĉi rezulto estas grava, ĉar ĝi montras tion, ke la Zipf-klino estas preskaŭ la sama ĉu en la kazo de malgranda korpuso (Bujdosó: 85 kB), ĉu en la kazo de grandega korpuso (Manaris: 8,5÷85 MB). El la klino de malgranda korpuso oni povas tiri konkludon pri la klino de grandega korpuso. Se oni inkludas la hispanan lingvon, tiam R2 estas 0,7328, sen la hispana 0,982. Sekve oni rajtos konkludi laŭ malgranda korpuso. Ĉiuj ĝisnunajn miajn vortojn vi povas preni babilaĵo, sed la emfazita frazparto ŝajnas al mi scienca rezulto. La hispana estas escepteto, ni devas plu esplori ĉiterene, kial ĝi ne kongruas kun la tendenco de aliaj lingvoj. La studo de Manaris konstatis, ke la rekona algoritmo bazita sur neŭraj retoj povis klasi la tekstojn sufiĉe bone (87,3%). La erare klasitaj Esperanto-tekstoj montris la proprecojn de la germana.

Kiom longaj estas la vortoj en la hungara en Esperanto kaj en la angla?

Se tiel estas, ĉu estas ia proksimeco inter la lingvoj? Aŭ ni demandu inverse, kiel en la statistika scienco estas adekvata. Kiu trajto estas okulfrape plej diferenca en la lingvoj? La vortlongeco estas tre malsamaj. Unua mia provo estis la utiligo de la normala distribuo. Nun ni reiru al iu pli frua mia studo. Tie mi analizis hungaran romanon de Jenő Rejtő. Pardonu, ke mi elektis tiun aŭtoron, kiu ĉe sia nomo havas eĉ dufoje unikan hungaran vokalon „ő”. Por ke vi povu imagi tiun vokalon vi pensu pri la franca vorto Dieu en la multe aŭdata en filmoj esprimo Mon Dieu. Ĝi estas ekzakte la sama. Min senkulpigas tio, ke la originala nomo de la verkisto estis Reich, kaj plue li ofte publikigis sian romanon tiel: romano de angla verkisto P. Howard en la hungara traduko de Rejtő. Sed la strato en la sepa distrikto nomiĝas tamen Rejtő. Tiu verkisto verkis multe da romanoj, ŝatataj de intelektuloj, de simpluloj kaj de ĉiaspecaj homoj pro la spritaj, multfoje absurdaj dialogoj. Nian atenton tamen la verkoj altiris pro tio, ĉar en Hungario oni kunmetis analizitan korpuson. Kaj en tiu ĉi korpuso estas nur tri fikciaj romanoj, unu el tiuj estas romano de Rejtő, la dua estas 1984 de Orwell kaj la tria estas romano de Antal Szerb: La vojaĝanto kaj la Lunlumo. Kaj ankoraŭ unu, sed la plej grava kialo. Unu hungaro tradukis 26 romanojn de Rejtõ en Esperanton kaj tiuj estas libere alireblaj en interreto. Kaj la lasta kialo: ankaŭ mi ĝuas la spritajn dialogojn de Rejtő kaj mi ŝatis tekstumi ĝin. Jen vi vidas la saman tekston en tri lingvoj. Mi forgesis diri, ke se ne 26, sed almenaŭ unu romanon oni tradukis en la anglan.

La grafikaĵo montras, ke la distribuo de la longaj vortoj estas normala, same kiel ĉe la vortoj, kies longeco estas unu litero, sed la proporcio de la duliteraj kaj triliteraj vortoj kreskas kompare al la vortoj super tri litera longeco.

Mi aparte montras tiun bildon por tri lingvoj: hungara, Esperanto kaj angla.

Estas okulfrape, ke la distribuo de la hungaraj vortoj laŭ longeco malsimilas al tiu de la angla kaj de Esperanto. Gyula Illyés en 1965 (Illyés 2002, 187 kaj la sekvaj paĝoj) parolis pri tio, ke „senesencaĵo kaŭzis la ampleksiĝemon de la hungaraj vortoj, kio frostigas nian lingvon kaj menson”. Unu el tiuj estas la sekvado de la germana modelo.  

„La sekreto de fabrikado de niaj longaj – por fremduloj – vortoj estas, ke ne nur pluraj substantivoj ŝajnas vidiĝi unu pro la kunligado, sed oni povas kredi, ke formas unu vorton kun la substantivo la finaĵoj, adjektoj, prefiksoj kaj sufiksoj, kaj ne forgesante pri la pronomoj.”

La ofteca kurbo de la anglaj kaj de la hungaraj vortoj estas similaj, kun la diferenco, ke la ortografio de la angla lingvo montras la vortojn de la angla pli longaj.

Se tiel longaj estas la hungaraj vortoj, diru al mi ĉu la amplekso de la sama teksto en kiu lingvo estas la plej longa?

 

hungara

Esp-o

angla

aritmo de vortlongeco

5,63

4,81

4,39

devio de vortlongeco

3,21

2,71

2,35

min

1

1

1

max

23

24

27

kvanto de vortoj

44 096

54 190

62 317

kvanto de apartaj vortoj

12 748

9 789

6 466

volumeno (litero)

248 380

260 896

273 775

rilato al la kvanto de la hungara teksto

100%

105,04%

110,22%

 

 

 

 

 

Vi malpravis, la hungara estas la plej mallonga.

 

 

 

 

 

 

 

 

Vicordo de la lingvoj laŭ la normala distribuo

Nun ni reiras al la teksto de konstitutopropono. La unua ekzamenado uzas la normalan distribuon. Por decidi en tiu ĉi demando, mi pretigis diagramon aparte kaj kune por ĉiu lingvo, kiu montras la nombron de la vortoj en la rilato de vortlongeco. Tiuj donas tre karakterizan bildon pri ĉiuj lingvoj. Pretigante la komunan diagramon de ĉiuj lingvoj, mi kalkulis la averaĝon kaj la norman devion. Tiel aspektas la diagramo de distribuo laŭ longeco de ĉiuj vortoj de eŭropaj lingvoj.

3-a figuro: Diagramo de vortlongeco-vortofteco de 21 eŭropaj lingvoj

 

Vicordo de la lingvoj laŭ la distribuo de vortlongeco   

Mi faris kalkulon: Mi subtrahis el la eŭropa averaĝo la oftecon de la opaj lingvoj. Poste mi prenis la averaĝon ĉe ĉiuj lingvoj.

4-a figuro: La vicordo de la lingvoj, kiel la ofteco diferencas de la eŭropa averaĝo

Laŭ tiu ĉi grafikaĵo Esperanto estas inter la itala, greka, portugala kaj franca, granndparte novlatinaj lingvoj. La hungara estas sufiĉe malproksime de la finna kaj la estona. La du baltaj lingvoj, la kvar slavaj lingvoj, kaj tri ĝermanaj lingvoj estas unu apud alia. Tio montras, ke tiaspeca klasado, se ne estas tute perfekta, tamen ne estas malbona.

Vicordo sen la normala aŭ Zipfa leĝo

La dua esploro estis la plej ordinara. Mi klopodis per alitipa klasado. Mi observis ĉiujn karakterizaĵojn: amplekso, vortformo, vortbazo, hapakso, averaĝa vortlongeco, normaj devioj. Ankaŭ tia grafikaĵo donis similan rezulton, sed la lingvoj ne estis tiel dismetitaj.

La nur unufoje aperantaj vortoj /  nombro de ĉiuj vortoj

 

Kiom da diversaj vortoj estas bezonataj

Vicordo de lingvoj laŭ la Zipf-leĝo

La tria esplorado. Fine la lasta, la plej simpla provado donis la plej bonan rezulton. Mi metis en vicordon la lingvojn laŭ la klino de la Zipf-linio.

5-a figuro: La vicordo de la lingvoj laŭ la klino de Zipf-linio

Sur tiu ĉi figuro estas ĉio perfekta. La baltaj, la slavaj, la ĝermanaj kaj la novlatinaj lingvoj estas unu apud la alia. Estas interesa la loko proksima al la centro de la malta (ekinta el la araba) kaj la greka. Mi scivolus pri la analizo de la eŭska, la ivrita kaj la turka, se tiuj iam estos oficialaj lingvoj de EU. Esperanto estas la 11-a inter la 21 lingvoj, t.e. ĝi estas en la mezmezo de la vico. Tio estis antaŭvidebla, sed mi ne povis reteni min de certa fiereco, eksciinte tion. Sed la vera surprizo estas la loko de la hungara lingvo. Kiel tio eblas, ke la Zipf-klino de la tri finnugraj lingvoj estas tiom proksimaj unu al alia? Ni ja scias, ke la hungara jam antaŭ plurmil jaroj disiĝis de la du aliaj parencaj lingvoj. Mi volis trovi la lokon de Esperanto kaj fine mi trovis indikojn pri la parenceco de la finnugraj lingvoj. Mi pensas, ke la Zipf-leĝo estas tre potenca esplora rimedo.

Miaj unuaj du esploroj, kiuj observas la vicordon de la lingvoj surbaze de la vortlongeco kaj aliaj proprecoj ne utiligas la Zipf-leĝon. Tamen la tri diversmanieraj esploroj donis preskaŭ la saman rezulton (ĉe la  hungara kaj Esperanto ne tute). Se ni rigardas kune la grafikaĵojn, ni konvinkiĝas, ke la lingvoj havas internajn, per ciferoj montreblajn memindentecon. Mia esploro determinis tiun ĉi proprecon per tri malsamaj metodoj.

Konkludoj

Mi esploris la proprecojn de diverslingvaj tekstoj per tri diversaj metodoj. Unue mi jam uzis statistikajn rimedojn, kalkulis la aritmon kaj la normalan devion kaj tiel mi akiris tuteŭropian lingvan karakterizaĵojn. Mi komparis la opajn lingvojn kun tiuj averaĝa valoro. Due mi nur simple nombris la kalkuleblajn proprecojn, tipo, hapakso, ktp.

Trie mi faris la esploroj per la helpo de Zipf-leĝo. Nur per tiu ĉi metodo mi povas ricevi du pluajn rezultojn:

1.  Ĉe la esploro de la lingvoj jam malgranda korpuso povas doni tian rezulton, laŭ kiu oni povas identigi la lingvon same kiel ĉe multe pli granda korpuso.

2.  La Zipf-leĝo donis tian vocordon de la lingvoj, kio kongruas kun nia scio pri la parenca rilato de la lingvoj.

Literaturo

Dominich, S., Kiezer, T., and Szlávik, Z. (2005). Zipf-törvény, kis világ és magyar nyelv. Magyar Nyelvtudomány, ISSN 1587-1061 (to appear)

Gledhill, C. 1998. The Grammar of Esperanto. A corpus-based description. München: Lincom Europa.

Manaris et al. 2006: Investigating esperanto’s statistical proportions relative to other languages using neural networks and Zipf’s law. Proceedings of the 2006 IASTED International Conference on ARTIFICIAL INTELLIGENCE AND APPLICATIONS (AIA 2006), February 13-16, Innsbruck, Austria.

Illyés Gy: Nehéz nyelv-e a magyar? vagy egy babona oszlatása in: A törzs szava Írások az anyanyelvről. Nap Kiadó. 2002.

Fontoj

Luin 2005-10-21 esperanto.net/veb:

Enkonduko al HTML.

 

Wikipedia 2005-10-14

http://meta.wikimedia.org/wiki/List_of_Wikipedias

 

Rejtő Jenő La dekkvar karata aŭtomobilo http://verkoj.fw.hu/04.htm

 

P. Howard The 14-Carat Roadster http://mek.oszk.hu/01000/01021/01021.htm

 

Rejtő Jenő A tizennégy karátos autó http://mek.oszk.hu/01000/01044/01044.htm