Hoe makkest in wurdboek?

De gong fan saken by it wurkjen mei Concordancer for Windows* / Werom nei: Frysk
* De side http://www.ifs.tu-darmstadt.de/sprachlit/wconcord.htm bestiet net mear. Wconcord is no lykwols noch del te laden fan in Thaiske side
http://pioneer.chula.ac.th/~awirote/2241605.htm
Sykje dêr tusken de Thaiske tekens om de lokale kopy wconcord.zip

(Part fan myn lêzing op 'e wurdboekmiddei fan 'e Fryske Akademy op 6 jan. 2001).

It begjin is de digitale tekst (sa'n 9 miljoen letterkes - sels typt of OCR-wurk), ûnderbrocht yn in grut tal bestannen neffens it boek of de kassette dêr't in stik tekst út komt. Concordancer hat wol wat muoite mei dy grutte protte tekst, om't it programma yn dizze earste ferzje yn ien kear net mear as 16.000 fynplakken ferwurkje kin. Om dy reden haw ik de letter G yn sân parten ferdiele moatten, dy't dan elk wer út in tal formules fan it type ga*, 'ga* ensfh. besteane, dy't mei in keunstje op in handige wize generearre wurde kinne.

It programma siket dan alle wurden mei sa'n begjin der út en kin dy ek noch alfabet sette. Sjoch hjir ûnder:

Sa't te sjen is, haw ik by dy foarbylden in hiele rigel tekst ta myn foldwaan, mar faak docht bliken, dat men dochs noch mear omtekst sjen wol. No hat WinConcord de moaie eigenskip dat it troch in ienfâldige klik oant tsien siden omtekst sichtber meitsje kin (sjoch hjirboppe 3, ynset), mar dan moatte de betreffende konkordânsjes wol generearre wêze. En foar it earste stik fan G duorret dan dan wol sa'n healoere, dat ik lit de kompjûter faak nachts mar 'op standby' oan stean. Dêr docht út bliken dat in moderne PC ditsoarte wurk ek noch mar krekt oan kin!

Troch it grutte tal staveringswizen fan it Sealtersk kinne de sa generearre konkordânsjes net sûnder mear brûkt wurde, want it giet derom, foarmen byinoar te krijen lykas Gääst, Gäst, Jääst, Jäst, dy't dan ek noch mei ä of e skreaun wêze kinne. Om dy reden haw ik alle konkordânsjes fan'e letter G kopiearre nei de tekstferwurker (WP6.0a) en dêr alles byinoar brocht wat byinoar heart (sjoch hjirûnder, boppeste helte). Dêr typ ik dan ek de fermelding út it âlde kaartsysteem by fan boarnen dy't noch net yn 'e kompjûter sitte. Yn dat tige grutte bestân meitsje ik dan it wurdboek (sjoch hjirûnder, ûnderste helte). De net brûkte sitaten smyt ik net fuort, mar ferlytsje se ta 6-punts, om se letter nochris besjen te kinnen.

WinConcord hat it foardiel dat it in hiel sjou tekstbestannen tagelyk oankin en de nammen fan dy bestannen ek oanjout. Wat it net oanjout, binne sidenûmers. Om dêr yn te foarsjen, generearje ik mei makro's fan myn tekstferwurker yn 'e oarspronklike tekstbestannen sidenûmers, dy't dan mei de omtekst yn WinConcord sichtber wurde.

Dizze suver ideale sitewaasje betsjut in grutte foarútgong, net allinne wat it beskikber wêzen fan omtekst oangiet, mar ek om't men fan gâns wurden no wat better sjen kin hokker fariaasjes yn gebrûk en betsjutting foarkomme. Sa kaam ik by it wurd gail ta sân ûnderbetsjuttings.
Dat foardiel slacht lykwols om yn in neidiel by de wat frekwintere wurden. Sa siet ik by gängelje op side 41 fan myn bestân en by Gant ynienen op side 154. Dêr tuskenyn sitte dan 110 siden mei it wurd gans 'hiel', ofwol sa'n 3300 fermeldingen. Myn grutte probleem is, om dêr struktuer yn te krijen. WinConcord jout wol de mûglikheid om te selektearjen neffens earste oant en mei tsiende folgjende of foargeande wurd, mar ik sjoch noch net goed wat ik dêrmei dwaan kin; boppedat wurdt dat wer wat fertsjustere troch alle staveringsferskaat.
Faak brûk ik ek oare wurdboeken om ûnderbetsjuttings te definiearjen, oant it WNT ta - en net te ferjitten in synonymewurdboek - mar dat is lang altyd net fan tapassing op'e Sealter kontekst. Dus dat is ek noch net ideaal.
P.K., 15-1-2001.

 

Set stekwurd fet.
Lykas boppe te sjen slacht WinConcord it stekwurd op tusken it teken | . Dêr kin ek wat oars foar keazen wurde, mar it bliuwt altyd ûnopfallend. Ik haw dêrom yn WordPerfect 9 de makro fet.wcm makke, dy't " | wurd " ferfangt troch " wurd". Troch yn WinConcord op te slaan tusken "|" en " " levert dat alle stekwurden tsjûk, dat dat is dan daliks klear foar myn wurdboek-opmaak. Hjir fergees op te heljen as fet.zip en dan út te pakken (allinne as *.zip ferstjoerber).
P.K., 27-12-2003.

 

 

It wurdboek klear,
de wille oer!

'Grutte' wurden (mei tank oan Anne Dykstra).

Lykas boppe sein, ûntsteane praktyske problemen by 'grutte' wurden, dat is te sizzen wurden dy't tige faak foarkomme. Dat wurdt no sá oanpakt:

Nei't de fynplakken fan sokke wurden yn 'e tekstferwurker gearbrocht binne, wurdt earst in foarriedige betsjut tingsferdieling makke. As foarbyld jou ik it wurd gjucht/ rjucht 'rjocht' ens. De betsjuttings komme yn dit gefal út myn Dútsk-Ingelsk wurdboek1,wat it grutte foardiel hat, dat it tagelyk de oersetting yn twa talen jout en boppedat troch dy beide talen ta in skerpe ferdieling twongen wurdt. By 13/14 richtich is ek noch in foarriedige Fryske ûnderskieding oanbrocht.

Foarriedige betsjuttingsferdieling.
Adj.
1 (Gegensatz: links) // right
2 richtig/ krekt, goed/ accurate, correct
3 geeignet, passend/ krekt passend, presys/ proper, fitting, suitable
4 schuldig// due
5 wirklich// real
6 echt// genuine
7 gesetzlich// lawfull, legitimate
8 angenehm// agreable
9 gehörig// thorough
10 tüchtig//solid, sound

Adv.
11 right(ly), well
12 wirklich// really, quite
13 richtich/ ynoarder/ correctly
14 richtich/ krekt, lykjend op
15 richtich/ krekt passend, presys
16 sehr// very; much; pretty
17 rechte Hand// right hand
18 aufrecht/ rjochtop/ upright, erect
19 RESERVE

No wurdt de betsjuttingsferdieling yn ien finster fan 'e tekstferwurker toand en in pear rigels fan de fynplakken yn in lytser finster dêr ûnder. Op dy wize kinne de fynplakken oan ien foar ien foarsjoen wurde fan it nûmer fan de betsjutting, wat ik foaroan yn 'e rigel set2. Yn 'e bak RESERVE komt alles wat yn 'e oare bakken gjin plak fine kin.

Is dat klear, dan wurdt it sa behannele artikel opslein as in DOS-bestân, wat dan troch WinConcord ferwurke wurde kin. As dan by de "File List Settings" de sifers as "Word separators" skrast wurde, dan wurdt alles mei mask = "*" kreas neffens betsjuttingsskift oardere. Ien en oar wurdt dan wer nei de testferwurker kopiearre en kin dan maklik fierder yn detail bewurke wurde, mei't dan ek maklik opfalt wat bysûnder is en wat net.

Foarbyld [2 komt nei 19]:

11 Hahn. "dî hô'nekôm". hö:ft, det - das Haupt, der Kopf: "'t izz mî nit | rî®ucht | in't hö:ft, in dô plátte". hö:'gde u. hö:'gte, djû - die H
12 _______ sik ôk rî®ucht wet tô g^ô'de, nû háe®lde hî sîn hart ôk ínssen | rî®ucht | op! nû quadd hî: disk, décke dî ô! sgô'u®ne wîe®r tôhô'pe
12 îk ben sô rî®ucht wê'lü®g un dô sü'nne sgînt bû'te sô froi, 't izz mî | rî®ucht | , azz sgûll îk un ô'lden be- káe®nde wîer sî®ô!' "na, quad
12backnes Backwerk, welches leicht zerbricht. R. "kros". "wan dî pónkôke | rî®ucht | lécker smáe®ke sgell, môt hî krös wä:'ze". krü:dü®g - keck, verw
12î machánnelbôm ôn sik tô bîwä:'g^jen un dô tô'g^e rá'e®tene sik áltîde | rî®ucht | fónnern un dan wîe®r tôhô'pe, sô rî®ucht, azz wan sik ae®n
12rä ^'dje. ô'rä^dje verabreden. ráe®kje treffen, erreichen. den häbb' îk | rî®ucht | , ächt ráe®ked, den habe ich ordentlich getroffen. R. rå'kj
12wä :'zen hî'de un dî dôk medd dô knôke wazz weg. Marlê'neken wazz nû sô | rî®ucht | ligt un wê'lü®g, rî®ucht azz wan dî brô'er nog lî'û®ede, dô
13tôwénne ; quadd dî mon, îk ben sô rî®ucht trü:'rü®g, det izz dag^g^ nit | rî®ucht | , hî hîde jô ô'sgêd fon mî nî'me sgûlld.' Meddés faengde hî ôn t
13úgter hô'nde (für: rî®úgte hô'nde) meine rechte Hand. richtig: "'t izz | rî®ucht | ". - "rî®ugt un slî®ugt". - "rî®ugts" auch: rî®ugs" rechts. "si
14edd dô knôke wazz weg. Marlê'neken wazz nû sô rî®ucht ligt un wê'lü®g, | rî®ucht | azz wan dî brô'er nog lî'û®ede, dô g^îng ze g^ants lü'stü®g i
14ô rî®ucht g^ôd tô mô'de!' "na, quadd djû mô'er, îk ben sô óngstü®g, sô | rî®ucht | azz wan der un swä:r wä:'der kumt." - marlê'neken å'vers sî
14ô tô'g^e rá'e®tene sik áltîde rî®ucht fónnern un dan wîe®r tôhô'pe, sô | rî®ucht | , azz wan sik ae®n sô rî®ucht fraut un médde hô'nde sô dedd
16 : 'wet dü:'vel, wô kumst dû in min tôm?' dî soldå't, dî káende den bûr | rî®ucht | g^ôd un wísde ôk, det hî den î'zel kô'ped hî'de, quadd: "
16 'neken bî 'n disk un dî få'er quadd: 'och, wet wêd' îk ligt, îk ben sô | rî®ucht | g^ôd tô mô'de!' "na, quadd djû mô'er, îk ben sô óngstü®g,
16 rî®ucht fónnern un dan wîe®r tôhô'pe, sô rî®ucht, azz wan sik ae®n sô | rî®ucht | fraut un médde hô'nde sô dedd. meddés tôg der sô'n nä:'vel
16det blôd fell ínnen snê. - ochód! quadd det wíû®mae®nske, un ómmede sô | rî®ucht | hôg op un sag^g^ det blôd far sik lézzen un wazz sô rî®ucht t
16i nôm sin báe®bbe un marlê'neken bî dô hô'nde un jô wî'rne álle trê sô | rî®ucht | ferg^nö:'g^ed un g^îngene in 't hûz bî disk un î'tene. Dî b
16n , dî hî'de'n flug^g^, fråm wî'û®mae®nske, un jô hî'dene sik álle bêe® | rî®ucht | lî®ôû®; man jô hî'dene nên bê'dene, un jô wónskedene sik g
16p wêl bîs'ô'rg^je[,] du kannst die Bot- schaft wohl ausrichten. îk ben | rî®ucht | bîs'ô'rged ûm him, ich bin recht besorgt für ihn. s'pánkerj
2 un azz hî ûr de sô'le g^îng, sô lît hî ä:n mü:'le bä:'te; hi g^îng sô | rî®ucht | mídden óppe strê'te, ä:n mü:'le un ä:n zö'cke an, sîm sgô'
2esungen hast, oder ich schlage dich todt;' dan dî pastô'r hî'de 't nit | rî®ucht | ferstê'n; dô krêg^ dí fent sô 'n sgrek un song detsélg^e nog^ ä:'
3g ^el djû g^ô'ldne kétte fálle un djû fell den mon jü:st û'men hals, sô | rî®ucht | derû'me, det ze rî®ucht sô krek pássede, dô g^îng hî bínne
3t un médde hô'nde sô dedd. meddés tôg der sô'n nä:'vel fónne g^rûnd un | rî®ucht | in den nä:'vel dä:r báddende't azz fî®

P.K., 5-4-2001.

1. Schöfler-Weis, Taschenwörterbuch der englischen und deutschen Sprache II, Deutsch-Englisch, Stuttgart 1951.
2. By tekst dy't ek noch gâns oare sifers befettet, kin dat ta betizing liede. Dan kin foar elk sifer in teken set wurde, b.g. #, wat dan letter socht wurdt mei mask = "#*". It is ek nuttich om "]" te brûken as "Sentence separator", mei't dan automatysk de generearre rigels begjinne mei "#" en de nûmers.