|
Import von Daten:
Gelegentlich erhalten sie Daten zur Verwendung in eigenen Dateien.
Ihre Aufgabe
besteht darin, diese Daten zu importieren.
Manchmal besteht Bedarf, ihre eigenen Daten anderen Personen oder Programmen
zur Verfügung zu stellen:
Ihre Aufgabe
besteht darin, diese Daten zu exportieren.
Formate:
Daten können in vielen verschiedenen "Formaten" vorliegen,
ebenso wie es möglich ist, einen Satz in vielen verschiedenen Sprachen
auszudrücken. Einige Formate sind gebräuchlich, viele Programme
können sie handhaben (d.h. exportieren, umwandeln, importieren),
andere Formate "exotisch", d.h. selten verwendet.
Format TEXT:
Das allgemeinste und häufigste Format heißt "Text",
d.h. die Daten sind als Buchstaben in einer Datei (*.TXT) enthalten.
Dieses Format wird von fast allen Programmen verstanden - wählen
sie es daher im Zweifelsfall, falls sie die Wahl haben.
Weitere Formate sind z.B. dBase (*.DBF), Paradox (*.DB), SYLK (*.SLK),
Lotus (*.WKS), Excel (*.XLS)...
Zeichensatz:
Auch das Format "Text" hat Varianten: Der verwendete Zeichensatz
bestimmt, mit welchem "Bitmuster" ein Zeichen (Buchstabe,
Ziffer, Sonderzeichen) codiert wird.
Wählen
sie im Zweifel "ANSI", "Windows" oder "ASCII".
Falls sie
entdecken, daß die meisten Zeichen richtig interpretiert werden
lediglich die Umlaute falsch, so probieren sie "ASCII", "DOS"
oder "Apple".
Wenn sie noch
immer kein Ergebnis erzielen, oder wenn sie wissen, daß die Daten
von einem Großrechner stammen, können sie auch "EBCDIC"
probieren, wenn ihr Programm diesen Zeichencode unterstützt.
Vielleicht
kann die Bezugsquelle ihrer Daten Auskunft über deren Fromat und
Struktur geben.
Trennzeichen:
In einer Datei fortlaufender Zeichen muss man Vereinbarungen treffen,
wie die Grenzen von Feldern (Zellen) und Datensätzen (Zeilen) gekennzeichnet
sind. Dazu gibt es 2 grundlegend verschiedene Verfahren:
Fixe Feldlängen:
Die Anzahl der Zeichen ist für jedes Feld vorgegeben (z.B. 15
Zeichen für "Vorname"). Nicht benötigter
Platz wird mit Leerzeichen ("blanks")
gefüllt. Das nächste Feld beginnt "ohne Vorwarnung"
genau dort, wo das vorhergehende aufhört. Diese Methode erfordert,
daß die beteiligten Programme die fixe Länge aller vorkommenden
Felder kennen, ist daher eher umständlich, und wird heute kaum
mehr verwendet. Außerdem verbraucht es viel unnötigen Platz
für die vielen Füllzeichen.
Beispiel für fixe Feldlänge:
Vorname(10),Zuname(15),Geschlecht(1),Geburtsdatum(4,2,2)
- Leerzeichen als Punkte !
Eva.......Maria.Weber....W19650425Hermann...Oberhofer......M19621028
Dieses Format birgt einen entscheidenden Nachteil: Wenn sie keine zusätzlichen
Sicherheits-Vorkehrungen treffen, so genügt ein einziger Fehler,
(1 Zeichen zuviel oder zu wenig), um die gesamte Datei ab diesem Punkt
unbrauchbar zu machen.
Variable
Feldlängen: Jedes Feld enthält nur genauso viele Zeichen
wie notwendig. Am Ende wird ein "Feld-Trennzeichen" (field
separator) eingefügt, am Ende eines Datensatzes folgt ein "Datensatz-Trennzeichen"
(record separator). Diese Methode erfordert, daß die beteiligten
Programme die beiden verwendeten Trennzeichen kennen. Dafür werden
heute fast immer folgende Zeichen verwendet:
Feld-Trennzeichen: Tabulator (TAB)
Satz-Trennzeichen: Zeilenrücklauf (CR) oder CR+Neue Zeile
(CR+LF)
Beispiel für variable Feldlänge: (Kontrollzeichen in
<>).
Eva Maria<TAB>Weber<TAB>W<TAB>1965<TAB>04<TAB>25<CR>
Hermann<TAB>Oberhofer<TAB>M<TAB>1962<TAB>10<TAB>28<CR>
Andere Trennzeichen sind z.B. Beistrich, Strichpunkt, usw.
Dieses Format hat sich allgemein durchgesetzt, birgt aber einen entscheidenden
Nachteil: die beiden verwendeten Trennzeichen dürfen im Text niemals
vorkommen ! Falls ein derartiger Fehler auftritt, ist der Schaden allerdings
auf 1 oder 2 Datensätze begrenzt. |