login webmail english
Format podataka
IRB: Bijenička 54, HR-10000 Zagreb. tel: +385 (0)1 4561-111, fax: 4680-084, PR: 4571-269, mail: info@irb.hr
IRB Home PARF Format podataka
pretraživanje imenik kontakt gdje smo? mapa weba pomoć print posjećeno Bookmark and Share

PARF koristi izmijenjeni ARFF format za podatke, koji je većinom kompatibilan s originalnim formatom koji koristi Weka projekt. Ukratko: Datoteka počinje imenom relacije, slijedi definicija atributa, te na kraju dolazi blok s podacima. Definicija jednog atributa daje mu ime i moguće vrijednosti: numeric (brojčane), string (tekstualne) ili skup kategorija u vitičastim zagradama. Kad god koja vrijednost sadrži razmak, potrebno ju je staviti u navodnike. Na primjer:

% this is an example parf arff file
@relation test
@attribute name string
@attribute height numeric
@attribute sex { male, female }
@attribute "marital status" { married (6) "not married" divorced widowed (1.2) }
@data
"Anne Appleby", 162, female, married
"Bob Barnes" 181.5 male "not married"
'Charlie Coombs', 175, ?, divorced
"Dan D'Angelo", ?, male, widowed
"Ellen Ellis", 167.5, "female", "widowed"
"Francis Ford", &
  165, female, married
"George Gorsky", ?, ?, ?
?, 200, male, ?
Iris, 159, female, ?

Važne razlike od ARFF specifikacije:

  • Podržani su samo numerički, tekstualni i nominalni atributi — datum nije prihvaćena vrsta atributa.
  • Gdje god ARFF sintaksa zahtijeva zarez, običan razmak je također u redu. Uz to, na takvim se mjestima može umetnuti ampersand (&) da bi se nastavilo u sljedećoj liniji.
  • Znak za nastavak linije je posebno važan u širokim skupovima podataka, budući da je iz tehničkih razloga duljina retka ograničena, i postavljena na 1024 znaka.
  • Prihvaćaju se i jednostruki i dvostruki navodnici. Ako se jednostruki navodnik treba upisati u tekstualnu vrijednost, treba koristiti dvostruke navodnike, i obratno.
  • Rijetki ARFF nije podržan.
  • Tekstualne vrijednosti se ignoriraju u obradi. Dodatni načini da se atribut ignorira su da se @attribute promijeni u @ignored, te da se odrede korišteni/nekorišteni atributi iz naredbenog retka (-u[u] opcija).
  • Nominalnim se atributima može zadati težina za svaku kategoriju u zagradama neposredno nakon imena kategorije. Ako se težina ne zada, podrazumijeva se 1. Težine se koriste samo za atribut kojeg se odabere kao klasu.