<?xml version="1.0" encoding="utf-8"?>
<Gradivo ID="21966" NadgradivoID="348" NRID="27663249" OceID="0" DomainUrl="https://repozitorij.upr.si/" IzpisPolniUrl="https://repozitorij.upr.si/IzpisGradiva.php?lang=slv&amp;id=21966" StOgledov="501" StPrenosov="4" StOcen="0" VsotaOcen="0" DatumIzvoza="2026-04-10 18:24:14" OcenaSkupna="0" StPodgradiv="0" StudijskiProgramEvsID="" JeIndeksirano="0" JeVecAvtorjev="0" DovoliZahtevkeZaDostop="0">
  <PID Url="http://hdl.handle.net/20.500.12556/RUP-21966">20.500.12556/RUP-21966</PID>
  <Naslov>TF-IDF-based classification of Uzbek educational texts</Naslov>
  <Podnaslov></Podnaslov>
  <TujJezik_Naslov>Is open source the future of AI</TujJezik_Naslov>
  <TujJezik_Podnaslov></TujJezik_Podnaslov>
  <Opis>This paper presents a baseline study on automatic Uzbek text classification. Uzbek is a morphologically rich and low-resource language, which makes reliable preprocessing and evaluation challenging. The approach integrates Term Frequency–Inverse Document Frequency (TF–IDF) representation with three conventional methods: linear regression (LR), k-Nearest Neighbors (k-NN), and cosine similarity (CS, implemented as a 1-NN retrieval model). The objective is to categorize school learning materials by grade level (grades 5–11) to support improved alignment between curricular texts and students’ intellectual development. A balanced dataset of Uzbek school textbooks across different subjects was constructed, preprocessed with standard NLP tools, and converted into TF–IDF vectors. Experimental results on the internal test set of 70 files show that LR achieved 92.9% accuracy (precision = 0.94, recall = 0.93, F1 = 0.93), while CS performed comparably with 91.4% accuracy (precision = 0.92, recall = 0.91, F1 = 0.92). In contrast, k-NN obtained only 28.6% accuracy, confirming its weakness in high-dimensional sparse feature spaces. External evaluation on seven Uzbek literary works further demonstrated that LR and CS yielded consistent and interpretable grade-level mappings, whereas k-NN results were unstable. Overall, the findings establish reliable baselines for Uzbek educational text classification and highlight the potential of extending beyond lexical overlap toward semantically richer models in future work.</Opis>
  <TujJezik_Opis></TujJezik_Opis>
  <KljucneBesede>
    <Beseda>Uzbek language</Beseda>
    <Beseda>text classification</Beseda>
    <Beseda>low-resource languages</Beseda>
    <Beseda>TF-IDF</Beseda>
    <Beseda>cosine similarity</Beseda>
    <Beseda>linear regression</Beseda>
    <Beseda>k-Nearest Neighbors</Beseda>
  </KljucneBesede>
  <TujJezik_KljucneBesede>
    <Beseda>uzbeški jezik</Beseda>
    <Beseda>klasifikacija besedil</Beseda>
    <Beseda>jeziki z omejenimi viri</Beseda>
    <Beseda>TF-IDF</Beseda>
    <Beseda>kosinusna podobnost</Beseda>
    <Beseda>linearna regresija</Beseda>
    <Beseda>k-najbližji sosedje</Beseda>
  </TujJezik_KljucneBesede>
  <Potrjeno>true</Potrjeno>
  <JeZaklenjeno>false</JeZaklenjeno>
  <JeRecenzirano>true</JeRecenzirano>
  <Zaloznik></Zaloznik>
  <Izvor></Izvor>
  <Jezik ID="1033" ISO639-3="eng">Angleški jezik</Jezik>
  <TujJezik ID="1060" ISO639-3="slv">Slovenski jezik</TujJezik>
  <Povezave></Povezave>
  <Pokrivanje></Pokrivanje>
  <CasovnoPokritje></CasovnoPokritje>
  <AvtorskePravice></AvtorskePravice>
  <VrstaGradiva ID="dk_c" DRIVER="info:eu-repo/semantics/article">Članek v reviji</VrstaGradiva>
  <DatumVstavljanja>2025-10-17 15:22:44</DatumVstavljanja>
  <DatumObjave>2025-10-17 15:22:45</DatumObjave>
  <DatumSpremembe>2025-11-11 03:02:48</DatumSpremembe>
  <DatumTrajnegaHranjenja>0000-00-00 00:00:00</DatumTrajnegaHranjenja>
  <LetoIzida>2025</LetoIzida>
  <LetoIzidaDo>0</LetoIzidaDo>
  <KrajIzida></KrajIzida>
  <LetoIzvedbe>0</LetoIzvedbe>
  <KrajIzvedbe></KrajIzvedbe>
  <Opomba></Opomba>
  <StStrani>str. 1-13</StStrani>
  <StevilcenjeNivo1>iss. 19, [article no.] 10808</StevilcenjeNivo1>
  <StevilcenjeNivo2>Vol. 15</StevilcenjeNivo2>
  <Kronologija>Oct.-1 2025</Kronologija>
  <Patent_Stevilka></Patent_Stevilka>
  <Patent_DatumVeljavnosti>0000-00-00</Patent_DatumVeljavnosti>
  <VerzijaDokumenta>Zaloznikova</VerzijaDokumenta>
  <StatusObjaveDrugje>NiDoloceno</StatusObjaveDrugje>
  <VrstaStroskaObjave>apc</VrstaStroskaObjave>
  <DatumPoslanoVRecenzijo>0000-00-00</DatumPoslanoVRecenzijo>
  <DatumSprejetjaClanka>0000-00-00</DatumSprejetjaClanka>
  <DatumObjaveClanka>2025-10-08</DatumObjaveClanka>
  <Licence>
    <Licenca ID="6" Kratica="CC BY 4.0" Naziv="Creative Commons Priznanje avtorstva 4.0 Mednarodna" URL="http://creativecommons.org/licenses/by/4.0/deed.sl" Logo="by.png" LogoPolniUrl="https://repozitorij.upr.si/teme/rupDev/img/licence/by.png" DatumZacetkaLicenciranja="" VezanoNa="" VezanoNaAng="" Besedilo="" BesediloAng=""></Licenca>
  </Licence>
  <EmbargoDo></EmbargoDo>
  <VrstaEmbarga ID="1" Naziv="Takojšnja javna objava" OpenAIREDostop="openAccess"></VrstaEmbarga>
  <Osebe>
    <Oseba ID="15752" Ime="Khabibulla" Priimek="Madatov" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="408318467" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="19448" Ime="Sapura" Priimek="Sattarova" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="446586883" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="60" Ime="Jernej" Priimek="Vičič" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="13866851" Afiliacija="" ArrsID="23555" ORCID=""></Oseba>
  </Osebe>
  <Identifikatorji>
    <Identifikator ID="4" Sifra="UDK" Naziv="UDK" URL="">004:811.5:81&#039;322</Identifikator>
    <Identifikator ID="9" Sifra="ISSN-clanka" Naziv="ISSN pri članku" URL="">2076-3417</Identifikator>
    <Identifikator ID="15" Sifra="DOI" Naziv="DOI" URL="http://dx.doi.org/10.3390/app151910808">10.3390/app151910808</Identifikator>
    <Identifikator ID="3" Sifra="CobissID" Naziv="COBISS.SI-ID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/253709315">253709315</Identifikator>
  </Identifikatorji>
  <Datoteke>
    <Datoteka ID="31894" DatotekaNRID="14457155" NamenDatotekeID="2" NamenDatoteke="Predstavitvena datoteka" FormatDatotekeID="2" FormatDatoteke=".pdf" MIME="application/pdf" IkonaFormata="pdf.gif" IkonaFormataPolniUrl="https://repozitorij.upr.si/teme/rupDev/img/fileTypes/pdf.gif" VelikostDatoteke="293752" VelikostDatotekeKratko="286,87 KB" DatumVstavljanja="2025-10-17 15:23:30" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="true" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="0">
      <Naziv>RAZ_Madatov_Khabibulla_2025.pdf</Naziv>
      <OrgNaziv>RAZ_Madatov_Khabibulla_2025.pdf</OrgNaziv>
      <URL></URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5>83753809D57B917BE2F9B9F317E52201</MD5>
      <SHA256>852adac060e6311409eecc9ef9da7f9a544be30dbfe5ea31c5b72cfb5e8761d3</SHA256>
      <UUID>a4175966-ab5c-11f0-8f0b-005056ac49c0</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.upr.si/Dokument.php?lang=slv&amp;id=31894</PrenosPolniUrl>
      <Vsebine>
        <Vsebina TipVsebine="GoloBesedilo" JezikID="1033" Oznaka="" Dolzina="40367"></Vsebina>
      </Vsebine>
    </Datoteka>
    <Datoteka ID="31893" DatotekaNRID="0" NamenDatotekeID="5" NamenDatoteke="Izvorni URL" FormatDatotekeID="56" FormatDatoteke="URL" MIME="text/url" IkonaFormata="html.gif" IkonaFormataPolniUrl="https://repozitorij.upr.si/teme/rupDev/img/fileTypes/html.gif" VelikostDatoteke="0" VelikostDatotekeKratko="0,00 KB" DatumVstavljanja="2025-10-17 15:22:46" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="false" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="1">
      <Naziv></Naziv>
      <OrgNaziv></OrgNaziv>
      <URL>https://www.mdpi.com/2076-3417/15/19/10808</URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5></MD5>
      <SHA256></SHA256>
      <UUID>8a48e137-ab5c-11f0-8f0b-005056ac49c0</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.upr.si/Dokument.php?lang=slv&amp;id=31893</PrenosPolniUrl>
      <Vsebine>
      </Vsebine>
    </Datoteka>
  </Datoteke>
  <Organizacije>
    <Organizacija OrganizacijaID="3" Kratica="FAMNIT" ZavodEvsID="0000093" Logo="" LogoPolniUrl="https://repozitorij.upr.si/teme/rupDev/img/logo/">Fakulteta za matematiko, naravoslovje in informacijske tehnologije</Organizacija>
  </Organizacije>
  <OrganizacijeVira>
  </OrganizacijeVira>
  <MetodeZbiranjaPodatkov>
  </MetodeZbiranjaPodatkov>
  <TipologijaDela ID="1.01" Koda="1.01" Naziv="Izvirni znanstveni članek" SchemaOrg="Article"></TipologijaDela>
  <Ostalo>
    <StIrodsDatotek>0</StIrodsDatotek>
    <StDatotekPodTrajnimEmbargom>0</StDatotekPodTrajnimEmbargom>
    <StDatotekZOmejenimDostopom>0</StDatotekZOmejenimDostopom>
  </Ostalo>
</Gradivo>
