How many documents can a custom classifier train?

Ghid Complet: Antrenarea Clasificatoarelor Personalizate

15/02/2022

Rating: 4.46 (9647 votes)

În era digitală, gestionarea și procesarea documentelor pot deveni sarcini copleșitoare pentru orice organizație. Cu volume tot mai mari de informații care tranzitează zilnic, capacitatea de a identifica rapid și precis tipul fiecărui document este crucială pentru eficiență și automatizare. Aici intervine Azure AI Document Intelligence, un serviciu bazat pe cloud care revoluționează modul în care interacționăm cu documentele. Acesta permite construirea de soluții inteligente pentru procesarea documentelor, analizând imagini, PDF-uri și alte fișiere pentru a extrage și detecta diverse elemente de conținut, aspect, stil și semantică. Unul dintre cele mai puternice instrumente oferite de acest serviciu sunt modelele de clasificare personalizate, care combină caracteristici de aspect și limbaj pentru a detecta și identifica cu precizie documentele procesate în cadrul aplicației dumneavoastră. Aceste modele efectuează clasificarea unui fișier de intrare pagină cu pagină, identificând documentele din interior și putând chiar recunoaște mai multe documente sau mai multe instanțe ale aceluiași document într-un singur fișier de intrare. În cele ce urmează, vom explora în detaliu cum funcționează aceste modele, cerințele de antrenament incremental și cele mai bune practici pentru a obține rezultate optime.

What are the different types of document classification?
Cuprins

Ce Sunt Modelele de Clasificare Personalizate?

Modelele de clasificare personalizate sunt tipuri de modele de învățare profundă, concepute special pentru a înțelege și categoriza documente. Ele utilizează o combinație sofisticată de caracteristici vizuale (legate de aspectul documentului) și lingvistice (legate de conținutul textului) pentru a identifica cu exactitate tipul documentului. Indiferent dacă este vorba de un formular de cerere de împrumut, un fluturaș de salariu, un extras de cont bancar sau o colecție de facturi scanate, un clasificator personalizat poate distinge aceste documente chiar și atunci când sunt prezente în același fișier. Această capacitate de a analiza un fișier de intrare pagină cu pagină este esențială, permițând identificarea nu doar a tipurilor de documente, ci și a intervalelor de pagini corespunzătoare pentru fiecare document identificat. Astfel, puteți procesa eficient pachete complexe de documente, cum ar fi un dosar de cerere de împrumut care conține mai multe formulare diferite.

Cerințe și Limite de Antrenament

Pentru a antrena un clasificator personalizat eficient, există anumite cerințe minime și limite maxime pe care trebuie să le respectați. Acestea asigură că modelul are suficiente date pentru a învăța și a generaliza corect. Iată detaliile:

  • Clase Distincte: Antrenarea unui clasificator personalizat necesită cel puțin două clase distincte de documente. Fără cel puțin două categorii, modelul nu are ce să distingă.
  • Eșantioane per Clasă: Pentru fiecare clasă, este necesar un minim de cinci eșantioane de documente. Cu cât oferiți mai multe eșantioane de înaltă calitate, cu atât modelul va fi mai precis.
  • Numărul Maxim de Clase: Puteți antrena un clasificator cu până la 1.000 de clase diferite. Această limită permite o granularitate excepțională în clasificarea documentelor.
  • Numărul Maxim de Eșantioane per Clasă: Fiecare clasă poate conține până la 100 de eșantioane de documente. Depășirea acestui număr nu este recomandată și ar putea indica o necesitate de a rafina clasele.
  • Numărul Maxim de Pagini pentru Antrenament (Clasificare): Datele totale de antrenament pentru un model de clasificare personalizat pot conține până la 25.000 de pagini.
  • Dimensiunea Totală a Datelor de Antrenament (Clasificare): Dimensiunea maximă permisă pentru datele de antrenament este de 2 GB.

Modelul clasifică fiecare pagină a documentului de intrare, cu excepția cazului în care se specifică altfel, într-una dintre clasele din setul de date etichetate. Puteți, de asemenea, să specificați numerele paginilor de analizat în documentul de intrare. Pentru a seta un prag pentru aplicația dumneavoastră, utilizați scorul de încredere din răspunsul modelului, care indică cât de sigur este modelul de clasificarea sa.

Antrenament Incremental: Evoluția Modelului Tău

Cu modelele personalizate, menținerea accesului la setul de date de antrenament este esențială pentru a actualiza clasificatorul cu noi eșantioane pentru o clasă existentă sau pentru a adăuga clase noi. Modelele de clasificare personalizate, începând cu versiunea API v4.0 2024-11-30 (GA), suportă acum antrenamentul incremental. Această funcționalitate vă permite să referențiați un clasificator existent și să adăugați noi eșantioane pentru o clasă existentă sau să adăugați clase noi cu eșantioane. Antrenamentul incremental este extrem de valoros în scenariile în care retenția datelor reprezintă o provocare, iar clasificatorul trebuie actualizat constant pentru a se alinia cu nevoile de afaceri în schimbare. Este important de reținut că antrenamentul incremental este suportat numai cu modele antrenate cu aceeași versiune API. Dacă încercați să extindeți un model, utilizați versiunea API cu care a fost antrenat modelul original.

Tipuri de Documente și Suport Lingvistic

Flexibilitatea în tipurile de documente acceptate este un avantaj major al clasificatorilor personalizați. Puteți antrena clasificatori pentru a recunoaște tipuri de documente în diverse formate, asigurând o acoperire largă a nevoilor dumneavoastră. Iată formatele de fișiere suportate:

  • PDF: Un format universal pentru documente.
  • Imagini: Include formate populare precum JPEG/JPG, PNG, BMP, TIFF și HEIF.
  • Microsoft Office: Documente Word (docx), Excel (xlsx) și PowerPoint (pptx). Aceasta este o capacitate relativ nouă și extrem de utilă.

La asamblarea setului de date de antrenament, puteți adăuga documente de orice tip suportat. Clasificatorul nu necesită etichetarea explicită a tipurilor specifice. Ca o bună practică, asigurați-vă că setul de date de antrenament conține cel puțin un eșantion din fiecare format pentru a îmbunătăți acuratețea generală a modelului.

În ceea ce privește suportul lingvistic, modelele de clasificare au evoluat. Inițial, acestea suportau doar documente în limba engleză. Cu toate acestea, acum, modelele de clasificare pot fi antrenate pe documente în diverse limbi, extinzând semnificativ aplicabilitatea lor globală. Pentru o listă completă a limbilor suportate, este recomandat să consultați documentația oficială Azure AI Document Intelligence.

Comparație: Clasificare Personalizată vs. Modele Compozite

Un model de clasificare personalizat poate înlocui un model compozit în anumite scenarii, dar există câteva diferențe importante de care trebuie să fiți conștienți. Înțelegerea acestor diferențe vă va ajuta să alegeți abordarea potrivită pentru nevoile dumneavoastră specifice.

CapacitateProcesul Clasificatorului PersonalizatProcesul Modelului Compozit
Analiza unui singur document de tip necunoscut, aparținând unuia dintre tipurile antrenate pentru extragere.Necesită multiple apeluri:

  • Apelarea modelului de clasificare bazat pe clasa documentului (permite o verificare bazată pe încredere înainte de a invoca modelul de extragere).
  • Invocarea modelului de extragere.
Necesită un singur apel către un model compozit care conține modelul corespunzător tipului de document de intrare.
Analiza unui singur document de tip necunoscut, aparținând mai multor tipuri antrenate pentru extragere.Necesită multiple apeluri:

  • Efectuați un apel către clasificator care ignoră documentele care nu se potrivesc unui tip desemnat pentru extragere.
  • Invocarea modelului de extragere.
Necesită un singur apel către un model compozit. Serviciul selectează un model personalizat în cadrul modelului compozit cu cea mai mare potrivire. Un model compozit nu poate ignora documente.
Analiza unui fișier care conține mai multe documente de tip cunoscut sau necunoscut, aparținând unuia dintre tipurile antrenate pentru extragere.Necesită multiple apeluri:

  • Apelarea modelului de extragere pentru fiecare document identificat în fișierul de intrare.
  • Invocarea modelului de extragere.
Necesită un singur apel către un model compozit. Modelul compozit invocă modelul component o singură dată pe prima instanță a documentului. Documentele rămase sunt ignorate.

Cerințe de Intrare pentru Documente

Pentru a asigura cele mai bune rezultate în antrenarea clasificatorului, este crucial să respectați anumite cerințe privind calitatea și dimensiunea documentelor de intrare. Acestea influențează direct performanța și acuratețea modelului.

  • Calitatea Eșantioanelor: Pentru cele mai bune rezultate, furnizați cinci fotografii clare sau scanări de înaltă calitate pentru fiecare tip de document. Calitatea vizuală a documentelor de antrenament este fundamentală.
  • Limite de Pagini: Pentru fișierele PDF și TIFF, pot fi procesate până la 2.000 de pagini. Rețineți că, cu un abonament gratuit, sunt procesate doar primele două pagini.
  • Dimensiunea Fișierului: Dimensiunea fișierului pentru analiza documentelor este de 500 MB pentru nivelul plătit (S0) și de 4 MB pentru nivelul gratuit (F0).
  • Dimensiunile Imaginii: Dimensiunile imaginilor trebuie să fie între 50 x 50 pixeli și 10.000 x 10.000 pixeli. Asigurați-vă că imaginile nu sunt nici prea mici, nici excesiv de mari.
  • PDF-uri Protejate cu Parolă: Dacă PDF-urile dumneavoastră sunt blocate cu parolă, trebuie să eliminați blocarea înainte de a le trimite pentru antrenament sau analiză.
  • Înălțimea Minimă a Textului: Înălțimea minimă a textului care trebuie extras este de 12 pixeli pentru o imagine de 1024 x 768 pixeli. Această dimensiune corespunde aproximativ unui text de 8 puncte la 150 DPI (puncte per inch).

Divizarea Documentelor

Atunci când un fișier conține mai multe documente, clasificatorul are capacitatea de a identifica diferitele tipuri de documente prezente în fișierul de intrare. Răspunsul clasificatorului include intervalele de pagini pentru fiecare dintre tipurile de documente identificate, putând chiar să includă mai multe instanțe ale aceluiași tip de document.

Operațiunea de analiză include acum o proprietate numită splitMode, care vă oferă un control granular asupra comportamentului de divizare. Iată cum puteți utiliza această proprietate:

  • splitMode: none - Pentru a trata întregul fișier de intrare ca un singur document pentru clasificare. Când setați această opțiune, serviciul va returna o singură clasă pentru întregul fișier de intrare, indiferent de conținutul acestuia.
  • splitMode: perPage - Pentru a clasifica fiecare pagină a fișierului de intrare individual. Serviciul va încerca să clasifice fiecare pagină ca un document individual.
  • splitMode: auto - Când este setat pe 'auto', serviciul identifică inteligent documentele și intervalele de pagini asociate. Această setare este utilă atunci când nu sunteți sigur câte documente sau ce tipuri de documente se află într-un fișier.

Bune Practici pentru Antrenament

Pentru a maximiza acuratețea și performanța clasificatorului dumneavoastră personalizat, este esențial să urmați câteva bune practici în timpul procesului de antrenament:

  • Suficiente Eșantioane: Deși minimul este de cinci eșantioane per clasă, adăugarea de eșantioane suplimentare îmbunătățește semnificativ acuratețea modelului, mai ales dacă clasele sunt similare sau documentele prezintă variații mari.
  • Gestionarea Documentelor Necunoscute: Clasificatorul va încerca să atribuie fiecare document uneia dintre clasele antrenate. Dacă vă așteptați ca modelul să întâlnească tipuri de documente care nu fac parte din setul de date de antrenament, ar trebui să planificați fie setarea unui prag pentru scorul de clasificare (pentru a filtra rezultatele cu încredere scăzută), fie adăugarea câtorva eșantioane reprezentative ale acestor tipuri de documente într-o clasă denumită „Altele”. Adăugarea unei clase „Altele” asigură că documentele inutile nu afectează calitatea clasificatorului dumneavoastră principal.
  • Calitatea Datelor: Asigurați-vă că toate documentele de antrenament sunt de înaltă calitate, clare și lizibile. Eliminarea zgomotului, a imaginilor neclare sau a documentelor incomplete va contribui la un model mai robust.
  • Variația în Date: Includeți variații naturale ale documentelor în setul de antrenament, cum ar fi diferite fonturi, machete (dacă se aplică același tip de document poate avea mai multe machete), sau chiar documente scanate cu ușoare distorsiuni. Acest lucru ajută modelul să generalizeze mai bine.

Cum Se Antrenează un Model de Clasificare Personalizată?

Antrenarea unui model de clasificare personalizată este un proces accesibil, fie prin interfețe grafice intuitive, fie prin programare. Modelele de clasificare personalizate sunt suportate de API-ul v4.0 2024-11-30 (GA) și versiunile ulterioare.

  • Document Intelligence Studio: Aceasta oferă o interfață utilizator fără cod, permițându-vă să antrenați un clasificator personalizat într-un mod interactiv și vizual. Este o modalitate excelentă de a începe rapid, fără a scrie cod. Pur și simplu urmați ghidul „how-to” disponibil în documentație.
  • Utilizarea API-ului REST: Pentru dezvoltatorii care preferă controlul programatic, API-ul REST oferă flexibilitate maximă.
    • Dacă documentele dumneavoastră sunt organizate pe foldere, puteți utiliza proprietatea azureBlobSource a cererii pentru a antrena un model de clasificare. Aceasta specifică un container URL SAS și un prefix pentru folderele care conțin eșantioanele pentru fiecare tip de document.
    • Alternativ, dacă aveți o listă plată de fișiere sau intenționați să utilizați doar câteva fișiere selectate din fiecare folder pentru a antrena modelul, puteți utiliza proprietatea azureBlobFileListSource. Această metodă necesită o listă de fișiere în format JSON Lines (.jsonl) pentru fiecare clasă, specificând calea către fișierele individuale.
  • Suprascrierea unui Model: Începând cu v4.0 2024-11-30 (GA), modelele de clasificare personalizate suportă suprascrierea unui model existent în loc. Acest lucru este util pentru actualizări rapide, dar necesită setarea explicită a proprietății allowOverwrite la true în corpul cererii. Fiți precaut, deoarece odată suprascris, modelul original nu poate fi recuperat.
  • Copierea unui Model: De asemenea, puteți copia un model de clasificare personalizat între diferite regiuni, cum ar fi East US, West US2 și West Europe. Acest lucru este util pentru implementări multi-regionale sau pentru crearea de copii de rezervă. Procesul implică obținerea unei cereri de autorizare de copiere de la resursa țintă și apoi inițierea operațiunii de copiere de la resursa sursă.

Răspunsul Modelului

După ce ați antrenat și implementat un model de clasificare personalizată, operația de analiză a unui fișier de intrare va returna un răspuns detaliat. Versiunea API v4.0 2024-11-30 (GA) vă permite să specificați paginile de analizat din documentul de intrare folosind parametrul de interogare pages.

Răspunsul conține informații esențiale despre documentele identificate, structurate în secțiunea documents a răspunsului. Fiecare obiect document din această secțiune include:

  • docType: Tipul de document identificat de clasificator (de exemplu, „formA”, „payslip”).
  • boundingRegions: O listă de regiuni de delimitare care indică paginile și coordonatele poligonale unde a fost detectat documentul. Aceasta este crucială pentru a ști exact unde se află fiecare document în fișierul original.
  • confidence: Un scor de încredere (între 0 și 1) care indică siguranța modelului în clasificarea sa. Un scor mai mare înseamnă o încredere mai mare. Puteți utiliza acest scor pentru a filtra rezultatele sau pentru a seta praguri pentru fluxurile de lucru automate.
  • spans: (Deși nu este detaliat în text, este un câmp comun în răspunsuri, adesea legat de intervalele de text).

Acest răspuns structurat permite integrarea ușoară a clasificatorului în aplicații, permițând automatizarea fluxurilor de lucru bazate pe tipul de document și localizarea acestuia în fișierul original.

Întrebări Frecvente (FAQ)

Iată câteva întrebări frecvente despre antrenarea clasificatorilor personalizați în Azure AI Document Intelligence:

Câte documente sunt necesare pentru a antrena un clasificator personalizat?
Este necesar un minim de cinci eșantioane de documente pentru fiecare clasă distinctă pe care doriți să o antrenați.
Care este numărul maxim de clase suportate de un clasificator personalizat?
Un clasificator personalizat poate suporta un număr maxim de 1.000 de clase distincte.
Pot antrena un clasificator cu documente Microsoft Office (Word, Excel, PowerPoint)?
Da, modelele de clasificare personalizate suportă antrenarea cu documente în formate Word (docx), Excel (xlsx) și PowerPoint (pptx), pe lângă PDF și diverse formate de imagine.
Ce este antrenamentul incremental și de ce este important?
Antrenamentul incremental permite adăugarea de noi eșantioane la clase existente sau adăugarea de clase complet noi la un clasificator deja antrenat. Este important pentru a menține modelul actualizat cu nevoile de afaceri în schimbare și pentru a rezolva provocările legate de retenția datelor.
Clasificatorul poate procesa un fișier care conține mai multe tipuri de documente sau mai multe instanțe ale aceluiași document?
Absolut! Modelele de clasificare personalizate sunt concepute pentru a identifica mai multe documente sau mai multe instanțe ale aceluiași document într-un singur fișier de intrare, oferind intervalele de pagini corespunzătoare pentru fiecare.
Este suportată limba română pentru antrenarea clasificatorilor?
Modelele de clasificare pot fi acum antrenate pe documente în diferite limbi. Vă recomandăm să consultați documentația oficială Azure AI Document Intelligence pentru o listă completă și actualizată a limbilor suportate.

Dacă vrei să descoperi și alte articole similare cu Ghid Complet: Antrenarea Clasificatoarelor Personalizate, poți vizita categoria Fitness.

Go up