Wgraj plik
Obsługiwane formaty
| Format | Rozszerzenia | Typ MIME |
|---|---|---|
.pdf | application/pdf | |
| Excel | .xlsx | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
| CSV | .csv | text/csv |
| Word | .docx | application/vnd.openxmlformats-officedocument.wordprocessingml.document |
Walidacja
Pliki są walidowane w trzech warstwach przed uploadem:- Rozszerzenie — musi być jednym z obsługiwanych formatów powyżej
- Typ MIME — musi odpowiadać oczekiwanemu typowi dla rozszerzenia
- Magic bytes — nagłówek pliku jest sprawdzany aby potwierdzić rzeczywisty format (zapobiega zmianie nazwy plików wykonywalnych na
.pdf)
.exe, .sh, .bat, .dll, itd.) i pliki binarne (ELF, Mach-O) są zawsze odrzucane.
Limity
| Limit | Wartość |
|---|---|
| Maksymalny rozmiar pliku | 50 MB |
| Dozwolone formaty | PDF, XLSX, CSV, DOCX |
Kody błędów
| Status | Znaczenie |
|---|---|
201 Created | Plik wgrany i przetwarzanie rozpoczęte |
400 Bad Request | Brak pliku (użyj nazwy pola file) |
413 Payload Too Large | Plik przekracza 50 MB |
415 Unsupported Media Type | Format pliku niedozwolony lub niezgodność magic bytes |
Pipeline przetwarzania
Po wgraniu plik przechodzi przez pipeline przetwarzania:- Parsowanie — dokument jest parsowany na strefy (sekcje, tabele, itd.)
- Ekstrakcja — karty wiedzy są ekstrahowane ze stref za pomocą LLM
- Indeksowanie — karty są embedowane i indeksowane w bazie wektorowej
.xlsx, .csv) przechodzą osobny pipeline zoptymalizowany dla danych tabelarycznych.
Status kolekcji zmienia się na processing w tym czasie i processed po zakończeniu.