anon-legal-pl — anonimizacja bez chmury
anon-legal-pl — anonimizacja, która nie wypuszcza danych z firmy
Większość narzędzi do anonimizacji wymaga wysłania dokumentu do chmury. To rozwiązanie pozorne — żeby ukryć dane przed zewnętrznym modelem, najpierw trzeba mu te dane pokazać. anon-legal-pl odwraca tę kolejność i usuwa dane osobowe lokalnie, więc poufne akta nigdy nie opuszczają Twojego komputera.
Anonimizacja, która i tak wysyła dane
Popularny scenariusz wygląda tak: chcesz skorzystać z zewnętrznego modelu AI przy aktach, więc najpierw „anonimizujesz" dokument w usłudze online. Tyle że, żeby usługa mogła cokolwiek ukryć, musi najpierw te dane zobaczyć i przetworzyć na swoich serwerach. W poufnych aktach jest to ryzyko nie do przyjęcia, a często wprost naruszenie obowiązków wobec klienta.
Dlatego zbudowaliśmy narzędzie, które odwraca tę logikę. Anonimizacja dzieje się u Ciebie, zanim cokolwiek wyjdzie na zewnątrz.
Jak to działa
Całe przetwarzanie odbywa się lokalnie, bez połączenia z chmurą. Dokument przechodzi przez kilka warstw rozpoznawania. Najpierw Presidio, silnik wykrywania danych osobowych od Microsoftu. Potem polski model spaCy (pl_core_news_lg), który rozpoznaje encje z uwzględnieniem odmiany. Opcjonalnie włącza się lokalny model Bielik (przez Ollamę), żeby wyłapać to, co umknęło wcześniej. Skany i pliki PDF obsługuje warstwa OCR (Tesseract) oraz PyMuPDF.
Co wykrywa
- Identyfikatory — PESEL, NIP, REGON, z walidacją sumy kontrolnej, co ogranicza fałszywe trafienia.
- Dane osobowe — nazwiska i adresy w różnych przypadkach gramatycznych.
- Dane sprawy — sygnatury sądowe, numery umów.
- Dane finansowe — numery IBAN.
- Podmioty — nazwy organizacji.
Pseudonimizacja, nie czarna plama
Zamiast zamazywać dane na czarno, narzędzie podmienia je na spójne znaczniki, takie jak [OSOBA_1] czy [PESEL_1]. Powstaje przy tym plik mapowania, więc proces da się odwrócić. Ta sama osoba dostaje ten sam znacznik w całym dokumencie, co zachowuje sens akt — anonimowy tekst nadal da się czytać i analizować.
Jak tego użyć
Narzędzie działa z wiersza poleceń:
python anonimizuj.py akta.docx wynik.txt
python ocr.py skan.pdf akta.txtNa wejściu przyjmuje DOCX, TXT i PDF, także skany. Na wyjściu daje plik TXT z treścią po anonimizacji oraz opcjonalny plik mapowania. Próg pewności, wariant modelu i użycie Bielika ustawia się flagami (--prog, --model, --bielik). Do pracy na wielu dokumentach jest też prosty interfejs w Streamlit.
⚠️ Narzędzie pierwszego przejścia, nie ostatniego
Nie obiecujemy stuprocentowej skuteczności, bo „recall nigdy nie jest pełny". Wynik zawsze wymaga przeglądu przez prawnika, zanim dokument opuści kancelarię. Traktujemy to jako twardą zasadę, nie zastrzeżenie drobnym drukiem.
Dlaczego powstało u nas
Chcieliśmy korzystać z AI przy aktach, nie oddając danych osobowych na zewnątrz. Gotowe narzędzia tego nie dawały, więc napisaliśmy własne. Jest otwarte (Apache 2.0), bo prywatności łatwiej zaufać, gdy każdy może sprawdzić, jak działa.
Wdrażasz AI przy dokumentach?
Chcesz, żeby było to zgodne z RODO? Doradzamy w prawie nowych technologii z perspektywy praktyków, którzy te narzędzia tworzą.