anon-legal-pl — anonimizacja bez chmury

Open source RODO / Prywatność Działa offline Darmowe narzędzie

anon-legal-pl — anonimizacja, która nie wypuszcza danych z firmy

Większość narzędzi do anonimizacji wymaga wysłania dokumentu do chmury. To rozwiązanie pozorne — żeby ukryć dane przed zewnętrznym modelem, najpierw trzeba mu te dane pokazać. anon-legal-pl odwraca tę kolejność i usuwa dane osobowe lokalnie, więc poufne akta nigdy nie opuszczają Twojego komputera.

Autor: Adam Piotrowski Aktualizacja: czerwiec 2026

Narzędzie open source na GitHubie

Kod, dokumentacja i instrukcja uruchomienia. Licencja Apache 2.0 — działa w całości na Twoim sprzęcie.

Zobacz na GitHubie

Anonimizacja, która i tak wysyła dane

Popularny scenariusz wygląda tak: chcesz skorzystać z zewnętrznego modelu AI przy aktach, więc najpierw „anonimizujesz" dokument w usłudze online. Tyle że, żeby usługa mogła cokolwiek ukryć, musi najpierw te dane zobaczyć i przetworzyć na swoich serwerach. W poufnych aktach jest to ryzyko nie do przyjęcia, a często wprost naruszenie obowiązków wobec klienta.

Dlatego zbudowaliśmy narzędzie, które odwraca tę logikę. Anonimizacja dzieje się u Ciebie, zanim cokolwiek wyjdzie na zewnątrz.

Jak to działa

Całe przetwarzanie odbywa się lokalnie, bez połączenia z chmurą. Dokument przechodzi przez kilka warstw rozpoznawania. Najpierw Presidio, silnik wykrywania danych osobowych od Microsoftu. Potem polski model spaCy (pl_core_news_lg), który rozpoznaje encje z uwzględnieniem odmiany. Opcjonalnie włącza się lokalny model Bielik (przez Ollamę), żeby wyłapać to, co umknęło wcześniej. Skany i pliki PDF obsługuje warstwa OCR (Tesseract) oraz PyMuPDF.

Co wykrywa

Identyfikatory — PESEL, NIP, REGON, z walidacją sumy kontrolnej, co ogranicza fałszywe trafienia.
Dane osobowe — nazwiska i adresy w różnych przypadkach gramatycznych.
Dane sprawy — sygnatury sądowe, numery umów.
Dane finansowe — numery IBAN.
Podmioty — nazwy organizacji.

Pseudonimizacja, nie czarna plama

Zamiast zamazywać dane na czarno, narzędzie podmienia je na spójne znaczniki, takie jak [OSOBA_1] czy [PESEL_1]. Powstaje przy tym plik mapowania, więc proces da się odwrócić. Ta sama osoba dostaje ten sam znacznik w całym dokumencie, co zachowuje sens akt — anonimowy tekst nadal da się czytać i analizować.

Jak tego użyć

Narzędzie działa z wiersza poleceń:

python anonimizuj.py akta.docx wynik.txt
python ocr.py skan.pdf akta.txt

Na wejściu przyjmuje DOCX, TXT i PDF, także skany. Na wyjściu daje plik TXT z treścią po anonimizacji oraz opcjonalny plik mapowania. Próg pewności, wariant modelu i użycie Bielika ustawia się flagami (--prog, --model, --bielik). Do pracy na wielu dokumentach jest też prosty interfejs w Streamlit.

⚠️ Narzędzie pierwszego przejścia, nie ostatniego

Nie obiecujemy stuprocentowej skuteczności, bo „recall nigdy nie jest pełny". Wynik zawsze wymaga przeglądu przez prawnika, zanim dokument opuści kancelarię. Traktujemy to jako twardą zasadę, nie zastrzeżenie drobnym drukiem.

Dlaczego powstało u nas

Chcieliśmy korzystać z AI przy aktach, nie oddając danych osobowych na zewnątrz. Gotowe narzędzia tego nie dawały, więc napisaliśmy własne. Jest otwarte (Apache 2.0), bo prywatności łatwiej zaufać, gdy każdy może sprawdzić, jak działa.

Wdrażasz AI przy dokumentach?

Chcesz, żeby było to zgodne z RODO? Doradzamy w prawie nowych technologii z perspektywy praktyków, którzy te narzędzia tworzą.

Skontaktuj się z nami

anon-legal-pl — anonimizacja dokumentów prawnych