W poprzednich postach napisałem o obietnicy, jaką daje Agentic CRM i ogólnie Agentic AI. Nie chodzi o proste use case’y umożliwione przez Generative AI typu „Napisz emaila” i „Podsumuj emaila„, ani nawet „Sprawdź gdzieś i przygotuj„, ale o scenariusze, w których agenty mogą naprawdę pokazać wartość – kiedy same wykonują zadania: umawiają spotkania, aktualizują szanse sprzedaży i przewidują ryzyko odejścia klienta.

Tylko jest jeden problem – marketing big techów i hype powodują, że wszyscy chcą budować agenty na tym, co mają, a ponieważ codziennie są zachęcani przez „guru automatyzacji” do szybkiej budowy agentów na tym, co jest dostępne (bo przecież porządkowanie danych najpierw tylko spowalnia innowacje, co nie?). Przez to powstają workflowy, które są budowane na cyfrowym piasku, czyli na listach SharePoint, Excelu zuploadowanym do jakiejś aplikacji SaaS, albo pliku PDF wrzuconym do OneDrive.

W tym poście pokażę, dlaczego Excel i SharePoint to za mało, po co nam Semantic Index i jak ekosystem Microsoft Graph, Dataverse i Azure AI pozwalają zbudować agenta, który naprawdę ma potencjał „ogarnąć” biznes.

Jakość i możliwości każdego agenta AI są wprost proporcjonalne do jakości i struktury danych, do których dostęp ma agent (Data Grounding).

Dlaczego struktura danych ma znaczenie zanim zaczniesz budować agenty

W świecie agentów AI i Generative AI kontekst jest królem. Kiedy pytasz agenta o „najważniejsze szanse sprzedaży w Polsce w tym kwartale”, agent musi wyłowić odpowiednie informacje z Twoich danych, a następnie je sensownie połączyć „znaczeniowo” (semantycznie). Dlatego należy jasno określić i zdecydować jakie dane ustrukturyzowane i nieustrukturyzowane chcemy dać agentowi:

  • Dane ustrukturyzowane (Structured Data)

To wszystkie dane o wysokim stopniu organizacji – bazy relacyjne, tabele (encje), kolumny o ściśle określonych typach (liczba, data, lookup) oraz relacje (1:N, N:N).

Rola w agentach AI: kiedy użytkownik pyta o „sprzedaż w Q1”, agent odwołuje się do konkretnych pól w jakiejś tabeli (np. Opportunity w CRM), a nie szuka tekstu „sprzedaż” w przypadkowych dokumentach.

  • Dane nieustrukturyzowane (Unstructured Data)

To dokumenty Word, PDF, maile, notatki w OneNote. W skrócie każdy tekst i wszystko, co ma narrację i kontekst, ale brakuje im sztywnego schematu.

Rola w agentach AI: są niezbędne do budowania „miękkiej” wiedzy (np. opis procedury, albo warunki reklamacji), ale same w sobie są trudne (albo niebezpieczne, o tym dalej) do precyzyjnego odpytania bez odpowiedniego indeksowania.

Problem z danymi nieustrukturyzowanymi (tekst w plikach) polega na tym, że brakuje im często warstwy meta-informacji. Trochę problemów jest też z bezpieczeństwem – kontrola poszczególnego wiersza lub danych w Excel jest fikcją.

Jak GenAI widzi Twoje dane na przykładzie Semantic Index i Microsoft Graph

Kluczem do tego, żeby Agentic CRM działał, jest zrozumienie semantyki danych, a nie sam dostęp do danych. To w światku Microsoft daje m.in. Semantic Index for Copilot i Microsoft Graph. Aby zrozumieć ich rolę, musimy rozróżnić dwa światy wyszukiwania: leksykalny i semantyczny.

Tradycyjne metody znane z klasycznych wyszukiwarek (a także prostych implementacji RAG na plikach), działają leksykalnie, czyli szukają słów. Jeśli słowa nie ma w indeksie (lub użytkownik zrobi literówkę), to dla systemu informacja nie istnieje.

Agent AI potrzebuje czegoś więcej – potrzebuje semantyki, czyli zrozumienia znaczenia.

Semantic Index to technologia, która w tle tworzy wektorową reprezentację wskazanych danych. Zamienia słowa, zdania i całe dokumenty na wielowymiarowe mapy liczbowe. Dzięki temu AI nie szuka „słów”, ale „koncepcji” i „intencji” w postaci liczb i wektorów.

Przykład praktyczny: „Projekt X”

Scenariusz tradycyjny (Excel / SharePoint Search):

Użytkownik wpisuje „Projekt Omega”. System skanuje pliki. Jeśli w kluczowym dokumencie ktoś użył skrótu „Proj. O.” albo nazwy kodowej klienta zamiast nazwy projektu, nic nie znajdzie. Koniec procesu.

Scenariusz z Semantic Index (Copilot + Dataverse + Graph):

Semantic Index „rozumie”, że „Projekt Omega” to koncept powiązany z konkretnym Klientem w Dataverse, zespołem na Teams i mailami o projekcie z Klientem X z zeszłego tygodnia. Dzięki integracji z Microsoft Graph, agent „widzi” niewidoczne gołym okiem relacje: wie, że ten projekt jest prowadzony przez Osobę X z Działu Y i że dotyczy szansy sprzedaży o wysokim priorytecie (informacja z Dataverse). Bez Semantic Index agent AI to najwyżej prosty workflow z wyszukiwaniem po słowach kluczowych. Z Semantic Index otrzymuje kontekst operacyjny.

Dodatkowo Microsoft wykorzystuje potężne mechanizmy indeksowania (w tym Azure AI Search i Microsoft Graph), aby „zrozumieć” dane. Dzięki nim RAG (Retrieval-Augmented Generation) nie musi „skanować” tysięcy wierszy z pliku w czasie rzeczywistym (co jest wolne i niedokładne). Zamiast tego odpytuje zoptymalizowany indeks wektorowy, błyskawicznie łącząc fakty: Klient X (Dataverse) + mail o awarii (Exchange) + dane (Excel).

Garbage In, Hallucination Out

Przez lata w IT obowiązywała zasada GIGO (Garbage In, Garbage Out). Jeśli wrzuciłeś do Excela błędne liczby, dostałeś błędny wykres. Było to dość łatwe do wyłapania. W erze Generative AI zasada ta ewoluowała w znacznie groźniejszą formę: Garbage In, Hallucination Out.

Modele językowe (LLM) są z natury uczynne. Chcą odpowiedzieć na pytanie użytkownika za wszelką cenę. Gdy napotkają w danych luki, sprzeczności lub brak kontekstu, nie wyrzucą błędu (chyba, że ktoś dobrze zrobił wcześniej guardrails i system prompts, ale o tym kiedy indziej). Zamiast tego wypełnią ‚luki w wiedzy” swoją kreatywnością. Halucynacja w wykonaniu AI to nic innego jak niezwykle przekonujące kłamstwo zbudowane na fundamentach słabej jakości danych.

Tu z kolei wchodzi w grę etykietowanie danych (Data Labelling) i metadane. Aby Agentic CRM działał i był bezpieczny, dane muszą być etykietowane w sposób zrozumiały i taki, który może coś znaczyć dla agenta, np.:

  • Status cyklu życia dokumentu: Draft / Obowiązujący / Zarchiwizowany
  • Klasyfikacja bezpieczeństwa: Publiczne / Wewnętrzne / Ściśle tajne
  • Właściciel danych: Dział Sprzedaży / Dział Prawny / HR

Dlatego higiena danych (Data Hygiene) przestała być zadaniem administracyjnym, a stała się strategicznym krokiem do trenowania AI przed budową agentów.

Jeśli nie etykietujesz danych, to nie budujesz agenta, tylko czat-generator odpowiedzi.
Agent bez etykiet, kontekstu i higieny danych nie podejmuje decyzji.