ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM

Лэй Энстазия (2025)

Книга представляет собой практическое руководство по созданию интеллектуальных тренажеров на основе Retrieval-Augmented Generation (RAG) и языковых моделей (LLM). Автор подробно описывает ключевые этапы разработки: сбор и структурирование данных, выбор технологий и инструментов, интеграцию RAG с LLM, проектирование пользовательского интерфейса, обучение моделей, тестирование и развертывание. Особое внимание уделено автоматизации процессов обработки данных, созданию эффективных алгоритмов поиска и генерации контента, а также разработке интерфейсов, ориентированных на пользователя. Каждая глава включает детализированные примеры, технические рекомендации и готовые фрагменты кода. Книга будет полезна разработчикам, исследователям и специалистам, заинтересованным в применении искусственного интеллекта для когнитивного программирования корпоративного сознания.

Автор: Лэй Энстазия

Жанры и теги: Программы, Программирование, Инновации в бизнесе

Купить книгу

Приведённый ознакомительный фрагмент книги «ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM» предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

←1.2 Очистка данных

1.3 Анализ структуры данных→

Практические примеры для этапа очистки данных

1.2.1 Удаление HTML-тегов и ненужных элементов

Пример: Очистка выгрузки с корпоративного сайта

Ваши данные включают статьи с HTML-тегами, ссылками и ненужными стилями. Используйте `BeautifulSoup` для автоматической очистки контента:

```python

from bs4 import BeautifulSoup

import os

def clean_html_file(filepath):

with open(filepath,"r", encoding="utf-8") as file:

html_content = file.read()

soup = BeautifulSoup(html_content,"html.parser")

clean_text = soup.get_text()

return clean_text.strip()

# Пример применения для директории

directory ="./data"

for filename in os.listdir(directory):

if filename.endswith(".html"):

cleaned_text = clean_html_file(os.path.join(directory, filename))

with open(f"./cleaned/{filename.replace('.html', '.txt')}","w", encoding="utf-8") as clean_file:

clean_file.write(cleaned_text)

```

Этот скрипт обработает все HTML-файлы, извлекая только текстовый контент.

1.2.2 Фильтрация дублирующихся текстов

Пример: Исключение одинаковых статей из нескольких источников

Если в базе обнаруживаются дублирующие тексты, используйте хэширование для их удаления.

```python

import hashlib

def remove_duplicates(texts):

unique_texts = {}

for text in texts:

text_hash = hashlib.md5(text.encode()).hexdigest()

if text_hash not in unique_texts:

unique_texts[text_hash] = text

return list(unique_texts.values())

texts = ["Текст 1…","Текст 2…","Текст 1…"]

unique_texts = remove_duplicates(texts)

print(unique_texts)

```

Этот код сохранит только уникальные тексты, минимизируя объем данных.

1.2.3 Нормализация текста

Пример: Приведение текстов к единому формату

Для унификации данных выполните нормализацию текста: удаление стоп-слов, специальных символов и приведение к нижнему регистру.

```python

import re

import nltk

from nltk.corpus import stopwords

nltk.download('stopwords')

stop_words = set(stopwords.words('russian'))

def normalize_text(text):

text = text.lower()

# Приведение к нижнему регистру

text = re.sub(r'[^\w\s]', '', text)

# Удаление специальных символов

tokens = text.split()

filtered_tokens = [word for word in tokens if word not in stop_words]

# Удаление стоп-слов

return"".join(filtered_tokens)

text ="Пример текста: как удалить лишние символы и нормализовать данные!"

normalized_text = normalize_text(text)

print(normalized_text)

```

Результат: `"пример текста удалить лишние символы нормализовать данные"`

1.2.4 Автоматизация процесса очистки

Пример: Скрипт для обработки всех файлов в папке

Создайте скрипт, который автоматически выполняет весь процесс очистки — удаляет шумы, фильтрует дубли и нормализует данные:

```python

import os

def process_files(input_dir, output_dir):

for filename in os.listdir(input_dir):

with open(os.path.join(input_dir, filename),"r", encoding="utf-8") as file:

raw_text = file.read()

# Очистка данных

clean_text = normalize_text(clean_html_file(raw_text))

# Сохранение результата

with open(os.path.join(output_dir, filename),"w", encoding="utf-8") as clean_file:

clean_file.write(clean_text)

process_files("./raw_data","./cleaned_data")

```

Этот инструмент автоматизирует обработку данных для всех текстов в указанной директории.

1.2.5 Инструменты для ускорения обработки больших объемов данных

Пример: Использование `spaCy` для масштабных операций

Если объем данных велик, подключите `spaCy` для ускорения обработки:

```python

import spacy

nlp = spacy.load("ru_core_news_sm")

def process_with_spacy(text):

doc = nlp(text.lower())

return"".join([token.text for token in doc if not token.is_stop and not token.is_punct])

text ="Когнитивное программирование — это подход, направленный на оптимизацию работы сознания."

processed_text = process_with_spacy(text)

print(processed_text)

```

Результат: `"когнитивное программирование подход направленный оптимизацию работы сознания"`

Эти примеры демонстрируют, как автоматизировать и оптимизировать процесс очистки данных для подготовки качественного материала, который станет основой для работы RAG и LLM.

1.3 Анализ структуры данных→

←1.2 Очистка данных