Книга представляет собой практическое руководство по созданию интеллектуальных тренажеров на основе Retrieval-Augmented Generation (RAG) и языковых моделей (LLM). Автор подробно описывает ключевые этапы разработки: сбор и структурирование данных, выбор технологий и инструментов, интеграцию RAG с LLM, проектирование пользовательского интерфейса, обучение моделей, тестирование и развертывание. Особое внимание уделено автоматизации процессов обработки данных, созданию эффективных алгоритмов поиска и генерации контента, а также разработке интерфейсов, ориентированных на пользователя. Каждая глава включает детализированные примеры, технические рекомендации и готовые фрагменты кода. Книга будет полезна разработчикам, исследователям и специалистам, заинтересованным в применении искусственного интеллекта для когнитивного программирования корпоративного сознания.
Приведённый ознакомительный фрагмент книги «ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
Практические примеры для этапа анализа структуры данных
1.3.1 Приведение данных к единому формату
Пример: Унификация форматов JSON, CSV и текста
Предположим, вы имеете три типа данных:
1. Таблицы в формате CSV с краткими определениями терминов.
2. Тексты в формате TXT с описанием кейсов.
3. Неструктурированные данные в JSON.
Для унификации все данные преобразуются в JSON с фиксированной структурой.
```python
import pandas as pd
import json
import os
def csv_to_json(csv_file, output_file):
df = pd.read_csv(csv_file)
data = df.to_dict(orient="records")
with open(output_file,"w", encoding="utf-8") as f:
json.dump(data, f, ensure_ascii=False, indent=4)
def txt_to_json(txt_file, output_file, category):
with open(txt_file,"r", encoding="utf-8") as f:
content = f.read()
data = {
"title": os.path.basename(txt_file).replace(".txt",""),
"category": category,
"content": content.strip()
}
with open(output_file,"w", encoding="utf-8") as f:
json.dump(data, f, ensure_ascii=False, indent=4)
# Пример вызова функций
csv_to_json("terms.csv","terms.json")
txt_to_json("case_description.txt","case.json","Кейсы")
```
Результат — преобразованные данные в едином формате JSON.
1.3.2 Структурирование данных
Пример: Разделение данных по ключевым категориям
При обработке собранной информации важно выделить ключевые поля, такие как заголовок, категория и ключевые слова. Для этого создайте функцию, которая добавляет недостающие поля и унифицирует структуру.
```python
def structure_data(raw_data, category):
structured_data = []
for item in raw_data:
structured_data.append({
"title": item.get("title","Без названия"),
"category": category,
"content": item.get("content",""),
"keywords": item.get("keywords", [])
})
return structured_data
# Пример исходных данных
raw_data = [
{"title":"Модель командного мышления","content":"Описание модели…"},
{"content":"Описание когнитивных процессов…"}
]
structured = structure_data(raw_data,"Теория")
print(json.dumps(structured, ensure_ascii=False, indent=4))
```
Результат: добавлены заголовки и категории, что упрощает дальнейшую обработку.
1.3.3 Конвертация данных
Пример: Автоматическая обработка всех файлов в директории
Напишите скрипт, который обрабатывает файлы разных форматов и сохраняет их в едином формате JSON.
```python
def process_directory(input_dir, output_dir):
for filename in os.listdir(input_dir):
file_path = os.path.join(input_dir, filename)
if filename.endswith(".csv"):
csv_to_json(file_path, os.path.join(output_dir, filename.replace(".csv",".json")))
elif filename.endswith(".txt"):
txt_to_json(file_path, os.path.join(output_dir, filename.replace(".txt",".json")),"Кейсы")
elif filename.endswith(".json"):
# Дополнительная обработка JSON (если требуется)
pass
process_directory("./raw_data","./processed_data")
```
Этот подход обеспечивает унификацию данных на основе их типа.
1.3.4 Формирование структуры для работы с данными
Пример: Структура базы знаний для когнитивного тренажера
Создайте JSON-файл, который будет хранить данные по ключевым тематикам.
```json
[
{
"title":"Основы когнитивного программирования",
"category":"Теория",
"content":"Когнитивное программирование — это метод…",
"keywords": ["основы","когнитивное программирование","теория"]
},
{
"title":"Кейс: Внедрение когнитивных моделей",
"category":"Кейсы",
"content":"Этот кейс описывает, как компания…",
"keywords": ["кейсы","внедрение","когнитивные модели"]
}
]
```
Такая структура обеспечивает удобный доступ к информации для алгоритмов RAG.
1.3.5 Проверка данных после унификации
Пример: Тестирование корректности структуры
После конвертации проверьте, что все данные соответствуют заданному формату, используя Python:
```python
def validate_data(data):
required_keys = ["title","category","content","keywords"]
for item in data:
for key in required_keys:
if key not in item:
print(f"Ошибка: отсутствует ключ '{key}' в элементе {item['title']}")
print("Все данные проверены.")
# Пример проверки
with open("processed_data.json","r", encoding="utf-8") as f:
data = json.load(f)
validate_data(data)
```
Этот процесс гарантирует, что все данные готовы к интеграции в когнитивный тренажер.
Данные примеры позволяют систематизировать данные, обеспечивая их подготовленность для дальнейшего использования в системе RAG и языковой модели.
Приведённый ознакомительный фрагмент книги «ИИ-агент в когнитивном программировании сознания – объединяем RAG и LLM» предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других