Вернуться

🚀 Обзор приложения

Gemini Live API — это приложение для реал-тайм общения с ИИ-ассистентом Google Gemini. Вы можете взаимодействовать через:

🎤

Голосовой ввод

Говорите напрямую в микрофон, ассистент расшифрует вашу речь

📹

Видео-трансляция

Поделитесь тем, что видит ваша камера, с ассистентом

💬

Текстовый ввод

Введите текст в поле для отправки сообщения

🔊

Голосовой ответ

Слушайте ответы ассистента с красивым голосом

Быстрый старт

  1. Откройте приложение в браузере
  2. Нажмите "Подключиться"
  3. Разрешите доступ к микрофону (если потребуется)
  4. Начните разговор — голосом или текстом!

🎮 Управление интерфейсом

Основные элементы управления

🎤 Микрофон
Включает/отключает захват звука с вашего микрофона
Кнопка Mic
📹 Камера
Включает/отключает трансляцию с вашей веб-камеры
Кнопка Cam
🖥️ Экран
Демонстрация экрана ассистенту
Кнопка Screen
💬 Поле ввода
Введите текстовое сообщение. Enter — отправить, Shift+Enter — новая строка
Enter

Индикаторы состояния

Индикатор Значение
● Online Соединение установлено, можно общаться
Offline Нет соединения с сервером
Mic активен Ваша речь записывается и передаётся
● LIVE Видео-трансляция активна

✨ Возможности и функции

🎙️ Голосовое взаимодействие

  • Автоматическое распознавание речи (ASR)
  • Синтез речи с естественным голосом
  • Поддержка реал-тайм транскрипции
  • Мультиязычность — говорите на любом языке

📹 Видео-функции

  • Трансляция с веб-камеры
  • Захват экрана для демонстрации
  • Прямой анализ видео ассистентом
  • Сжатие для оптимизации передачи

💭 Интеллектуальные возможности

  • Контекстное понимание разговора
  • Поддержка многоязычного общения
  • Расширенная обработка естественного языка
  • Понимание визуального контента

🔧 Технические возможности

  • WebSocket для минимальной задержки
  • Асинхронная обработка
  • Поддержка инструментов (tools)
  • Обработка ошибок и восстановление

❓ Часто задаваемые вопросы

Почему я не слышу ответы?
Проверьте:
  • Включены ли динамики
  • Не отключен ли звук в браузере
  • Нормальный ли уровень громкости
  • Разрешил ли браузер воспроизведение звука
Как разрешить доступ к микрофону?
Браузер должен попросить разрешение при первом использовании. Если этого не произошло:
  • Нажмите на 🔒 иконку в адресной строке
  • Найдите "Микрофон" и выберите "Разрешить"
  • Перезагрузите страницу
Может ли ассистент видеть мою камеру?
Да, когда вы включите камеру (кнопка 📹), видеопоток передаётся ассистенту в реальном времени. Он может видеть и анализировать видео.
Как остановить разговор?
Нажмите кнопку Exit или закройте вкладку браузера. Это прерёт сессию.
Какой язык поддерживается?
Приложение поддерживает любой язык, который понимает Google Gemini. Просто говорите на вашем языке!
Безопасны ли мои данные?
Данные передаются через WebSocket на сервер, а затем в Google Gemini API. Используйте HTTPS в production для дополнительной безопасности.

🔧 Решение проблем

Ошибка подключения Если вы видите ошибку подключения:
  • Проверьте, что сервер запущен: python main.py
  • Убедитесь, что используется правильный адрес: http://localhost:8000
  • Перезагрузите браузер (Ctrl+Shift+R)
  • Проверьте консоль браузера на ошибки (F12)
API ключ невалиден Если ассистент не отвечает:
  • Проверьте файл .env — должен содержать GEMINI_API_KEY
  • Убедитесь, что ключ не истёк в Google AI Studio
  • Перезагрузите сервер после изменения ключа
Плохое качество звука Если ассистент плохо понимает вас:
  • Убедитесь, что микрофон работает и расположен близко
  • Снизьте уровень фонового шума
  • Говорите чётче и не слишком быстро
Видео не отправляется Если камера не работает:
  • Проверьте разрешения для браузера
  • Убедитесь, что камера не занята другим приложением
  • Попробуйте другой браузер (Chrome, Firefox, Safari)

⌨️ Горячие клавиши

Клавиша Действие
Enter Отправить текстовое сообщение
Shift + Enter Новая строка в поле ввода
Ctrl/⌘ + Shift + R Полная перезагрузка страницы
F12 / Cmd + Option + I Открыть DevTools
Совет: Используйте Shift + Enter для многострочных сообщений!