插件agent：# video_chat_plugin/ai_companion_bot.py "...

Question

插件agent：# video_chat_plugin/ai_companion_bot.py
"""
AI Companion Bot - LiveKit Agents Implementation
基于官方文档最佳实践重构的语音AI助手
"""
import asyncio
import logging
import base64
import re
import os
import io
import json
import httpx
import soundfile as sf
import numpy as np
import time
from pathlib import Path
from typing import Dict, Any, Optional, AsyncGenerator
from PIL import Image
from io import BytesIO
from dotenv import load_dotenv

加载环境变量

from pathlib import Path
plugin_dir = Path(file).parent
load_dotenv(plugin_dir / '.env')

配置日志级别

log_level = os.getenv('LOG_LEVEL', 'INFO').upper()
debug_mode = os.getenv('DEBUG', 'false').lower() == 'true'

if debug_mode:
log_level = 'DEBUG'

使用增强的日志系统替代基础logging

try:
from enhanced_logging import setup_global_logging, log_session_event, log_agent_status, log_error_with_context
logger = setup_global_logging()
logger.info("✅ AI Companion Bot - 增强日志系统已启用")
except ImportError:
# 回退到基础日志系统
logging.basicConfig(
level=getattr(logging, log_level, logging.INFO),
format="%(asctime)s - %(levelname)s - %(name)s - %(message)s"
)
logger = logging.getLogger(name)
logger.warning("⚠️ 增强日志系统不可用，使用基础日志系统")
# 创建占位符函数
def log_session_event(event_type: str, session_id: str, data: dict): pass
def log_agent_status(agent_id: str, status: str, details: dict = None): pass
def log_error_with_context(error: Exception, context: dict = None): pass

if os.name == "nt":
asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())

LiveKit Agents核心导入

from livekit import agents, rtc
from livekit.agents import (
Agent, AgentSession, JobContext, RunContext,
function_tool, ToolError, stt, llm, tts,
ChatContext, ChatMessage, MetricsCollectedEvent,
RoomInputOptions, RoomOutputOptions,
AutoSubscribe, WorkerOptions, WorkerPermissions,
AgentStateChangedEvent, UserStateChangedEvent, SpeechCreatedEvent,
ConversationItemAddedEvent, APIConnectOptions, get_job_context
)

方案2A需要的额外导入 - 为了捕获usage相关异常

from livekit.agents._exceptions import APIConnectionError
from pydantic_core import ValidationError

导入插件

from livekit.plugins import silero

✅ 按官方文档导入视觉相关模块

from livekit.agents.llm import ImageContent
from livekit.agents.utils.images import encode, EncodeOptions, ResizeOptions

尝试导入OpenAI插件，如果版本冲突则跳过

try:
from livekit.plugins import openai
OPENAI_PLUGIN_AVAILABLE = True
logger.info("LiveKit OpenAI插件加载成功")
except ImportError as e:
logger.warning(f"LiveKit OpenAI插件加载失败，将使用兼容实现: {e}")
openai = None
OPENAI_PLUGIN_AVAILABLE = False

尝试导入转向检测器，兼容不同版本的导入路径

try:
from livekit.plugins.turn_detector import MultilingualModel
except ImportError:
try:
from livekit.plugins.turn_detector.multilingual import MultilingualModel
except ImportError:
logger.warning("Turn detector plugin not available, using VAD-only turn detection")
MultilingualModel = None

导入辅助工具

from livekit.agents import metrics, utils

✅ 修正导入：确保导入ImageContent用于视觉识别

from livekit.agents.voice import SpeechHandle
from typing import AsyncIterable
from livekit.agents.llm import ImageContent

导入metrics模块，用于性能指标收集

from livekit.agents import metrics as agent_metrics

导入新的STT和TTS适配器

from stt_paraformer_streaming import ParaformerStreamingSTT
from tts_fish import FishTTS

不再需要StreamAdapter，FishTTS已支持ChunkedStream

导入DashScope的识别相关类

try:
import dashscope
from dashscope.audio.asr import Recognition, RecognitionCallback, RecognitionResult
except ImportError:
logger.error("DashScope SDK not found. Please install: pip install dashscope")
raise

class AICompanionAgent(Agent):
"""AI情感陪伴助手Agent (带动态表情工具)"""

text
def __init__(self, config: Dict[str, Any], character_data: Dict[str, Any], system_prompt: str = None, chat_ctx = None):
    # 首先设置基础属性
    self.config = config
    self.character_data = character_data
    self.session_id = config.get("session_id", "unknown")
    self.use_function_call = config.get("use_function_call_for_avatar", False)  # 是否使用function call
    
    # 添加调试日志
    logger.info(f"[{self.session_id}] 🔧 Function Call设置: {self.use_function_call}")
    logger.info(f"[{self.session_id}] 🔧 原始配置值: {config.get('use_function_call_for_avatar')}")
    logger.info(f"[{self.session_id}] 🔧 环境变量值: '{os.getenv('USE_FUNCTION_CALL_FOR_AVATAR')}'")
    logger.info(f"[{self.session_id}] 🔧 config对象: {type(config)}, 所有键: {list(config.keys()) if isinstance(config, dict) else 'N/A'}")
    
    self._latest_frame: Optional[rtc.VideoFrame] = None
    self._video_stream: Optional[rtc.VideoStream] = None
    self._tasks = []
    self._avatar_done = False  # 控制每轮对话只执行一次表情切换
    
    # --- 核心改动：自动从角色文件夹加载预置图片 ---
    tools = []
    preset_images = self._load_character_images()
    
    if preset_images and self.use_function_call:
        # 只有在启用function call时才创建工具
        available_expressions = list(preset_images.keys())
        
        # 创建一个动态的工具描述
        expressions_list_str = ", ".join([f"'{kw}'" for kw in available_expressions])
        tool_description = f"""根据对话内容，选择一个最合适的表情或动作来改变你的形象。

你必须从以下可用的关键词中选择一个：{expressions_list_str}"""

text
        # 创建工具函数
        async def set_expression_wrapper(expression_keyword: str) -> str:
            return await self.set_expression(expression_keyword)
        
        # 创建工具
        expression_tool = function_tool(name="set_character_expression", description=tool_description)(set_expression_wrapper)
        tools.append(expression_tool)
    
    # 构建完整的 instructions（系统提示词）
    if system_prompt:
        base_prompt = f"{system_prompt}\n\n{character_data.get('additive_prompt', '')}"
    else:
        base_prompt = f"{config.get('system_prompt', '你是一个AI助手。')}\n\n{character_data.get('additive_prompt', '')}"
    
    # 动态添加情感控制指令（仅当启用情感控制时）
    enable_emotion_control = config.get("enable_emotion_control", True)
    if enable_emotion_control:
        emotion_instruction = f"""

语音情感控制指令（仅语音对话时使用）

当你在语音对话中回复时，可以使用Fish Audio的情感控制指令来让你的声音更有表现力。

指令格式

使用括号（）包含情感指令，格式：（情感指令）要朗读的文本

可用的情感指令

情感指令：

（开心）、（高兴）、（愉快）、（兴奋）：表达积极正面的情绪
（悲伤）、（难过）、（失望）、（伤心）：表达消极负面的情绪
（愤怒）、（生气）、（恼火）：表达愤怒情绪
（惊讶）、（震惊）、（吃惊）：表达惊讶情绪
（平静）、（温柔）、（亲切）、（轻柔）：表达温和情绪
（严肃）、（认真）：表达严肃情绪
（疑惑）、（困惑）、（不解）：表达困惑情绪

语气控制指令：

（语速变慢）：用于强调或思考
（大声）：用于强调重要内容
（声音变小）：用于温柔或悄悄话的效果
（语气激动）：用于表达强烈情绪

副语言指令（需要配合拟声词）：

（大笑）哈哈哈：表达开怀大笑
（哭泣）呜呜呜：表达伤心哭泣

使用示例

正确：（开心）今天天气真不错呢！
正确：（温柔）没关系，我会一直陪着你的。
错误：开心今天天气真不错呢！（缺少括号）

重要提醒

情感指令只在语音对话时使用，文字聊天时请正常回复
情感指令应该与你回复的内容情感保持一致

如果不确定用什么情感，可以不使用指令，让声音保持自然
"""
base_prompt += emotion_instruction

text
  # 添加【形象=xxx】使用规则（仅在不使用function call时）
  if not self.use_function_call and preset_images:
      available_expressions = list(preset_images.keys())
      expressions_str = "、".join([f"'{expr}'" for expr in available_expressions])
      avatar_instruction = f"""

⚠️ 形象切换规则：

每条回复的第一个token必须且只能包含一次【形象=xxx】标记
可用形象关键词：{expressions_str}
其后禁止再出现此格式

根据对话情绪选择合适的形象表达"""
base_prompt += avatar_instruction

text
  # 初始化父类，传递工具、指令和聊天上下文
  super().__init__(tools=tools, instructions=base_prompt, chat_ctx=chat_ctx)
  
  # 验证聊天上下文是否正确传递
  if chat_ctx:
      logger.info(f"[{self.session_id}] ✅ 初始聊天上下文已传递")
  else:
      logger.info(f"[{self.session_id}] ℹ️ 未提供初始聊天上下文，将使用空上下文")
  
  
  logger.info(f"[{self.session_id}] AI Companion Agent initialized with character: {character_data.get('name', 'default')}")
  if preset_images:
      logger.info(f"[{self.session_id}] Available expressions: {list(preset_images.keys())}")

def _load_character_images(self) -> Dict[str, str]:
"""自动从角色文件夹加载所有图片作为预置形象"""
character_name = self.character_data.get("name", "default")
characters_base_path = Path(file).parent / "assets" / "images" / "characters" / character_name

text
  logger.info(f"[{self.session_id}] 🔍 扫描角色图片文件夹: {characters_base_path}")
  
  if not characters_base_path.exists():
      logger.warning(f"[{self.session_id}] ⚠️ 角色文件夹不存在: {characters_base_path}")
      return {}
  
  # 支持的图片格式
  image_extensions = ['.jpg', '.jpeg', '.png', '.webp', '.gif']
  preset_images = {}
  
  try:
      # 扫描文件夹中的所有图片
      for file_path in characters_base_path.iterdir():
          if file_path.is_file() and file_path.suffix.lower() in image_extensions:
              # 使用文件名（不含扩展名）作为表情关键词
              expression_name = file_path.stem
              # 构建相对路径
              relative_path = file_path.relative_to(Path(__file__).parent)
              preset_images[expression_name] = str(relative_path).replace('\\', '/')
              
      logger.info(f"[{self.session_id}] ✅ 自动加载了 {len(preset_images)} 个预置形象: {list(preset_images.keys())}")
      
  except Exception as e:
      logger.error(f"[{self.session_id}] ❌ 扫描角色文件夹失败: {e}")
      
  return preset_images

async def llm_node(
self,
chat_ctx: llm.ChatContext,
tools: list[agents.FunctionTool],
model_settings: agents.ModelSettings,
**kwargs
) -> AsyncIterable[llm.ChatChunk]:
"""
官方插件版本：使用super().llm_node()获得稳定的流式响应，
在此基础上实现【形象=xxx】流式解析
"""
logger.debug(f"[{self.session_id}] 🤖 LLM节点启动（官方版），使用function call: {self.use_function_call}")

text
  # 只在不使用function call时启用【形象=xxx】解析
  avatar_pattern = re.compile(r'【形象=([^】]+)】') if not self.use_function_call else None
  
  try:
      # 显式获取 LLMStream，确保用到新版逻辑
      # ✅ 修复：去掉对 model_settings.conn_options 的访问，使用默认连接选项
      llm_stream = self.session.llm.chat(
          chat_ctx=chat_ctx,
          tools=tools,
          # 如需自定义连接选项可取消注释下一行，否则使用SDK默认值
          # conn_options=APIConnectOptions(max_retry=3, retry_interval=2.0, timeout=10.0),
          tool_choice=getattr(model_settings, "tool_choice", "auto"),
      )
      async for chunk in llm_stream:
          # 流式【形象=xxx】解析
          if avatar_pattern:
              text = None
              try:
                  if hasattr(chunk, "choices") and chunk.choices:
                      choice = chunk.choices[0]
                      # 处理dict格式的choice（官方插件格式）
                      if isinstance(choice, dict) and "delta" in choice:
                          delta = choice.get("delta", {})
                          text = delta.get("content")
                      # 处理对象格式的choice
                      elif hasattr(choice, "delta") and hasattr(choice.delta, "content"):
                          text = choice.delta.content
              except Exception:
                  # 静默忽略不兼容的chunk结构
                  pass
              
              if text:
                  # 检测【形象=xxx】标记 - 只处理第一次
                  if not self._avatar_done:
                      matches = list(avatar_pattern.finditer(text))
                      if matches:
                          # 只执行第一个匹配
                          first_match = matches[0]
                          keyword = first_match.group(1)
                          logger.info(f"[{self.session_id}] 🎭 检测到首个形象切换标记: {keyword}")
                          asyncio.create_task(self._handle_avatar_change(keyword))
                          self._avatar_done = True  # 标记已处理
                  
                  # 清理文本中的形象标记（只清理第一个）
                  cleaned_text = avatar_pattern.sub('', text, count=1)
                  if cleaned_text != text:  # 只有在实际清理了内容时才修改
                      try:
                          if isinstance(choice, dict) and "delta" in choice:
                              # 对于dict格式，创建新的chunk
                              cleaned_chunk = llm.ChatChunk(
                                  id=chunk.id,
                                  choices=[{
                                      "delta": {
                                          "role": choice["delta"].get("role", "assistant"),
                                          "content": cleaned_text
                                      },
                                      "index": choice.get("index", 0)
                                  }]
                              )
                              yield cleaned_chunk
                              continue  # 跳过原始chunk的输出
                          elif hasattr(choice, "delta") and hasattr(choice.delta, "content"):
                              # 对于对象格式，直接修改
                              choice.delta.content = cleaned_text  
                      except Exception as e:
                          logger.debug(f"[{self.session_id}] 清理形象标记失败，保持原文本: {e}")
          
          # 继续把 chunk 向上游传递，保证前端仍可流式显示
          yield chunk
      
      # 正常结束 - 重置表情切换标志
      self._avatar_done = False
      logger.debug(f"[{self.session_id}] ✅ LLM流式处理正常完成，已重置表情标志")
      return
      
  except Exception as e:
      # 其他意外异常，尽量不中断用户体验
      logger.error(f"[{self.session_id}] LLM流式处理意外错误: {e!r}", exc_info=True)
      
      # 增强错误分类处理
      error_msg = "收到，我在听。请继续。"  # 默认回复
      
      if "timeout" in str(e).lower():
          error_msg = "网络有点慢，请再说一遍？"
      elif "rate" in str(e).lower() or "limit" in str(e).lower():
          error_msg = "请求太频繁了，稍等一下再试。"
      elif "token" in str(e).lower() or "unauthorized" in str(e).lower():
          error_msg = "系统有点问题，管理员正在处理中。"
      elif "model" in str(e).lower() or "not found" in str(e).lower():
          error_msg = "AI服务暂时不可用，请稍后再试。"
      
      # 使用session.say而不是手写ChatChunk，保证跨版本兼容
      await self.session.say(error_msg)
      # 异常结束时也要重置表情切换标志
      self._avatar_done = False
      return

async def _handle_avatar_change(self, keyword: str):
"""🔄 异步处理Bot形象切换。"""
try:
logger.info(f"[{self.session_id}] 🔄 开始处理Bot形象切换: {keyword}")
await self.set_expression(keyword)
logger.info(f"[{self.session_id}] ✅ Bot形象切换完成: {keyword}")
except Exception as e:
logger.error(f"[{self.session_id}] ❌ Bot形象切换失败: {e}")

async def on_enter(self) -> None:
"""
生命周期钩子：当Agent加入视频通话会话时，初始化视觉识别功能。
按照官方文档优化纯视频通话场景的视频帧处理。
"""
logger.info(f"[{self.session_id}] Agent已加入视频通话会话")

text
  # 使用 get_job_context() 获取 room
  try:
      room = get_job_context().room
      if not room:
          logger.error(f"[{self.session_id}] Room not available from job context")
          return
  except Exception as e:
      logger.error(f"[{self.session_id}] Failed to get room from job context: {e}")
      return
      
  logger.info(f"[{self.session_id}] 视频通话环境就绪，检查用户连接")
  
  # 🔥 关键修改：检查是否有非Agent参与者
  non_agent_participants = [
      p for p in room.remote_participants.values() 
      if getattr(p, 'kind', None) != 'agent'
  ]
  
  if not non_agent_participants:
      logger.info(f"[{self.session_id}] 等待用户加入视频通话...")
      # 监听参与者连接事件
      def on_user_connected(participant):
          if getattr(participant, 'kind', None) != 'agent':
              logger.info(f"[{self.session_id}] 用户已加入视频通话: {participant.identity}")
              # 移除事件监听器，避免重复初始化
              try:
                  room.off("participant_connected", on_user_connected)
              except Exception as e:
                  logger.debug(f"[{self.session_id}] 移除事件监听器失败: {e}")
              # 异步执行初始化
              asyncio.create_task(self._initialize_after_user_connected())
      
      room.on("participant_connected", on_user_connected)
      return
  
  # 如果用户已经连接，直接初始化
  logger.info(f"[{self.session_id}] 发现已连接的用户: {[p.identity for p in non_agent_participants]}")
  await self._initialize_after_user_connected()

async def _initialize_after_user_connected(self):
"""用户连接后的初始化逻辑，包含视觉输出初始化。"""
logger.info(f"[{self.session_id}] 🚀 开始初始化Agent(包含视觉功能)...")

text
  try:
      # 获取 room
      room = get_job_context().room
      if not room:
          logger.error(f"[{self.session_id}] Room not available in _initialize_after_user_connected")
          return
          
      # 等待足够时间确保用户端准备就绪（页面加载、设备初始化等）
      await asyncio.sleep(2.0)
      
      # 订阅用户视频流（Bot视觉输入）
      logger.info(f"[{self.session_id}] 👁️ 开始订阅用户视频流(作为Bot视觉输入)...")
      self._subscribe_to_video_stream()

      # 首先发送初始图片（Bot视觉输出）
      preset_images = self._load_character_images()  # 重新加载确保最新
      logger.info(f"[{self.session_id}] 🎭 可用的Bot预置形象: {list(preset_images.keys())}")
      
      if preset_images:
          default_keyword = "默认" if "默认" in preset_images else list(preset_images.keys())[0]
          logger.info(f"[{self.session_id}] 🎭 设置初始Bot形象: {default_keyword}")
          await self.set_expression(default_keyword)
      else:
          logger.warning(f"[{self.session_id}] ⚠️ 没有可用的Bot预置形象")
      
      # 发送连接状态到前端
      await room.local_participant.publish_data(
          json.dumps({
              "type": "agent_ready", 
              "message": "AI助手已就绪", 
              "character": self.character_data.get('name', 'default')
          }).encode("utf-8"), 
          topic="agent_status"
      )
      logger.info(f"[{self.session_id}] 📡 已发送Agent就绪状态到前端")
      
      # 等待更长时间再发送欢迎消息，确保图片完全加载和用户准备好
      await asyncio.sleep(3.0)
      
      # 发送欢迎消息
      display_name = self.character_data.get('display_name', 'AI助手')
      logger.info(f"[{self.session_id}] 👋 发送欢迎消息: {display_name}")
      await self.session.say(f"你好！我是{display_name}，很高兴见到你！", allow_interruptions=False)
      
      logger.info(f"[{self.session_id}] ✅ Agent初始化完成（包含视觉功能）")
      
  except Exception as e:
      logger.error(f"[{self.session_id}] ❌ Agent初始化失败: {e}", exc_info=True)

def _subscribe_to_video_stream(self):
"""
🔥 正确理解：订阅用户的摄像头视频流，用于视觉输入。
这是用户对Bot的视觉输入，不是Bot对用户的视觉输出！
符合LiveKit Agents官方标准的视频轨道处理实现。
"""
try:
room = get_job_context().room
if not room:
logger.error(f"[{self.session_id}] Room not available in _subscribe_to_video_stream")
return
except Exception as e:
logger.error(f"[{self.session_id}] Failed to get room: {e}")
return

text
  # ✅ 查找用户的视频轨道（作为Bot的视觉输入）
  for participant in room.remote_participants.values():
      for publication in participant.track_publications.values():
          if publication.track and publication.track.kind == rtc.TrackKind.KIND_VIDEO:
              logger.info(f"[{self.session_id}] 找到用户视频轨道（作为视觉输入）: {publication.track.sid}")
              self._create_video_stream(publication.track)
              return # 只订阅第一个找到的

  # ✅ 监听用户后续发布的轨道
  @room.on("track_subscribed")
  def on_track_subscribed(track: rtc.Track, publication: rtc.RemoteTrackPublication, participant: rtc.RemoteParticipant):
      if track.kind == rtc.TrackKind.KIND_VIDEO and self._video_stream is None:
          logger.info(f"[{self.session_id}] 用户新视频轨道已订阅（视觉输入）: {track.sid}")
          self._create_video_stream(track)
      elif track.kind == rtc.TrackKind.KIND_AUDIO:
          # ✅ 音频轨道防御逻辑：检测静音轨道问题
          logger.info(f"[{self.session_id}] 用户音频轨道已订阅: {track.sid}")
          asyncio.create_task(self._monitor_audio_track_activity(track, publication, participant))

async def _monitor_audio_track_activity(self, track: rtc.Track, publication: rtc.RemoteTrackPublication, participant: rtc.RemoteParticipant, check_duration: float = 3.0):
"""
✅ 保险逻辑：监控音频轨道活动，如果检测到当前轨道长时间静音而有新的活跃轨道，则切换
"""
try:
await asyncio.sleep(check_duration) # 等待一段时间检测活动

text
      # 检查当前轨道是否有音频活动（简化实现：通过音频帧检测）
      # 如果需要更精确的检测，可以集成音量检测逻辑
      
      # 检查是否有其他音频轨道更活跃
      all_audio_tracks = []
      for pub in participant.track_publications.values():
          if pub.track and pub.track.kind == rtc.TrackKind.KIND_AUDIO and pub.track.sid != track.sid:
              all_audio_tracks.append(pub.track)
      
      if all_audio_tracks:
          logger.warning(f"[{self.session_id}] 检测到多个音频轨道，当前={track.sid}，其他={[t.sid for t in all_audio_tracks]}")
          logger.warning(f"[{self.session_id}] 这可能表示前端重复发布了音频轨道，请检查前端日志")
          
          # 这里可以添加更复杂的切换逻辑，但前端修复应该已经解决根本问题
          # 记录警告便于调试
          
  except Exception as e:
      logger.error(f"[{self.session_id}] 音频轨道监控失败: {e}")

def _create_video_stream(self, track: rtc.Track):
"""
🔥 正确理解：为用户的视频轨道创建视频流读取器。
这是用户摄像头的视频帧，作为Bot的视觉输入用于理解用户。
符合LiveKit Agents官方标准的视频帧采样实现。
"""
# 关闭现有流（一次只保持一个）
if self._video_stream is not None:
# 使用任务调度异步关闭，避免在同步上下文中阻塞
asyncio.create_task(self._video_stream.aclose())

text
  # 创建新流接收用户视频帧
  self._video_stream = rtc.VideoStream(track)
  
  async def read_stream():
      logger.info(f"[{self.session_id}] 开始读取用户视频流 {track.sid}（作为视觉输入）")
      async for event in self._video_stream:
          # ✅ 存储用户最新帧供后续 AI 分析
          self._latest_frame = event.frame
          logger.debug(f"[{self.session_id}] 捕获用户视频帧，时间戳: {event.frame.timestamp}")
      logger.info(f"[{self.session_id}] 用户视频流 {track.sid} 已关闭")

  # 存储异步任务
  task = asyncio.create_task(read_stream())
  self._tasks.append(task)
  task.add_done_callback(lambda t: self._tasks.remove(t))

async def on_user_turn_completed(self, turn_ctx: ChatContext, new_message: ChatMessage) -> None:
"""
🔥 正确理解：在用户说话结束后，将用户摄像头的视频帧作为视觉输入发送给AI。
AI看到的是用户的样子，而不是Bot自己的形象！
符合LiveKit Agents官方标准的视觉识别实现。
"""
try:
logger.info(f"[{self.session_id}] 🎯 on_user_turn_completed 被调用")

text
      # 安全提取用户文本 - 修复 ChatMessage.text 属性错误
      user_text = ""
      try:
          # ChatMessage 使用 content 属性，不是 text
          if hasattr(new_message, 'content'):
              content = new_message.content
              if isinstance(content, str):
                  user_text = content
              elif isinstance(content, list):
                  # content 可能是内容块数组
                  for item in content:
                      if isinstance(item, str):
                          user_text = item
                          break
                      elif hasattr(item, 'text'):
                          user_text = item.text
                          break
      except Exception as e:
          logger.warning(f"[{self.session_id}] 提取消息文本时出错: {e}")
      
      logger.info(f"[{self.session_id}] 📝 用户消息: {user_text[:100] if user_text else '(空)'}")
      logger.info(f"[{self.session_id}] 🎤 用户说话结束，内容: {user_text[:100]}...")
      
      if self._latest_frame:
          logger.info(f"[{self.session_id}] 将用户摄像头帧作为视觉输入发送给AI")
          
          # ✅ 使用优化的视频帧编码（用户摄像头内容）
          try:
              image_content = await _encode_video_frame_optimized(self._latest_frame, self.session_id)
              # 确保 content 是 list
              if not isinstance(new_message.content, list):
                  user_text = new_message.content if isinstance(new_message.content, str) else ""
                  new_message.content = [user_text] if user_text else []
              new_message.content.append(image_content)
              logger.debug(f"[{self.session_id}] 用户视频帧已添加到AI视觉输入")
          except Exception as e:
              logger.error(f"[{self.session_id}] 用户视频帧处理失败: {e}")
              # 回退到基本实现
              image_content = ImageContent(
                  image=self._latest_frame,
                  inference_width=1024,
                  inference_height=1024,
                  inference_detail="auto"
              )
              # 确保 content 是 list
              if not isinstance(new_message.content, list):
                  user_text = new_message.content if isinstance(new_message.content, str) else ""
                  new_message.content = [user_text] if user_text else []
              new_message.content.append(image_content)
          
          # 重置，确保每回合只用一次
          self._latest_frame = None
      
      # 确保调用父类方法以触发默认的LLM响应流程
      logger.info(f"[{self.session_id}] 🚀 准备调用父类的on_user_turn_completed")
      await super().on_user_turn_completed(turn_ctx, new_message)
      logger.info(f"[{self.session_id}] ✅ 已触发AI响应流程")
      
  except Exception as e:
      logger.error(f"[{self.session_id}] ❌ on_user_turn_completed 处理异常: {e}", exc_info=True)
      # 可选：向前端发送安全的状态事件
      try:
          room = get_job_context().room
          if room and room.local_participant:
              await room.local_participant.publish_data(
                  json.dumps({"type": "error", "message": "处理用户输入时出现问题"}).encode("utf-8"),
                  topic="agent_status"
              )
      except Exception:
          pass  # 静默忽略状态发送错误

async def on_exit(self) -> None:
"""
生命周期钩子：当Agent离开会话时，关闭视频流。
"""
logger.info(f"[{self.session_id}] Agent is exiting the session, cleaning up video stream.")
if self._video_stream:
await self._video_stream.aclose()
self._video_stream = None

text
  for task in self._tasks:
      task.cancel()
  self._tasks.clear()

--- 核心改动：新的工具实现 ---

async def set_expression(self, expression_keyword: str) -> str:
"""
🎭 Bot视觉输出核心方法：设置角色表情的核心方法。
自动从角色文件夹中查找对应的图片。
"""
logger.info(f"[{self.session_id}] 🎭 Bot视觉输出触发: '{expression_keyword}'")
logger.info(f"[{self.session_id}] 📁 当前角色: {self.character_data.get('name', 'unknown')}")

text
  # 重新加载最新的预置图片
  preset_images = self._load_character_images()
  logger.info(f"[{self.session_id}] 🖼️ 可用预置形象: {list(preset_images.keys())}")
  
  image_path_str = preset_images.get(expression_keyword)
  
  # 如果预置图片库中没有，尝试模糊匹配
  if not image_path_str:
      logger.info(f"[{self.session_id}] 🔍 '关键词{expression_keyword}'不在预置图库中，尝试模糊匹配...")
      # 尝试模糊匹配
      for key, path in preset_images.items():
          if expression_keyword.lower() in key.lower() or key.lower() in expression_keyword.lower():
              image_path_str = path
              logger.info(f"[{self.session_id}] ✅ 模糊匹配成功: {key} -> {path}")
              break
  else:
      logger.info(f"[{self.session_id}] ✅ 在预置图库中找到 '{expression_keyword}': {image_path_str}")
  
  if not image_path_str:
      logger.warning(f"[{self.session_id}] ⚠️ 关键词 '{expression_keyword}' 既不在预置图库也不在角色文件夹中")
      # 即使关键词不存在，也返回一个友好的错误，让LLM处理
      raise ToolError(f"我还不懂 '{expression_keyword}' 这个表情呢。")
  
  # 构建相对于插件目录的完整路径
  image_full_path = Path(__file__).parent / image_path_str
  logger.info(f"[{self.session_id}] 📂 构建图片路径: {image_full_path}")
  logger.info(f"[{self.session_id}] 📝 图片文件存在: {image_full_path.exists()}")
  
  if not image_full_path.exists():
      logger.error(f"[{self.session_id}] ❌ 图片文件不存在: {image_full_path}")
      raise ToolError("抱歉，我好像找不到对应的图片文件。")
      
  try:
      # 关键修复：把同步文件读取移到线程池避免事件循环阻塞
      def read_image_file():
          with open(image_full_path, "rb") as f:
              return f.read()
      
      image_bytes = await asyncio.to_thread(read_image_file)
      
      logger.info(f"[{self.session_id}] ✅ 图片加载成功，大小: {len(image_bytes)} 字节")
      
      # 获取 room
      try:
          room = get_job_context().room
          if not room:
              logger.error(f"[{self.session_id}] ❌ Room不可用，无法发送图片")
              raise ToolError("房间未连接，无法发送图片。")
      except Exception as e:
          logger.error(f"[{self.session_id}] ❌ 获取Room失败: {e}")
          raise ToolError("会话未就绪，无法发送图片。")
          
      logger.info(f"[{self.session_id}] 📤 开始发送Bot形象数据到前端...")
      
      # 使用 ByteStream API 发送图片数据 (LiveKit SDK v2.0+)
      try:
          # 尝试使用新的 stream_bytes API
          writer = await room.local_participant.stream_bytes(
              topic='agent.avatar',
              name=f'{expression_keyword}.jpg',
              mime_type='image/jpeg'
          )
          await writer.write(image_bytes)
          await writer.aclose()  # 修复：使用 aclose() 而不是 close()
          logger.info(f"[{self.session_id}] ✅ 使用ByteStream API发送成功")
      except AttributeError:
          # 回退到旧的 publish_data API (兼容旧版本)
          logger.warning(f"[{self.session_id}] ⚠️ ByteStream API不可用，使用旧版publish_data")
          await room.local_participant.publish_data(
              image_bytes,  # 作为第一个位置参数
              reliable=True,
              topic='agent.avatar'
          )
      
      logger.info(f"[{self.session_id}] ✅ Bot形象发送成功: '{expression_keyword}' ({len(image_bytes)} 字节)")
      logger.info(f"[{self.session_id}] 👤 用户应该现在看到Bot新形象")
      
      # 返回一个成功信息给LLM，LLM可以基于此生成口头回复
      return f"成功将形象切换为 '{expression_keyword}'。"
      
  except Exception as e:
      logger.error(f"[{self.session_id}] ❌ Bot形象发送失败 '{expression_keyword}': {e}", exc_info=True)
      raise ToolError("发送图片时出错了。")

_find_image_in_character_folder 方法已被 _load_character_images 替代

--- 按官方文档添加用户视频帧优化编码功能 ---

async def _encode_video_frame_optimized(frame: rtc.VideoFrame, session_id: str = "unknown") -> ImageContent:
"""
🔥 正确理解：优化编码用户摄像头的视频帧，作为Bot的视觉输入。
这是用户的摄像头视频帧 → AI的视觉识别，不是Bot形象。
支持自定义尺寸和质量设置，优化LLM推理性能。

text
Args:
    frame: 用户摄像头的LiveKit视频帧
    session_id: 会话 ID，用于日志

Returns:
    ImageContent: 官方标准的图像内容对象，作为AI视觉输入
"""
try:
    import base64
    
    # 关键修复：把同步JPEG编码移到线程池避免事件循环阻塞
    image_bytes = await asyncio.to_thread(
        encode, frame,
        EncodeOptions(
            format="JPEG",
            quality=75,  # 降低质量以减少文件大小和token消耗
            resize_options=ResizeOptions(
                width=512,   # 官方推荐的512-768px范围，选择512px
                height=512,  # 保持正方形比例
                strategy="scale_aspect_fit"  # 保持宽高比
            )
        )
    )
    
    # 创建数据 URL
    data_url = f"data:image/jpeg;base64,{base64.b64encode(image_bytes).decode('utf-8')}"
    
    # ✅ 使用官方ImageContent格式（用户视觉输入）
    return ImageContent(
        image=data_url,
        inference_detail="auto"  # 自动选择推理精度
    )
    
except Exception as e:
    logger.warning(f"[{session_id}] 用户视频帧优化编码失败，使用默认方式: {e}")
    # 回退到默认编码，同样使用512px尺寸
    return ImageContent(
        image=frame,
        inference_width=512,
        inference_height=512,
        inference_detail="auto"
    )

--- 结束用户视频帧优化功能 ---

async def entrypoint(ctx: JobContext) -> None:
"""
LiveKit Agents入口点函数 - 基于LiveKit v1.0最佳实践
包括：STT-LLM-TTS管道、VAD、转向检测、错误处理、Agent连接诊断等
"""
import os # 确保os模块在函数作用域内可用
# 开启asyncio调试模式，定位事件循环阻塞点
import asyncio, logging
loop = asyncio.get_running_loop()
loop.set_debug(True)
loop.slow_callback_duration = 0.2 # 200ms阈值
logging.getLogger("asyncio").setLevel(logging.WARNING)
logger.info("🔧 Asyncio debug mode enabled with 200ms slow callback detection")

text
# 重新加载环境变量，确保获取最新配置
from pathlib import Path
env_path = Path(__file__).parent / '.env'
if env_path.exists():
    load_dotenv(env_path, override=True)
    logger.info(f"✅ 重新加载环境变量文件: {env_path}")
    
    # 调试：检查环境变量的实际值
    use_func_call_raw = os.getenv("USE_FUNCTION_CALL_FOR_AVATAR")
    logger.info(f"🔍 USE_FUNCTION_CALL_FOR_AVATAR原始值: '{use_func_call_raw}' (type: {type(use_func_call_raw)})")
    logger.info(f"🔍 解析后的布尔值: {use_func_call_raw.lower() == 'true' if use_func_call_raw else False}")

# ✅ 关键诊断日志 - 确保能看到entrypoint被调用
print(f"🚀🚀🚀 AGENT ENTRYPOINT CALLED 🚀🚀🚀")
print(f"Room: {ctx.room.name}")
print(f"Job ID: {ctx.job.id}")

logger.info(f"🚀 Agent entrypoint called for room: {ctx.room.name}")
logger.info(f"💼 Job ID: {ctx.job.id}")
logger.info(f"🏷️ Job metadata: {ctx.job.metadata}")
logger.info(f"🏷️ Job metadata type: {type(ctx.job.metadata)}")
logger.info(f"🏷️ Job metadata length: {len(ctx.job.metadata) if ctx.job.metadata else 0}")

# ✅ 修复：立即设置默认的日志上下文，避免显示unknown
ctx.log_context_fields = {
    "worker_id": ctx.worker_id,
    "room_name": ctx.room.name,
    "user_id": "pending",
    "character_name": "pending",
    "session_id": "pending"
}

# 初始化Agent连接诊断系统（可选，不影响核心功能）
diagnostics = None
try:
    from agent_diagnostics import get_diagnostics
    diagnostics = get_diagnostics()
    await diagnostics.initialize()
    logger.info("🔍 Agent连接诊断系统已初始化")
except ImportError:
    logger.debug("⚠️ Agent诊断系统不可用（模块未找到）")
except Exception as e:
    logger.debug(f"⚠️ Agent诊断系统初始化失败: {e}")
    # 不影响核心功能，继续执行

# 设置遥测（可选）
try:
    from .telemetry_setup import setup_telemetry
    setup_telemetry()
except (ImportError, Exception) as e:
    logger.debug(f"遥测设置跳过: {e}")

# 初始化默认值
user_id = None
character_name = "default"
system_prompt = "你是一个AI助手。"
chat_history = []

# 根据官方文档，从job metadata获取基本信息，添加UTF-8编码错误处理
try:
    import json
    basic_info = {}
    if ctx.job.metadata and ctx.job.metadata.strip():
        logger.info(f"🔍 开始解析Job元数据...")
        # 处理潜在的UTF-8编码问题
        try:
            # 如果metadata是bytes，先解码
            if isinstance(ctx.job.metadata, bytes):
                metadata_str = ctx.job.metadata.decode('utf-8', errors='ignore')
                logger.info("📝 从bytes解码metadata")
            else:
                metadata_str = str(ctx.job.metadata)
            
            basic_info = json.loads(metadata_str)
            logger.info(f"📋 解析成功，基本信息: {basic_info}")
        except UnicodeDecodeError as e:
            logger.error(f"❌ UTF-8解码metadata失败: {e}")
            log_error_with_context(e, {"metadata_type": type(ctx.job.metadata), "metadata_length": len(ctx.job.metadata) if ctx.job.metadata else 0})
            basic_info = {}
    else:
        logger.warning("⚠️ 未收到有效的job metadata，使用默认配置")
        
except json.JSONDecodeError as e:
    logger.error(f"❌ JSON解析job metadata失败: {e}")
    logger.error(f"❌ 原始metadata: '{ctx.job.metadata}'")
    log_error_with_context(e, {"raw_metadata": str(ctx.job.metadata)[:200]})
    basic_info = {}
except Exception as e:
    logger.error(f"❌ 处理job metadata时发生未知错误: {e}")
    log_error_with_context(e, {"metadata_type": type(ctx.job.metadata)})
    basic_info = {}

# 从基本信息中提取关键字段
user_id = basic_info.get("user_id")
character_name = basic_info.get("character_name", "default")
session_id = basic_info.get("session_id")

# ✅ 增强调试信息
logger.info(f"👤 用户ID: {user_id}")
logger.info(f"🎭 角色名称: {character_name}")
logger.info(f"🔗 会话ID: {session_id}")
logger.info(f"📋 完整metadata解析结果: {basic_info}")

# 检查metadata传递是否正确
if not session_id:
    logger.error("❌ 关键问题：session_id为空！")
    logger.error(f"❌ 原始metadata: '{ctx.job.metadata}'")
    logger.error(f"❌ 解析后basic_info: {basic_info}")
else:
    logger.info(f"✅ session_id提取成功: {session_id}")

# ✅ 修复：更新日志上下文为实际值
ctx.log_context_fields = {
    "worker_id": ctx.worker_id,
    "room_name": ctx.room.name,
    "user_id": user_id or "unknown",
    "character_name": character_name or "default",
    "session_id": session_id or "unknown"
}

# 启动Agent连接诊断（如果可用）
if diagnostics and session_id and user_id:
    try:
        diagnostics.start_session_diagnosis(
            session_id=session_id,
            room_name=ctx.room.name,
            user_id=user_id,
            character_name=character_name
        )
        logger.info(f"🔍 已启动会话连接诊断: {session_id}")
        log_session_event("diagnostics_started", session_id, {
            "room_name": ctx.room.name,
            "user_id": user_id,
            "character_name": character_name
        })
    except Exception as e:
        logger.error(f"❌ 启动连接诊断失败: {e}")
        log_error_with_context(e, {"session_id": session_id, "user_id": user_id})

# 根据官方文档建议，在连接前异步获取完整的session数据
system_prompt = "你是一个AI助手。"
chat_history = []

if session_id:
    try:
        # 根据官方文档建议，在连接前完成数据获取
        logger.info(f"🔄 正在获取session {session_id} 的完整数据...")
        
        import httpx
        import os
        # 获取FastAPI服务器地址
        fastapi_port = int(os.getenv("FASTAPI_PORT", "8008"))
        api_url = f"http://localhost:{fastapi_port}/session/{session_id}/context"
        logger.info(f"🌐 请求URL: {api_url}")
        
        async with httpx.AsyncClient(timeout=5.0) as client:
            response = await client.get(api_url)
            logger.info(f"📡 HTTP响应状态码: {response.status_code}")
            
            if response.status_code == 200:
                session_data = response.json()
                logger.info(f"📦 API响应数据: {session_data}")
                
                if session_data.get("success"):
                    system_prompt = session_data.get("system_prompt", system_prompt)
                    chat_history = session_data.get("chat_history", [])
                    logger.info(f"✅ 成功获取session数据:")
                    logger.info(f"   - system_prompt长度: {len(system_prompt)}")
                    logger.info(f"   - 历史消息数量: {len(chat_history)}条")
                    logger.info(f"   - 历史消息详情: {chat_history}")
                else:
                    logger.warning(f"⚠️ Session数据获取失败: {session_data}")
            else:
                logger.warning(f"⚠️ HTTP请求失败: {response.status_code}")
                logger.warning(f"⚠️ 响应内容: {response.text}")
        
    except Exception as e:
        logger.error(f"❌ 获取session数据失败: {e}")
        logger.error(f"❌ 异常详情: {e.__class__.__name__}: {str(e)}")
        logger.warning("⚠️ 将使用基本配置继续")
else:
    logger.error("❌ 无法获取session数据：session_id为空")

logger.info(f"✅ 最终配置 - 用户: {user_id}, 角色: {character_name}, 会话: {session_id}")
logger.info(f"💬 系统提示词长度: {len(system_prompt)}, 历史消息: {len(chat_history)}条")

# 加载本地配置文件（用于获取API密钥等）
config = load_agent_config()

# 从本地配置获取角色数据
character_data = config.get("characters", {}).get(character_name, {
    "name": "default",
    "display_name": "默认角色", 
    "voice_id": "",
    "additive_prompt": "",
    "tts_params": {"temperature": 0.7, "top_p": 0.7, "backend": "s1"}
})

logger.info(f"使用角色: {character_name} ({character_data.get('display_name', character_name)})")

# 创建AI服务组件
try:
    logger.info(f"🔌 正在连接到房间: {ctx.room.name}")
    
    # 首先连接到房间
    await ctx.connect(auto_subscribe=AutoSubscribe.AUDIO_ONLY)
    logger.info(f"✅ Agent已连接到房间: {ctx.room.name}")
    
    # 🔥 关键修改：等待用户参与者连接前先设置日志上下文
    ctx.log_context_fields = {
        "worker_id": ctx.worker_id,
        "room_name": ctx.room.name,
        "user_id": user_id or "unknown",
        "character_name": character_name,
        "session_id": session_id or "unknown"
    }
    
    logger.info("⏳ 等待用户参与者连接...")
    try:
        # 等待第一个非Agent参与者连接，最多等待2分钟
        participant = await asyncio.wait_for(ctx.wait_for_participant(), timeout=120.0)
        logger.info(f"👤 用户参与者已连接: {participant.identity} (kind: {getattr(participant, 'kind', 'unknown')})")
    except asyncio.TimeoutError:
        logger.warning("⏰ 等待用户连接超时（2分钟），继续初始化")
    except Exception as e:
        logger.error(f"❌ 等待用户连接时出错: {e}")
    
    # 发送连接成功消息
    await ctx.room.local_participant.publish_data(
        json.dumps({"type": "agent_connected", "message": "AI助手已连接", "character": character_name}).encode("utf-8"), 
        topic="agent_status"
    )
    logger.info(f"📢 已发送Agent连接状态")
    
    # 使用官方openai.LLM实现
    llm_config = config.get("llm_config", {})
    
    if OPENAI_PLUGIN_AVAILABLE:
        logger.info("使用官方LiveKit OpenAI插件")
        llm_instance = openai.LLM(
            model=llm_config.get('model', 'gpt-4o'),
            api_key=llm_config.get('api_key', ''),
            base_url=llm_config.get('base_url', ''),
            temperature=0.7
        )
    else:
        logger.error("LiveKit OpenAI插件不可用，请检查安装")
        raise RuntimeError("需要安装 livekit-plugins-openai")
    
    logger.info(f"🤖 LLM配置完成: {llm_config.get('model', 'gpt-4o')} (官方插件)")
    
    # VAD - 语音活动检测（使用预加载的实例或创建新的）
    vad = ctx.proc.userdata.get("vad")
    if not vad:
        vad = silero.VAD.load(
            min_speech_duration=0.05,
            min_silence_duration=0.55,
            activation_threshold=0.5
        )
        logger.info(f"🎤 VAD加载完成（非预热）")
    else:
        logger.info(f"✅ 使用预加载的VAD")
    
    # 转向检测器 - 使用预加载的实例或创建新的
    turn_detector = ctx.proc.userdata.get("turn_detector")
    if not turn_detector:
        if MultilingualModel:
            try:
                # 尝试创建 MultilingualModel 实例
                turn_detector = MultilingualModel()
                logger.info(f"🔄 转向检测器加载完成（非预热）")
            except Exception as e:
                logger.warning(f"⚠️ 无法加载 MultilingualModel: {e}")
                logger.info(f"💡 提示: 运行 'python ai_companion_bot.py download-files' 下载模型文件")
                # 回退到VAD-only模式
                turn_detector = "vad"
                logger.info(f"🔄 使用VAD-only转向检测模式")
        else:
            turn_detector = "vad"  # 回退到VAD-only模式
            logger.info(f"🔄 使用VAD-only转向检测（turn detector插件不可用）")
    else:
        logger.info(f"✅ 使用预加载的转向检测器")
    
    # 准备完整的配置，包含session_id和初始聊天上下文
    complete_config = config.copy()
    # 确保不会意外替换有效的session_id
    if session_id:
        complete_config["session_id"] = session_id
    else:
        complete_config["session_id"] = f"session_{int(time.time())}"
        logger.warning(f"⚠️ 未获取到session_id，生成新的: {complete_config['session_id']}")
    
    logger.info(f"🔧 使用session_id: {complete_config['session_id']}")
    
    # ✅ 根据官方文档：在ctx.connect()之后，创建Agent之前构建ChatContext
    logger.info(f"📜 正在构建初始聊天上下文...")
    initial_ctx = ChatContext()
    initial_message_count = 0  # 记录初始消息数量，用于会话结束时分离新消息
    for msg in chat_history:
        role = msg.get("role", "user")
        content = msg.get("content", "")
        if role in ["user", "assistant"] and content:
            initial_ctx.add_message(role=role, content=content)
            initial_message_count += 1
    
    logger.info(f"📜 构建初始聊天上下文完成，包含 {initial_message_count} 条历史消息")
    
    # 创建AI助手实例，传递系统提示词和初始聊天上下文
    agent = AICompanionAgent(
        config=complete_config, 
        character_data=character_data,
        system_prompt=system_prompt,
        chat_ctx=initial_ctx  # 根据文档，在构造函数中传递chat_ctx
    )
    logger.info(f"🎭 AI助手实例创建完成，session_id: {agent.session_id}")
    
    # 记录Agent状态
    log_agent_status(
        agent_id=agent.session_id,
        status="created",
        details={
            "user_id": user_id,
            "character_name": character_name,
            "room_name": ctx.room.name,
            "system_prompt_length": len(system_prompt),
            "chat_history_length": len(chat_history)
        }
    )
    
    # STT - 使用优化后的流式Paraformer适配器（已移除保活机制）
    custom_stt = ParaformerStreamingSTT(
        api_key=config.get("dashscope_api_key"),
        model="paraformer-realtime-8k-v2",
        sample_rate=8000,
        semantic_punctuation_enabled=False,  # 关闭以启用情感识别
        max_sentence_silence=1500,  # 增加静音超时到1.5秒
    )
    logger.info(f"🗣️ STT服务配置完成: 8kHz + 情感识别（已优化性能）")
    
    # TTS - 使用新的Fish Audio适配器
    # 初始化TTS服务
    character_tts = character_data.get("tts_params", {})
    fish_api_key = config.get("fish_audio_api_key")
    voice_id = character_data.get("voice_id")
    
    fish_tts_raw = FishTTS(
        api_key=fish_api_key,
        reference_id=voice_id,  # FishTTS使用reference_id
        temperature=character_tts.get("temperature", 0.7),
        top_p=character_tts.get("top_p", 0.7),
        backend=character_tts.get("backend", "s1"),  # 默认使用s1以支持情感
        enable_emotion_control=config.get("enable_emotion_control", True),
        streaming=False,  # ✅ 关键：非流式模式，避免WebSocket阻塞
        sentences_per_chunk=int(os.getenv("FISH_TTS_SENTENCES_PER_CHUNK", "1")),  # 可配置批量大小
        output_format=os.getenv("FISH_TTS_FORMAT", "pcm"),                         # pcm|wav|mp3
        frame_size_ms=int(os.getenv("FISH_TTS_FRAME_MS", "40")),                  # 40ms 推荐
    )
    # 关键修复：直接使用FishTTS，不再套StreamAdapter
    fish_tts = fish_tts_raw  # 直接使用，符合官方文档建议
    logger.info(f"🔊 TTS服务配置完成: Fish Audio (直接模式)")
    
    # 启动会话 - 使用增强的配置
    # 现在我们同时指定stt和tts插件，依靠框架的默认行为
    logger.info(f"[{session_id}] 🎬 创建AgentSession...")
    logger.info(f"[{session_id}] 📊 配置: STT={type(custom_stt)}, TTS={type(fish_tts)}, LLM={type(llm_instance)}")
    
    session = AgentSession(
        stt=custom_stt,
        tts=fish_tts,  # 使用Fish Audio TTS
        llm=llm_instance,
        vad=vad,
        turn_detection=turn_detector,  # 添加转向检测
        allow_interruptions=True,  # 允许中断
        min_interruption_duration=0.5,  # 最小中断时长
        min_endpointing_delay=0.5,  # 最小结束点延迟
        max_endpointing_delay=3.0,  # 最大结束点延迟
        preemptive_generation=True,  # 启用预生成以减少延迟
        use_tts_aligned_transcript=True,  # 启用TTS对齐的转录转发
    )
    logger.info(f"📞 Agent Session创建完成")
    
    # 添加调试日志来追踪Session对象
    logger.info(f"🔍 Session对象类型: {type(session)}")
    logger.info(f"🔍 Session属性: {[attr for attr in dir(session) if not attr.startswith('_')][:10]}...")
    
    logger.info(f"🔊 TTS配置：使用 Fish Audio TTS 服务 (直接模式)")
    if fish_tts_raw:
        logger.info(f"🔊 TTS服务状态: 模型={fish_tts_raw.backend}, 情感控制={'启用' if fish_tts_raw.enable_emotion_control else '禁用'}")
    else:
        logger.warning(f"⚠️ TTS服务未正确初始化")
    
    # ✅ 根据官方文档配置房间输入输出选项
    room_input_options = RoomInputOptions(
        text_enabled=True,  # 启用文本输入
        audio_enabled=True,  # 启用音频输入 - 这是关键！
        video_enabled=False  # 禁用视频输入（如需视频支持可设为True）
    )
    
    room_output_options = RoomOutputOptions(
        audio_enabled=True,  # 启用音频输出
        transcription_enabled=True  # 启用转录输出
    )
    
    # 添加调试日志
    logger.info(f"🚀 启动Agent Session...")
    logger.info(f"  - STT: {type(custom_stt).__name__}")
    logger.info(f"  - TTS: {type(fish_tts).__name__}")
    logger.info(f"  - LLM: {type(llm_instance).__name__}")
    logger.info(f"  - VAD: {type(vad).__name__}")
    logger.info(f"  - Turn Detection: {type(turn_detector).__name__ if turn_detector != 'vad' else 'VAD-only'}")
    
    await session.start(
        room=ctx.room,
        agent=agent,
        room_input_options=room_input_options,
        room_output_options=room_output_options
    )
    
    logger.info(f"✅ Agent Session已启动，等待用户语音输入...")
    
    # ✅ 关键改动：使用 v1.0+ 推荐的文本流方式发布转录
    # 不再使用 STTSegmentsForwarder，而是直接发布到 lk.transcription 主题
    
    @session.on("stt_event")
    def on_stt_event(ev):
        """STT事件处理器：将 ParaformerSTT 的文本发布到文本流"""
        try:
            # 只处理最终和临时转录事件
            from livekit.agents.stt import SpeechEventType
            if ev.type in [SpeechEventType.FINAL_TRANSCRIPT, SpeechEventType.INTERIM_TRANSCRIPT]:
                if ev.alternatives and len(ev.alternatives) > 0:
                    text = ev.alternatives[0].text
                    is_final = ev.type == SpeechEventType.FINAL_TRANSCRIPT
                    
                    # 记录STT事件
                    if is_final:
                        logger.info(f"🎤 STT最终转录: {text}")
                    else:
                        logger.debug(f"🎤 STT临时转录: {text[:50]}...")
                    
                    # 异步发布到文本流
                    async def publish_transcription():
                        try:
                            # ✅ 使用 stream_text 发送带属性的文本流，明确标识为用户转录
                            if hasattr(ctx.room.local_participant, 'stream_text'):
                                # 使用新的 stream_text API，支持属性设置
                                writer = await ctx.room.local_participant.stream_text(
                                    topic="lk.transcription",
                                    attributes={
                                        "participant_type": "user",  # ✅ 明确标识为用户
                                        "is_final": str(is_final).lower(),
                                        "source": "stt"
                                    }
                                )
                                await writer.write(text)
                                await writer.aclose()
                                logger.debug(f"📤 STT文本已通过stream_text发布: final={is_final}, text: {text[:50]}...")
                            else:
                                # 回退到 publish_data（旧版本兼容）
                                await ctx.room.local_participant.publish_data(
                                    text.encode("utf-8"),
                                    topic="lk.transcription",
                                    reliable=False
                                )
                                logger.debug(f"📤 STT文本已通过publish_data发布: final={is_final}, text: {text[:50]}...")
                        except Exception as e:
                            logger.error(f"❌ STT文本流发布失败: {e}")
                    
                    # 创建异步任务
                    asyncio.create_task(publish_transcription())
                    
        except Exception as e:
            logger.error(f"❌ STT文本流发布错误: {e}")
    
    logger.info(f"📡 STT文本流发布已启用，前端将通过 lk.transcription 接收用户语音转录")
    logger.info(f"🔊 TTS转录对齐已启用 (use_tts_aligned_transcript=True)，前端将接收AI语音同步文本")
    
    # 记录会话启动事件 - 修复NotGiven对象序列化问题
    log_session_event("session_started", agent.session_id, {
        "room_name": ctx.room.name,
        "user_id": user_id,
        "character_name": character_name,
        "text_enabled": room_input_options.text_enabled,
        "video_enabled": room_input_options.video_enabled,
        "audio_output_enabled": room_output_options.audio_enabled,
        "transcription_enabled": room_output_options.transcription_enabled
    })
    
    log_agent_status(
        agent_id=agent.session_id,
        status="session_started",
        details={
            "room_name": ctx.room.name,
            "transcription_enabled": room_output_options.transcription_enabled
        }
    )
    
    # 添加事件监听器
    @session.on("metrics_collected")
    def on_metrics_collected(ev: MetricsCollectedEvent):
        """收集和记录性能指标"""
        agent_metrics.log_metrics(ev.metrics)
        
        # 选择性记录关键指标
        if hasattr(ev.metrics, 'ttft'):  # LLM指标
            logger.info(f"📊 LLM TTFT: {ev.metrics.ttft:.3f}s, 总时长: {ev.metrics.duration:.3f}s")
        elif hasattr(ev.metrics, 'ttfb'):  # TTS指标
            logger.info(f"🔊 TTS TTFB: {ev.metrics.ttfb:.3f}s, 音频时长: {ev.metrics.audio_duration:.3f}s")
        elif hasattr(ev.metrics, 'end_of_utterance_delay'):  # EOU指标
            logger.info(f"🎯 EOU延迟: {ev.metrics.end_of_utterance_delay:.3f}s")
    
    @session.on("error")
    def on_error_sync(ev):
        async def handle_error_async():
            logger.error(f"Session error: {ev.error}", exc_info=ev.error)
            if not getattr(ev.error, 'recoverable', True):
                await session.say("抱歉，我遇到了一些技术问题，请稍后再试。")
        asyncio.create_task(handle_error_async())
    session.on("error", on_error_sync)
    
    # ✅ 修复: 将异步回调包装在同步函数中
    def on_agent_state_changed_sync(ev: AgentStateChangedEvent):
        async def handle_state_async():
            logger.info(f"🤖 Agent state changed: {ev.old_state} -> {ev.new_state}")
            await ctx.room.local_participant.publish_data(
                json.dumps({"type": "agent_state_changed", "new_state": ev.new_state}).encode("utf-8"),
                topic="agent_status"
            )
        asyncio.create_task(handle_state_async())
    session.on("agent_state_changed", on_agent_state_changed_sync)

    def on_user_state_changed_sync(ev: UserStateChangedEvent):
        async def handle_user_state_async():
            logger.info(f"👤 用户状态变化: {ev.old_state} -> {ev.new_state}")
            
            # 如果用户离开，给更多时间再询问
            if ev.new_state == "away":
                await asyncio.sleep(60)  # 等待1分钟，给用户充足时间
                if session.user_state == "away":  # 再次检查
                    await session.say("您还在吗？如果需要帮助，请随时告诉我。")
        asyncio.create_task(handle_user_state_async())
    session.on("user_state_changed", on_user_state_changed_sync)
    
    @session.on("speech_created")
    def on_speech_created(ev: SpeechCreatedEvent):
        """语音创建事件"""
        logger.debug(f"🗣️ 语音创建: source={ev.source}, user_initiated={ev.user_initiated}")
        
    try:
        @session.on("agent_speech_interrupted")
        def on_agent_speech_interrupted(ev):
            logger.info(f"⚠️ Agent回应被中断")
    except Exception:
        pass  # 事件可能不存在
    
    # 添加conversation_item_added监听器
    @session.on("conversation_item_added")
    def on_conversation_item_added(ev: ConversationItemAddedEvent):
        """记录对话历史项目"""
        item = ev.item
        text_content = ""
        if hasattr(item, 'text_content'):
            text_content = item.text_content[:100] if item.text_content else ""
        
        logger.info(f"💬 对话项目添加 - 角色: {item.role}, 内容长度: {len(text_content)}, 被中断: {getattr(item, 'interrupted', False)}")
        
        # 记录完整内容用于调试
        if item.role == "user":
            logger.info(f"👤 用户说: {text_content}")
        elif item.role == "assistant":
            logger.info(f"🤖 AI回复: {text_content}")
        
        # 统计对话轮次
        if hasattr(session, '_conversation_stats'):
            if item.role == "user":
                session._conversation_stats['user_turns'] += 1
            elif item.role == "assistant":
                session._conversation_stats['assistant_turns'] += 1
    
    # 初始化对话统计
    session._conversation_stats = {
        'user_turns': 0,
        'assistant_turns': 0,
        'start_time': time.time()
    }
    
    # 初始化使用量收集器
    usage_collector = agent_metrics.UsageCollector()
    
    # 在metrics_collected事件中收集使用量
    @session.on("metrics_collected")
    def collect_usage(ev: MetricsCollectedEvent):
        usage_collector.collect(ev.metrics)
    
    async def log_usage_summary():
        """记录使用量摘要"""
        summary = usage_collector.get_summary()
        logger.info(f"📊 会话使用量统计:")
        logger.info(f"  STT: {summary.stt_audio_duration:.1f}秒")
        logger.info(f"  LLM: {summary.llm_prompt_tokens} 输入/{summary.llm_completion_tokens} 输出")
        logger.info(f"  TTS: {summary.tts_characters_count} 字符")
    
    # 添加到关闭回调
    ctx.add_shutdown_callback(log_usage_summary)
    
    logger.info(f"🎉 Agent session started successfully for room: {ctx.room.name}")
    logger.info(f"🎧 等待用户音频输入...")
    
    # 添加优雅关闭回调
    async def cleanup_callback():
        """清理资源和保存状态，包含通话历史回调"""
        try:
            logger.info(f"🧹 开始清理会话资源: {ctx.job.id}")
            
            # 获取会话历史和统计信息
            if hasattr(session, 'history'):
                history_summary = {
                    "job_id": ctx.job.id,
                    "room_name": ctx.room.name,
                    "user_id": user_id or "unknown",
                    "character_name": character_name,
                    "session_id": session_id or "unknown",
                    "message_count": len(session.history.messages) if hasattr(session.history, 'messages') else 0,
                    "end_time": time.time()
                }
                
                # 添加对话统计
                if hasattr(session, '_conversation_stats'):
                    history_summary.update({
                        "user_turns": session._conversation_stats.get('user_turns', 0),
                        "assistant_turns": session._conversation_stats.get('assistant_turns', 0),
                        "duration": time.time() - session._conversation_stats.get('start_time', time.time())
                    })
                
                logger.info(f"📊 会话统计: {history_summary}")
                
                # 🆕 提取本次通话的新增消息
                if hasattr(session.history, 'messages'):
                    all_messages = session.history.messages
                    current_call_messages = all_messages[initial_message_count:]
                    
                    logger.info(f"📞 本次通话产生 {len(current_call_messages)} 条新消息。")

                    # 准备发送给主程序的数据
                    callback_data = {
                        "session_id": session_id,
                        "user_id": user_id,
                        "character_name": character_name,
                        "final_history": [
                            {"role": msg.role, "content": msg.content} for msg in current_call_messages
                        ],
                        "call_statistics": history_summary
                    }
                    
                    # 通过HTTP回调将数据发送给主程序
                    try:
                        fastapi_port = int(os.getenv("FASTAPI_PORT", "8008"))
                        callback_url = f"http://localhost:{fastapi_port}/session/callback/call_ended"
                        
                        async with httpx.AsyncClient(timeout=10.0) as client:
                            await client.post(callback_url, json=callback_data)
                        logger.info(f"✅ 已通过回调将通话记录发送至主程序: {callback_url}")
                    except Exception as e:
                        logger.error(f"❌ 发送通话结束回调失败: {e}")
            
            # 清理背景音频（如果存在）
            # 注意：当前版本中未实现背景音频功能
            # 如果未来添加背景音频支持，请在此处添加清理逻辑
            # if 'background_audio' in locals() and background_audio:
            #     await background_audio.cleanup()
            #     logger.info("🔇 背景音频已清理")
            
            # 安全发送断开连接消息 - 检查房间和参与者状态
            try:
                if (ctx.room and 
                    ctx.room.local_participant and 
                    hasattr(ctx.room.local_participant, 'is_connected') and
                    ctx.room.local_participant.is_connected):
                    
                    # 检查房间状态
                    room_state = getattr(ctx.room, 'state', None)
                    if room_state == "CONNECTED" or room_state is None:
                        # 如果房间状态是CONNECTED或无法检测，尝试发送
                        await ctx.room.local_participant.publish_data(
                            json.dumps({"type": "agent_disconnected", "message": "AI助手已断开连接"}).encode("utf-8"),
                            reliable=True,
                            topic="agent_status"
                        )
                        logger.info(f"[{session_id}] 已发送断开连接消息")
                    else:
                        logger.info(f"[{session_id}] 房间状态为{room_state}，跳过消息发送")
                else:
                    logger.info(f"[{session_id}] 房间或参与者已断开，跳过消息发送")
            except Exception as e:
                logger.warning(f"[{session_id}] 清理阶段发送消息失败: {e}")
            
            logger.info(f"✅ 会话清理完成: {ctx.job.id}")
            
        except Exception as e:
            logger.error(f"清理过程中出错: {e}", exc_info=True)
    
    # 注册关闭回调
    ctx.add_shutdown_callback(cleanup_callback)
    
except Exception as e:
    logger.error(f"Failed to start agent session: {e}", exc_info=True)
    raise

def load_agent_config() -> Dict[str, Any]:
"""从环境变量加载Agent配置"""
try:
# 构建字符配置
characters = {}
character_names = set()

text
    # 扫描所有字符配置
    for key in os.environ:
        if key.startswith('CHARACTER_') and key.endswith('_NAME') and '_DISPLAY_NAME' not in key:
            char_prefix = key[:-5]  # 移除 '_NAME'
            char_name = os.getenv(key)
            if char_name:
                character_names.add(char_prefix)
    
    # 为每个字符构建完整配置
    for char_prefix in character_names:
        char_name = os.getenv(f'{char_prefix}_NAME')
        if char_name:
            voice_id = os.getenv(f'{char_prefix}_VOICE_ID', '')
            
            characters[char_name] = {
                "name": char_name,
                "display_name": os.getenv(f'{char_prefix}_DISPLAY_NAME', char_name),
                "voice_id": voice_id,
                "additive_prompt": os.getenv(f'{char_prefix}_ADDITIVE_PROMPT', ''),
                "base_image_path": os.getenv(f'{char_prefix}_BASE_IMAGE_PATH', f'video_chat_plugin/assets/images/characters/{char_name}.jpg'),
                "tts_params": {
                    "temperature": float(os.getenv(f'{char_prefix}_TTS_TEMPERATURE', '0.7')),
                    "top_p": float(os.getenv(f'{char_prefix}_TTS_TOP_P', '0.7')),
                    "backend": os.getenv(f'{char_prefix}_TTS_BACKEND', 's1')
                }
            }
    
    # 确保有默认角色
    if "default" not in characters and not characters:
        characters["default"] = {
            "name": "default",
            "display_name": "默认角色",
            "voice_id": "",
            "additive_prompt": "你是一个AI助手。",
            "base_image_path": "video_chat_plugin/assets/images/characters/default_char.png",
            "tts_params": {"temperature": 0.7, "top_p": 0.7, "backend": "s1"}
        }
    
    # Debug logging for function call config
    final_config = {
        "characters": characters,
        "llm_config": {
            "api_key": os.getenv("OPENAI_API_KEY", ""),
            "base_url": os.getenv("OPENAI_BASE_URL", "https://api.openai.com/v1"),
            "model": os.getenv("OPENAI_MODEL", "gpt-4o")
        },
        "image_generation_config": {
            "api_key": os.getenv("IMAGE_GENERATION_API_KEY", ""),
            "base_url": os.getenv("IMAGE_GENERATION_BASE_URL", ""),
            "model": os.getenv("IMAGE_GENERATION_MODEL", "")
        },
        "dashscope_api_key": os.getenv("DASHSCOPE_API_KEY", ""),
        "fish_audio_api_key": os.getenv("FISH_AUDIO_API_KEY", ""),
        "use_function_call_for_avatar": os.getenv("USE_FUNCTION_CALL_FOR_AVATAR", "false").strip("'\"").lower() == "true",
        "enable_emotion_control": os.getenv("ENABLE_EMOTION_CONTROL", "true").lower() == "true"
    }
    
    logger.info(f"🔍 Config loaded - use_function_call_for_avatar: {final_config['use_function_call_for_avatar']}")
    logger.info(f"🔍 Raw env value: '{os.getenv('USE_FUNCTION_CALL_FOR_AVATAR')}'")
    
    return final_config
    
except Exception as e:
    logger.error(f"从环境变量加载配置失败: {e}")
    # 返回最小可用配置
    return {
        "characters": {
            "default": {
                "name": "default", 
                "display_name": "默认角色",
                "voice_id": "",
                "additive_prompt": "你是一个AI助手。",
                "base_image_path": "video_chat_plugin/assets/images/characters/default_char.png",
                "preset_images": {},  # 新增字段
                "users": [],
                "tts_params": {"temperature": 0.7, "top_p": 0.7, "backend": "s1"}
            }
        },
        "llm_config": {
            "api_key": os.getenv("OPENAI_API_KEY", ""),
            "base_url": os.getenv("OPENAI_BASE_URL", "https://api.openai.com/v1"),
            "model": os.getenv("OPENAI_MODEL", "gpt-4o")
        },
        "enable_emotion_control": os.getenv("ENABLE_EMOTION_CONTROL", "true").lower() == "true",
        "use_function_call_for_avatar": os.getenv("USE_FUNCTION_CALL_FOR_AVATAR", "false").strip("'\"").lower() == "true"
    }

async def generate_image_from_prompt(
prompt: str,
api_key: str,
model: str,
base_url: str,
base_image_path: str,
) -> Optional[bytes]:
"""简单图像生成示例：传递带底图的多模态提示到远程模型，返回 JPEG bytes。"""
if not Path(base_image_path).exists():
logger.error(f"底图文件未找到: {base_image_path}")
return None
try:
base_image = Image.open(base_image_path)
buffered = BytesIO()
base_image.save(buffered, format="PNG")
base64_image = base64.b64encode(buffered.getvalue()).decode('utf-8')
messages = [
{"role": "system", "content": "你是一个图像生成助手。"},
{
"role": "user",
"content": [
{"type": "text", "text": "这是基础形象。"},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_image}"}},
],
},
{
"role": "user",
"content": [
{
"type": "text",
"text": f"请根据基础形象，重绘一张图片，让她表现出：'{prompt}'。保持人物特征、画风和构图一致。",
}
],
},
]
proxies = {}
if os.environ.get("HTTPS_PROXY"):
proxies["https://"] = os.environ.get("HTTPS_PROXY")
if os.environ.get("HTTP_PROXY"):
proxies["http://"] = os.environ.get("HTTP_PROXY")
async with httpx.AsyncClient(proxies=proxies, timeout=60.0) as client:
response = await client.post(
f"{base_url.strip('/')}/chat/completions",
headers={"Authorization": f"Bearer {api_key}"},
json={"model": model, "messages": messages, "max_tokens": 1000},
)
response.raise_for_status()
data = response.json()
content = data["choices"][0]["message"]["content"]
image_url_match = re.search(r'https?://[^\s)]+', content)
if not image_url_match:
logger.warning(f"在 LLM 响应中未找到图片 URL: {content}")
return None
image_url = image_url_match.group(0)
img_response = await client.get(image_url, timeout=30.0)
img_response.raise_for_status()
image = Image.open(BytesIO(img_response.content))
if image.mode != 'RGB':
image = image.convert('RGB')
output_buffer = BytesIO()
image.save(output_buffer, format="JPEG", quality=90)
return output_buffer.getvalue()
except Exception as e:
logger.error(f"图像生成失败: {e}", exc_info=True)
return None

保持向后兼容的函数，供main.py调用

async def run_bot_session(connection_data: Any, config: Dict[str, Any]) -> Any:
"""
向后兼容函数，将在main.py重构后移除
现在LiveKit Agents使用不同的架构，不需要connection参数
"""
logger.warning("run_bot_session is deprecated, use LiveKit Agents entrypoint instead")
# 返回一个占位符，实际的Agent通过entrypoint启动
return None

def prewarm_agent(proc: agents.JobProcess):
"""预加载模型和资源以减少启动延迟"""
logger.info("开始预热Agent进程...")

text
# 预加载VAD模型
try:
    proc.userdata["vad"] = silero.VAD.load(
        min_speech_duration=0.05,
        min_silence_duration=0.55,
        activation_threshold=0.5
    )
    logger.info("✅ VAD模型预加载完成")
except Exception as e:
    logger.warning(f"VAD预加载失败: {e}")

# 注意：turn_detector需要在job context中创建，不能在prewarm中预加载
logger.info("✅ Agent预热完成")

logger.info("🎉 Agent进程预热完成")

def compute_worker_load(worker: agents.Worker) -> float:
"""计算Worker负载，用于控制并发"""
# 获取活跃任务数
active_jobs = len(worker.active_jobs)

text
# 设置最大并发任务数为10（从5增加到10）
max_concurrent_jobs = 10
job_load = active_jobs / max_concurrent_jobs

# 获取CPU使用率（如果可用）
try:
    import psutil
    # 降低CPU权重，只考虑50%的CPU负载
    cpu_load = psutil.cpu_percent(interval=0.1) / 100.0 * 0.5
except:
    # 如果psutil不可用，使用较低的默认值
    cpu_load = 0.3

# 返回综合负载（取较高值）
total_load = max(job_load, cpu_load)
logger.debug(f"Worker负载 - 任务: {active_jobs}/{max_concurrent_jobs} ({job_load:.2f}), CPU: {cpu_load:.2f}, 总计: {total_load:.2f}")

return min(total_load, 1.0)

if name == "main":
print("🚀 启动AI Agent Worker...")
print(f"📍 工作目录: {os.getcwd()}")
print(f"🔗 LiveKit URL: {os.getenv('LIVEKIT_URL', 'Not Set')}")
print(f"🗝️ LiveKit API Key: {os.getenv('LIVEKIT_API_KEY', 'Not Set')[:10]}...")

text
# 启用自动dispatch模式
worker_opts = WorkerOptions(
    # 移除agent_name以启用自动dispatch
    # agent_name="ai-companion-agent",  # 与main.py中dispatch请求的agent_name匹配
    entrypoint_fnc=entrypoint,  # 指定entrypoint函数
    
    # Prewarm函数 - 预加载模型
    prewarm_fnc=prewarm_agent,
    
    # 负载函数 - 控制并发
    load_fnc=compute_worker_load,
    load_threshold=0.8,  # 负载超过80%时停止接受新任务
    
    # 权限设置
    permissions=WorkerPermissions(
        can_publish=True,
        can_subscribe=True,
        can_publish_data=True,
        hidden=False
    ),
    
    # 优雅关闭配置 - 用于系统维护时的处理
    drain_timeout=600,  # 10分钟优雅关闭时间，确保不会突然中断用户对话
    shutdown_process_timeout=900,  # 15分钟强制关闭时间
    
    # 负载配置
    num_idle_processes=2,  # 保持2个空闲进程以提高响应速度
)

print(f"⚙️ Worker配置:")
print(f"   Agent名称: ai-companion-agent")
print(f"   Entrypoint: {entrypoint.__name__}")
print("🎯 开始注册Worker并等待dispatch...")

# 运行Agent
agents.cli.run_app(worker_opts)

1. LiveKit Agents框架架构

核心框架特性

python
# requirements.txt中的关键依赖
livekit-agents[openai,silero,turn-detector]>=1.0.0  # 主框架
livekit>=0.10.0                                     # LiveKit客户端

技术特点：

✅ Agents 1.0+框架：支持实时多模态AI代理
✅ WebRTC原生支持：基于LiveKit Server的SFU架构
✅ 自动Agent调度：基于房间和用户身份的智能分派
✅ 插件化架构：OpenAI、Silero、转向检测器模块化集成

2. 音频处理链路

STT（语音识别）链路

text
音频流 → LiveKit AudioFrame → DashScope Paraformer →
实时转写文本 + 情感分析 → AI LLM处理

TTS（语音合成）链路

text
AI文本回复 → Fish Audio SDK →
句子级批处理 → PCM/WAV音频流 → LiveKit AudioEmitter

优化配置

bash
# .env中的音频优化参数
FISH_TTS_SENTENCES_PER_CHUNK=1  # 逐句处理，降低延迟
FISH_TTS_FORMAT=pcm             # PCM格式，减少编码时间
FISH_TTS_FRAME_MS=40            # 40ms音频帧，平衡延迟和质量

3. AI服务集成

多模态AI服务栈

STT: DashScope Paraformer (阿里云) → 中文语音识别 + 情感分析
LLM: OpenAI兼容API (DeepSeek/OpenAI) → 对话生成
TTS: Fish Audio SDK → 中文语音合成
Vision: LiveKit ImageContent → 视觉识别能力

遗留文件分析

核心功能文件（保留）

text
根目录核心:
├── bot.py                          # 主程序入口
├── config.py                       # 全局配置
├── config_editor.py                # 配置管理界面
├── plugin_config_accessor.py       # 插件配置访问器
├── Run.bat                         # 系统启动脚本
└── requirements.txt                # Python依赖 (不完整，仅包含pip)

插件核心:
video_chat_plugin/
├── main.py                         # 插件主程序
├── ai_companion_bot.py             # LiveKit AI Agent核心
├── wechat_integration.py           # 微信集成桥接
├── livekit_token_server.py         # JWT Token服务
├── .env                           # 环境变量配置 (当前使用)
├── requirements.txt                # 插件完整依赖清单
├── static/                         # 前端静态资源
├── templates/                      # HTML模板
└── assets/                         # 音频图像资源

系统工作流程总结

完整工作流程

text
1. 用户微信消息 → bot.py检测视频聊天关键词
2. 后台线程启动 → 获取角色配置和历史记录
3. 调用wechat_integration.handle_video_chat_request_async()
4. FastAPI创建会话上下文和唯一链接
5. 用户点击链接 → 前端获取JWT token
6. LiveKit Room连接建立 → Agent自动分配
7. 开始实时AI语音对话

技术优势

✅ 无隐藏依赖：完全移除Pipecat和Daily.js的第三方依赖
✅ 完全自托管：基于开源LiveKit Server，无PaaS锁定
✅ 高性能WebRTC：SFU架构支持多方通话和负载均衡
✅ 流式处理：句子级别的实时STT和TTS处理
✅ 模块化设计：插件与主程序松耦合，便于维护和扩展
✅ 异步非阻塞：所有耗时操作都在后台线程中执行
✅ 多层容错：多层次的错误处理和重试机制

开发指南

常用启动命令

bash
# 主系统启动 (自动处理依赖和兼容性)
Run.bat

# 直接运行主程序
python bot.py

# 完整插件系统启动 (推荐)
cd video_chat_plugin
start_complete_system.bat

# 单独组件启动
python video_chat_plugin/main.py        # FastAPI服务器 + Agent Worker
python video_chat_plugin/main.py agent  # 仅启动Agent Worker

配置文件位置

主程序配置: config.py
插件环境配置: video_chat_plugin/.env
角色Prompt: prompts/{角色名}.md
LiveKit连接: video_chat_plugin/.env中的LIVEKIT_*变量

日志和调试

主程序日志: 控制台输出
插件日志: video_chat_plugin/logs/
错误日志: video_chat_plugin/logs/errors_*.log
兼容性检查: python video_chat_plugin/check_compatibility.py

本文档基于2025年7月30日的代码库状态生成，涵盖了从Pipecat到LiveKit的完整迁移架构。

  【1.  用户转录显示bug（前端）：

在发送欢迎语后，用户说话时，没有及时显示转录（后端有发送，前端未显示）
2. 通话结束流程：需要调用主程序，主程序使用两个AI功能：第一次调用,是为了让AI用角色的口吻（查
看bot点py中是如何获取当前用户所对应的角色prompt的），向用户发送一段结束告别语；第二次调用AI是把用
户跟AI的语音聊天历史总结成一段文字，并写入到临时聊天历史中。不得强制触发临时聊天记忆总结（主程序与
videochat插件是两个不同的系统），临时聊天总结会根据主程序的定时器自动触发。

  3.  UI信息杂乱： 前端直接显示了后端调试用的情感分析文本

【用户情感可能是...】，破坏了沉浸感。前端返回的stt最终转录文本包含【】时，【】内应该被前端去除。
现在LLM输出了形象示之后,【】的形象提示并没有正确的被处理显示和清除，导致在TTS中就把形象朗读出
来了，转录中也包含了这个无用的信息
4. TTS换行符错误： AI生成的 \ 或 \n
被TTS直接朗读，导致发音怪异。应该把LLM输出时，把这两种换行符替换为逗号。
5. AI角色感不强 (Prompt问题)：
AI没有按预期生成情感指令和形象切换指令，导致表现力不足。优化提示词要求。
6. 通用文案问题：
“AI情感助手”等通用文案没有替换为角色名，代入感不强。通过正确方式获取角色名称，并代入。
8.这是一个角色模拟聊天程序。对角色的输出，结束语等，都尽量避免硬编码，而是用角色prompt引导AI输
出符合语境的回答。
9.尽量少改动原先代码，而是复用原先模块。由于重构的原因，前后端很多接受参数不一样，务必使其正确
匹配。
以下是部分详细修改方案。】
2。### 根本原因

你现在只在 拿到完整的 【形象=xxx】 之后 才 sub 一次就立即把当前 chunk 改写并
yield。
流式输出会把一个 token 拆成多个 chunk——常见的情况是：

text
chunk‑1  【形
chunk‑2  象=开心】嗨，同学…

在 chunk‑1 里还没有闭合的 】，正则匹配不到，于是这一半就直接被送进 TTS；
chunk‑2 再匹配并删除时，为时已晚——TTS 已经朗读了 “【形”.

修正思路

在解析 avatar 之前把所有内容暂存起来，直到检测到 】；
一旦找到完整标签
- 触发 set_expression()
- 把缓存中过去的 “【形象=xxx】” 整段裁掉
- 把真正的文本一次性 yield 出去
后续 chunk 就可以直接 passthrough，不再影响延迟。

关键代码片段（放在 `llm_node` 里，直接替换现有 avatar 处理逻辑即可）

python
class AICompanionAgent(Agent):
    def __init__(...):
        ...
        self._avatar_buffer  = ""   # <— 新增：缓存区
        self._avatar_handled = False

    async def llm_node(...):
        avatar_re = re.compile(r'【形象=([^】]+)】')

        async for chunk in llm_stream:
            # 1. 先把这段文本抓出来
            delta_txt = _extract_text(chunk)  # 见下
            if delta_txt is None:
                # 非文本 delta 直接 pass
                yield chunk
                continue

            # 2. 还没处理过形象 → 继续累积
            if not self._avatar_handled:
                self._avatar_buffer += delta_txt
                if '】' not in self._avatar_buffer:
                    # 标签还没闭合，什么都不发给上游
                    continue

                # 3. 缓冲区里已有完整标签 —— 开始处理
                m = avatar_re.search(self._avatar_buffer)
                if m:
                    keyword = m.group(1)
                    asyncio.create_task(self._handle_avatar_change(keyword))

                # 4. 把整段缓存剪掉标签
                cleaned_text = avatar_re.sub('', self._avatar_buffer, count=1)
                self._avatar_handled = True
                self._avatar_buffer  = ""      # 清空缓存

                # 5. 把真正的内容重新包进一个 chunk 发出去
                yield _make_new_chunk(chunk, cleaned_text)
                continue  # 原生 chunk 不再下发

            # 6. 形象已经处理过，后面的 chunk 直接 passthrough
            yield chunk


# ---------- 小工具 ----------
def _extract_text(chunk):
    """兼容 OpenAI / dict 两种结构，取出当前 chunk 的文本"""
    try:
        if isinstance(chunk.choices[0], dict):
            return chunk.choices[0].get("delta", {}).get("content")
        return chunk.choices[0].delta.content
    except Exception:
        return None

def _make_new_chunk(orig_chunk, text):
    """用同一 id & index 造一个新的 ChatChunk 放干净文本"""
    if isinstance(orig_chunk.choices[0], dict):         # dict 结构
        return llm.ChatChunk(
            id=orig_chunk.id,
            choices=[{
                "delta": {"role": "assistant", "content": text},
                "index": orig_chunk.choices[0].get("index", 0)
            }]
        )
    # 对象结构
    new_choice             = copy.deepcopy(orig_chunk.choices[0])
    new_choice.delta.content = text
    return llm.ChatChunk(id=orig_chunk.id, choices=[new_choice])

为什么不用 avatar_pattern.sub 直接改当前 chunk？
因为第一批字符已经被送出，所以必须在 真正输出前
暂存，并把缓存里的半截标签剪掉；否则会无法回收已经播放的语音。

其他小细节

| 问题 | 建议
|
| --------------------- |

|
| 多行文本换行符导致朗读突兀 | 继续保留你现有的 replace('\n', ', ') 逻辑，但要在
avatar 处理之后 再做，避免打乱缓存匹配。 |
| Function‑call 模式无需此分支 | 在 use_function_call_for_avatar=True
时可直接跳过这整个缓存逻辑，保持你现在的实现。 |
| 兼容性 | 如果担心一次把所有文本 flush
会带来较大首包延迟，可以在缓存期间对外发送空 chunk（只含 role, 没有 content），这样前端 UI
仍能保持 “正在输入…” 动画。 |

一句话总结

核心就是 “流式前先缓存，拿到 】 后再一次性裁剪+下发”。只要保证标签从未到达 TTS
pipeline，就不会再被朗读和写入转录。祝你调试顺利

5.升级AI情感/形象提示词
诊断分析：
您提供的Fish Audio情感控制文档非常详尽。之前的Prompt过于简单，现在我们可以用这份官方文档来构建一个
强大、精确、模型无法忽视的指令集。
解决方案：在 ai_companion_bot.py 中重写 emotion_instruction。
将 AICompanionAgent.init 方法中的 emotion_instruction
字符串替换为以下内容。这几乎是您文档的直接转译，并加入了强制性要求。
Generated python

ai_companion_bot.py - AICompanionAgent.init

...

动态添加情感控制指令（使用您提供的详细文档）

if enable_emotion_control:
emotion_instruction = f"""

规则：语音表现力指令 (强制遵循)

你必须使用一套特殊的指令来控制你声音的情感、语速和语调。这是为了让你的声音更有表现力。

1. 核心语法

格式: 所有指令都必须放在括号 () 内，格式为 (指令)要朗读的文本。
作用范围: 一个指令会对其后的所有文本生效，直到遇到一个新的指令。

2. 指令分类与规则

2.1 情感指令 (必须使用)

这些指令用于设定一句话的情感基调。你应当在每句有明确情感的回复前，选择一个最合适的指令。

正面情绪: (开心), (兴奋), (高兴), (得意), (坚定), (感激), (自信), (愉快)
负面情绪: (生气), (气愤), (愤怒), (讽刺), (讥讽), (悲伤), (难过), (无奈),
(失望), (着急), (内疚), (沮丧)
中性/疑问: (疑惑), (疑问), (质问), (思考), (惊讶), (震惊), (严肃), (平静)

示例:

(开心)太好了，我们终于见面了！
我对你这么信任，（愤怒）你就是这样回报我的吗？

2.2 语气控制指令

这些指令用于调整声音的表达方式，可以放在句子的任何位置。

速度:
- (语速变快): 用于紧张、急切的场景。
- (语速变慢): 用于庄重、思考或强调。
音量/音调:
- (大声): 用于喊叫或强调。
- (声音变小): 用于耳语或自言自语。
- (语气激动): 用于表达强烈的惊喜、激动。

示例: 快走！后面有人在追，（语速变快）再不跑就来不及了！

2.3 副语言指令

用于模拟非语言声音，指令后必须紧跟对应的拟声词。

(大笑)哈哈哈哈
(哭泣)呜呜呜
(叹气)唉

示例: 听到这个笑话，他再也忍不住了，（大笑）哈哈哈哈！

3. 重要提醒

强制要求: 你必须严格遵守上述规则。如果对话内容情感平淡，可以使用 (平静)。
组合使用: 你可以组合使用指令，例如：(愤怒)你竟然敢背叛我！（语气激动）我对你这么信任，（大声）你就是这样回报我的吗？
避免创造指令: 不要使用 (用悲伤安静的声音) 这样的复杂指令，而应组合 (悲伤)(声音变小)。
"""
base_prompt += emotion_instruction

... (后续的形象切换规则等保持不变)

Use code with caution.
Python
这个新的Prompt详细、具体且带有强制性，将极大地提升AI的表现力。

【上网搜索验证以上任务的可行性（不会对原先代码实现造成影响），根据提供的代码给出具体的实现方式，分多个部分编写代码重构的详细技术文档。等待我发送主程序后再开始回答。先分析这个代码。使用了很多livekit的方法。】

Answer 1

下面先做 代码架构与可行性分析（分章节），不动主程 main.py ；待你把主程贴上来后，再给出逐段重构指引和完整技术文档。

1 整体流程梳理

阶段	关键对象	说明
Worker 启动	`entrypoint()` → `AgentSession`	读取 .env → 预热模型 → `ctx.connect()` 加入房间 → 频道内等待真人加入
会话初始化	`AICompanionAgent.__init__`	拼装系统提示词、加载角色图片、注册 `set_character_expression` 工具
实时管线	`AgentSession` 默认管线<br>＋覆写的 `AICompanionAgent` 节点	VAD → Paraformer STT → `llm_node` → FishTTS → avatar worker 推流
收尾	`cleanup_callback()`	汇总用量、推送通话记录、发布 `agent_disconnected`

LiveKit Agents 1.x 提供的 Pipeline/Hook 机制 支撑你的自定义节点；覆写 llm_node 的做法与官方文档一致 (LiveKit Docs)。
Avatar 切换通过 room.local_participant.stream_bytes(topic="agent.avatar") 符合虚拟形象集成规范 (LiveKit Docs)。
STT / TTS 转录实时下发依赖 Text Streams API，stream_text() 属于最新 SDK，文档也确认支持 (LiveKit Docs)。

2 AICompanionAgent 关键职责

角色资源加载
- _load_character_images() 动态扫描 assets/images/characters/{role}/，返回 dict[keyword -> path]。
- 避免阻塞：文件读取 & JPEG 编码均已放入 asyncio.to_thread()。
视觉输出（set_expression）
- 模糊匹配关键词 → 读取文件 → 通过 Byte Stream 或回退 publish_data() 发送。
- 该方法被工具或【形象=】标签触发。
llm_node（已覆写）
- 当前实现：在每个 chunk 中直接 avatar_pattern.sub()，无法处理 拆分标签 的流式场景——这正是你们在问题 1/3 中提到的 “朗读了半截【形” 的根因。
- 可行修复：改为“缓冲‑直到闭合符”方案（详见下一节）。
用户视频流作为 Vision 输入
- _subscribe_to_video_stream() 找到第一条 video track → _create_video_stream() → _latest_frame
- _encode_video_frame_optimized() 把 JPEG Data‑URL 塞进 ImageContent，附到用户回合的 ChatMessage 中，供 LLM 调用 Vision 能力。
STT / TTS 通道
- Paraformer‑Streaming‑STT + FishTTS，均以 8 kHz / 40 ms 帧参数运行。
- STT 事件通过 stream_text(topic="lk.transcription") 转发；若前端未显示，问题多半在前端解码/过滤逻辑而非后端（见任务 1）。

3 核心 Bug 与改动可行性

#	症状	现状分析	可行修补点
1	转录不显示 / 情感提示裸露	STT 已发出带属性的 text‑stream，但前端简单把含 `【…】` 的整段过滤掉。	前端正则替换 or split on `】` 再渲染即可；后端无需改。
2	【形象=】朗读 & 残留	`llm_node` 逐 chunk sub，半截标签已进入 TTS。	参考官方 ChatChunk 缓冲模式；一次裁剪后再 yield，新流式延迟 ≈ 2–3 tokens，可接受。
3	`\n` / `\` 被朗读	目前替换发生在 avatar 处理前，遇到多 chunk 容易漏掉	在「avatar 裁剪完毕 → 决定输出前」做统一 `text.replace('\\n', ', ').replace('\\', '')`。
4	结束语 & 聊天总结	已在 `cleanup_callback` 内将新增 messages 发回 FastAPI；主程需要二次调用 LLM。	保持接口；主程逻辑改即可，不影响 Agent 侧。
5	Prompt 表现力不足	emotion_instruction 简易版	直接替换为你提供的详细规则字符串，拼接处已留钩子；对现有逻辑透明。

验证资料

ChatChunk / LLM node 自定义：官方文档示例 (LiveKit Docs)
Avatar byte‑stream 发送：虚拟形象集成文档 (LiveKit Docs)
Text stream + transcription：LiveKit Text Streams 指南 (LiveKit Docs)

4 缓冲式 avatar 处理示例（可行性证明）

官方允许在 llm_node 里 异步 yield 自定义对象，因此维护一个 self._avatar_buffer 再构造新 ChatChunk 是安全的。
GitHub demo（Agents examples）里对 function‑call 缓冲 的做法等同 (GitHub)，证明可行。

5 结论 & 下一步

以上修改全部局限在 AICompanionAgent，不用动主程逻辑，也不会破坏 LiveKit 事件流。
目标任务（1‑6, 8‑9）均可在当前 SDK 能力范围内完成，无需额外依赖。
请把 main.py 或相关前端片段贴上来，我会按模块输出「重构步骤 + 完整代码 diff + 风险提示」的多段技术文档。

Answer 2

Looks like you just dropped the full source for your video_chat_plugin/main.py and bot.py—quite a hefty codebase! 🙌

I can jump in wherever you need:

Debugging (import errors, race conditions, memory spikes, LiveKit mis‑fires, etc.)
Architecture / readability review (threading model, separation of concerns, logging strategy)
Performance tuning (async vs threading, memory, I/O, API‑rate‑limit handling)
Feature tweaks (reminder logic, video‑chat flow, prompt/role handling, auto‑restart rules)
Docker/CI deployment advice, or anything else.

Let me know the exact pain‑point—or share an error trace/log—and we’ll zero in on a fix or improvement.

質問

加载环境变量

配置日志级别

使用增强的日志系统替代基础logging

LiveKit Agents核心导入

方案2A需要的额外导入 - 为了捕获usage相关异常

导入插件

✅ 按官方文档导入视觉相关模块

尝试导入OpenAI插件，如果版本冲突则跳过

尝试导入转向检测器，兼容不同版本的导入路径

导入辅助工具

✅ 修正导入：确保导入ImageContent用于视觉识别

导入metrics模块，用于性能指标收集

导入新的STT和TTS适配器

不再需要StreamAdapter，FishTTS已支持ChunkedStream

导入DashScope的识别相关类

语音情感控制指令（仅语音对话时使用）

指令格式

可用的情感指令

使用示例

重要提醒

--- 核心改动：新的工具实现 ---

_find_image_in_character_folder 方法已被 _load_character_images 替代

--- 按官方文档添加用户视频帧优化编码功能 ---

--- 结束用户视频帧优化功能 ---

保持向后兼容的函数，供main.py调用

1. LiveKit Agents框架架构

核心框架特性

2. 音频处理链路

STT（语音识别）链路

TTS（语音合成）链路

优化配置

3. AI服务集成

多模态AI服务栈

遗留文件分析

核心功能文件（保留）

系统工作流程总结

完整工作流程

技术优势

开发指南

常用启动命令

配置文件位置

日志和调试

修正思路

关键代码片段（放在 llm_node 里，直接替换现有 avatar 处理逻辑即可）

其他小细节

| 问题 | 建议 | | --------------------- |

一句话总结

ai_companion_bot.py - AICompanionAgent.init

...

动态添加情感控制指令（使用您提供的详细文档）

规则：语音表现力指令 (强制遵循)

1. 核心语法

2. 指令分类与规则

2.1 情感指令 (必须使用)

2.2 语气控制指令

2.3 副语言指令

3. 重要提醒

... (后续的形象切换规则等保持不变)

思考

回答

1 整体流程梳理

2 AICompanionAgent 关键职责

3 核心 Bug 与改动可行性

4 缓冲式 avatar 处理示例（可行性证明）

5 结论 & 下一步

質問

确保当前目录在Python路径中 - 必须在其他导入之前

LiveKit 导入

✅ 修复: 添加缺失的 WorkerPermissions 导入

本地模块导入

加载环境变量

配置日志级别

设置日志级别

使用增强的日志系统替代基础logging

=============================================================

主服务类

=============================================================

=============================================================

启动入口

关键代码片段（放在 `llm_node` 里，直接替换现有 avatar 处理逻辑即可）

| 问题 | 建议
|
| --------------------- |

1 整体流程梳理

2 AICompanionAgent 关键职责

3 核心 Bug 与改动可行性

4 缓冲式 avatar 处理示例（可行性证明）

5 结论 & 下一步