stream模式如何计算prompt_tokens和completion_tokens?

stream模式如何计算prompt_tokens和completion_tokens?

在Stream模式下,'prompt_tokens’和’completion_tokens’是通过逐步计算每个片段的令牌数量来进行估计的。

在Stream模式下,将输入分割为多个片段,以便逐步发送给模型进行处理。每个片段进行处理之前,都会计算该片段的令牌数量,并相应地更新’prompt_tokens’和’completion_tokens’的计数。

例如,假设有一个输入字符串“Hello, how are you doing?”,并将其分为两个片段:“Hello, how”和“are you doing?”。在处理第一个片段之前,计算’prompt_tokens’的值,然后将其添加到片段的令牌数量。处理第一个片段时,会更新’completion_tokens’的计数。然后,处理第二个片段时,会再次计算该片段的令牌数量,并更新’prompt_tokens’和’completion_tokens’的计数。

通过这种逐步计算的方式,可以准确地估计出在Stream模式下的’prompt_tokens’和’completion_tokens’的数量。