处理文档这个text split带来一些负面效果

SilentMoebuta · 2023 年6 月 15 日 08:14

比较重要的文本在中间被断开了，后面的那段在和query匹配的时候也找不到
这种一般是要怎么解决

我想的是
1.不使用text split
2.同时换embedding的模型，支持更大的输入长度，实在超出的就只能截断了

还有什么其他比较好的处理方式吗？求教

admin · 2023 年6 月 15 日 15:19

这种方法的话，我认为有点问题，1）检索出来的文本长度太长，相似性会受影响，进而会引起生成式语言模型 Hallucination的问题；2）成本问题。

可以试一下这种方法？，split的时候通过overlap来处理，比如：“ABCDEFGHIJKLMN” 截断为“ABCDEFGH”，“GHIJKLMN”，GH为overlap分别处在两个段落内，这样可以避免一些关键信息不全的问题。

其他人有方法的话，欢迎一起来讨论。我觉的这个是个很好的话题

admin · 2023 年6 月 16 日 07:12

admin · 2023 年6 月 16 日 07:13