做 TransPeek 的时候遇到一个很有意思的问题:PiP 悬浮窗显示翻译结果 → ReplayKit 捕获整个屏幕(包括 PiP )→ OCR 识别到 PiP 里的文字 → 翻译引擎把翻译结果再翻译一遍 → 循环。
这个问题如果不解决,用户看到的就是一堆乱七八糟的重复翻译。
核心问题:在 ReplayKit 捕获的帧中,找到 PiP 窗口的位置,把这块区域从 OCR 输入中排除。
难点:
所以只能通过图像本身来检测。
给 PiP 加一个动画彩虹边框,色相每 4 秒旋转一周。这意味着连续两帧之间,PiP 边框的像素颜色一定会变化,而且颜色鲜艳(高饱和度)。
for 每个像素 (x, y):
diff = abs(frame_n[x,y] - frame_n-1[x,y])
if diff > threshold AND saturation(frame_n[x,y]) > 0.5:
candidate_pixels.append((x, y))
// 对候选像素的 x 、y 坐标做统计
// 中位数确定中心,四分位数确定边界
bounds = computeBoundsFromQuantiles(candidate_pixels)
优点:只要边框在动,就能检测到。 缺点:需要两帧才能检测,启动时第一帧无法检测。
对于纯色边框(红、蓝、绿等),单帧就能检测。
逻辑:
候选区域面积验证 → 宽高比验证 → 边缘浓度验证 → 通过
两套算法的结果还需要做稳定性处理:
调参花了不少时间,但最终效果还不错。彩虹边框在绝大多数背景下都能被检测到,纯色边框在颜色不冲突的场景也很稳定。用户可以根据使用场景选择边框样式。
这个问题让我意识到,有些看起来简单的需求,背后的技术挑战其实很有趣。如果有更好的方案欢迎讨论。