2012792
(Qianrong Shi)
1
因为我是新手,在国外听空管大佬们说话经常记不住,很紧张,所以想要找找有没有vPilot语音转文字的工具。但在网上一直没找到特别好用的。
所以自己动手做了一个 Clearance Deck。底层做了一些特定的连线优化,能够实现非常精准的陆空对话切片断句,而且完全不占本地的 CPU/GPU 资源(游戏帧率 0 损耗)。(目前仅支持vPilot,其它客户端我没有试过)
我引入了民航情景意识和语义理解机制。它不仅能实时出原始字幕,还具备极强的常识“脑补”和重口音清洗能力。
我自己用了几次,目前在复杂空域里的反馈速率和准确度都还挺满意的。
目前软件还在本地内测和安全机制的调试中。我想问下有没有经常连线、对这种无线电听力HUD辅助感兴趣的飞友?可以给我留言或私信。后续等内测版打包调顺了,我会邀请第一批(大概 15-20 人)飞友试用,大家一起在实战里抓抓 Bug。
如果大家对于功能有什么建议,也欢迎告诉我~
以下是今天扒的一段空陆对话截图。黄色的代表的是给自己的消息。每条下面的小字是实时流式生成的内容,不是很准但速度快。上面的大字是消息收完后用AI重新分析的文本。正确性比较高。
4 个赞
1295526
(Haochuan Huang)
2
哇,看起来你做了一个非常不错的工具!能把 vPilot 陆空对话做成实时转写,还做到不占本地性能、针对民航语境做优化,真的很用心,也很不容易。不过,从连线飞行的角度,我个人觉得这个小工具在实时连线里实际意义不大。
1. 多了一步,busy 空域里这几秒很要命
正常的信息流是:
听到指令 → 理解 → 复诵/操作
用了工具以后变成:
听到指令 → 等转写 → 阅读文字 → 理解 → 复诵/操作
中间多出来的「阅读转写文字」这一步,往往还要在脑子里再转成中文。在大流量空域里,这个空档很要命——ATC 或其他飞行员很容易以为你没听到,可能重复发指令,也可能平白多耗掉好几秒。
无线电通话讲究听到即反应,字幕天然和这个节奏相反。
2. 识别错了,比听不清更危险
我比较担心识别准确率。有些口音很重的时候,AI 会不会把 left 识别成 right?在进场序列里方向转错,后果是很严重的。
再加上帖子里提到的「脑补」和二次分析——听糊的地方被补成一句看起来合理的指令,我觉得比单纯听不清更危险:会更信屏幕上的字,反而错得更自信。
结论
对我来说,这类工具如果用在实时 HUD 辅助操作/复诵,弊大于利。事后复盘、对照文本练听力,或许还有点用;但在 busy 进近里当主通道,我觉得延迟和误识别的风险都太高了。
以上是我的一点看法,供参考。
4 个赞
2012792
(Qianrong Shi)
3
感谢反馈!
你说的这两点都很对。速度和正确性是这个软件最重要的地方。我之前有试过几个方案,要么速度不行,要么就是正确性不高。确实是有你所说的问题。
其实还有一个难点是如何正确地断句。因为在繁忙的频道里,几个人连着说的情况很常见。用传统的VAD很难快速地把语句断清楚。不过这个问题我已经用一个小Trick解决了。现在断句的成功率基本上达到了98%以上。
对于速度和正确性,我目前是这样处理的:我把整个识别分成了两个层级:
第一层:使用目前网上比较扎实的实时语音流API,在收到声音的时候实时转文字。这个延迟很低,基本上是说一个单词就能实时显示一个单词。有点类似于各种会议软件里的实时字幕。但是这个正确性并不非常高,得根据你自己听到的内容综合判断一下。(特别是SID/STAR名称,很难识别)。不过可以根据用户输入的Callsign去进行特化识别,相对准确地识别出发给“我”的指令。
第二层:把所有发给“我”的指令,自动发给比较高级的大模型进行二次识别。速度大概是2秒左右。因为加入了跟“我”的Flight Plan以及机场相关的上下文,这次识别的结果正确性就很高了。我目前使用的是刚出没多久的Gemini 3.5 Flash。这模型可太NB了,又准又快。基本上可以识别的比较清楚(至少比我自己听得清楚)。特别是涉及到SID/STAR的名称,Waypoint,以及各种数字。对于各国口音的识别也比较准。我特地用LiveATC录了一些各国真实机场的音频去测试,都挺准的。确实可以帮我记录下一些关键信息。我目前还在尝试能不能把这个识别时间再缩短一些,准确性再提高一些。
我知道,其实对于老手来说,如果你自己在国外飞基本上都能听得懂,这个工具并没有多大用。但像我这样的新手,初进各个国家那些大机场的时候,还是会挺紧张的。有了这个工具以后我感觉能增加一些信心,对我帮助还挺大的。就算一时没听明白,也可以在事后点开反复听来练习。
不过确实,这个工具还在很粗糙的阶段,还需要多打磨。也不一定对大家都有用。我本职是软件产品经理,不是专业搞开发的。不过现在现在AI辅助开发这么火,我也想试试。我目前是当成一个小兴趣项目在做。一边跟AI瞎聊一边改进方案。看着工具一步步成型还是很有成就感的。
目前我在尝试增加一个从句子里提取关键指令的功能。有点类似于BeyondATC那样的,直接把Clearance指令里的那些信息做成卡片固定在上面。等弄好了就准备打包出来做内测了。有想要试试的欢迎大家私信我。
2 个赞
1607253
(Uprain Li)
4
一直在找这种工具,很需要。跟你的情况一样,很喜欢全球到处飞,但英语比较薄弱,常规短命令可以听懂交流。但遇到复杂的长句就很sorry了。同时也很想能事后点开多练习一下。希望能参加测试。
1943926
(Qihong Dong)
5
个人认为可以在管制员不忙的情况下飞仅接收试一试(个人看法)