
来源:图虫
AI巨头们突然在印度掐起来了。
为了争夺三哥的欢心,OpenAI、Google、Perplexity纷纷大出血,先后在印度推出前所未有的免费订阅计划。
效果看得见。
根据市场情报公司Sensor Tower统计的数据,截至上周,ChatGPT在印度的日活跃用户同比增长607%,达到7300万,是美国用户数量的两倍多;Gemini在印度的日活跃用户达到1700万,而美国的用户数量为300万。
显然,"Free"的魔力比"AGI"大一万倍,贪小便宜是所有人的共性。
但究竟是谁占谁便宜,真不好说。

来源:官网
01、数字殖民
17世纪,英、荷、法多国船队,为了香料、茶叶和棉花,先后进入印度的港口、成立东印度公司,从当地攫取了海量财富。
数百年后,OpenAI、Google和Perplexity的数字船队,再一次驶入了这片次大陆。
这一次,他们要的是Token。
为什么又来印度?
首先,是人口红利。
据Epoch AI的研究,高质量的英语文本数据可能在2026年枯竭,到2028年,互联网上所有高质量的文本数据都将被使用完毕。
同时,英文数据占比超65%,但覆盖70%人口的非英语数据缺口达83%……
此时此刻,拥有超过14亿人口、22种官方语言、以及成千上万种方言的印度,就成了AI时代最大的资源宝库。
印度用户独特的Hinglish(印地语与英语的混合体)以及复杂的语码转换现象,为大模型提供了绝佳的训练材料。

其次,利用庞大的印地语系,为大模型优化参数。
大模型不读字,读的是Token。
在早期的GPT模型中,英语的Tokenization效率极高,一个单词通常就是一个Token。
但对于其他语言,比如印地语、马拉地语或泰卢固语,一个词可能被拆成5-6个Token。
如此就造成了两个后果。
第一,推理成本太高。
同样的语义,印地语消耗的算力是英语的3倍。
第二,上下文窗口缩水。
同样的内存,能记住的印度语对话长度只有英语的1/3。
比如,印度人是这样说话的:Arre bhai, model training ki efficiency literally exponential honi chahiye!
这种一句话里,至少无缝切换了三种语言,直击大语言模型的软肋。
按照传统的自然语言处理方法接收这种数据,会直接崩溃的。
但通过海量的印度用户交互数据,大模型正在学习一种超语言的表征能力,能更好地理解多模态数据。

简单来说,印度市场就是一个巨大的天然实验室,通过在印度大规模收集原生数据,巨头们可以重新训练Tokenizer,优化词表。
这直接关系到模型运行的经济性。
谁先让印地语的Token压缩率接近英语,谁就能在印度的B端API市场上拥有定价权。
届时,连印度这个语言最复杂、体量最庞大的市场都跑通了,世界上其他地区还算问题吗?
随着海量印度数据的注入,大模型将变得不再那么“英语中心主义”。
这不仅是政治正确,更是商业必须。
02、各显神通
为了抢夺印度的免费“矿工”,各家的大方向都是免费。
但在具体策略上,有很大不同。
OpenAI实施精准诱捕,把用户绑在生活场景里。
最经典的场景:接入UPI支付后,用户只需要输入“给妈妈转500卢比”就能直接交易,每一次支付行为都会生成“对话-决策-交易”的完整数据链。
同时,用“母语对话”痛点吸引用户:针对印地语语义准确率仅82.3%的短板,推出7种语言的广告片,直接拉动46%的月活用户每天打开APP。
这导致美国本土用户和印度用户出现巨大倒挂。
美国用户是用来变现的(Plus订阅),而印度用户是用来进化的。
这种“双轨制”策略,让OpenAI能够一边在华尔街讲收入故事,一边在实验室讲数据故事。
印度用户每用一次GPT,就相当于给OpenAI贡献了3条高质量语料。

来源:官网
谷歌则选择找地头蛇合作。
Gemini在印度的日活一度低迷,但在与Reliance Jio共同推出 “18个月免费Gemini Pro”后,DAU很快飙升到15%,达到1700万。
Reliance Jio是何方神圣?
它是印度信实工业旗下的电信运营商,是数字基础设施垄断者,拥有数亿廉价4G/5G用户。
双方联手,新激活的Jio手机会默认安装Gemini插件,你连拒绝的选项都没有。
这些插件会悄悄收集 “被动数据”:天气查询积累季风气候数据,地图导航记录交通流规律,甚至相册备份都会被用来训练图像识别模型。
更关键的是,谷歌的优势在于安卓生态,而印度又是安卓的绝对主场。
安卓系统的日志权限让谷歌能获取用户的APP使用习惯,通过行为数据给用户打上200多个标签,再反哺模型优化推荐。
这不仅仅是为了云端训练,更是为了边缘计算的数据回流。
它不指望印度用户会问Gemini什么高端问题,而是你想用本地语言搜索哪家咖喱店,或者如何用孟加拉语写一封求职信。
这就够了!

来源:官网
Perplexity又不一样。
既没有OpenAI的品牌光环,也没有Google的渠道霸权,所以它的逻辑是:先在印度攒够数据,再把矿卖给巨头。
印度可谓是全世界最卷的国家。
由于教育资源的不平衡,大量印度学生和职场新人将AI视为“超级导师”。
Perplexity联合Airtel,花大价钱给3.6亿用户免费用200美元的Pro版,并默认开启“全量数据同步”,用户的每一次搜索、提问、甚至修改回答的痕迹都会被记录。
这一操作直接让下载量暴涨800%,每天新增300万条多语言语料,比去年涨了4倍多。

来源:官网
除了以上这些,还有其它“小手段”。
比如三家都在玩的“游戏化激励”。
ChatGPT的“回答点赞”给积分,Gemini的“每日签到”送存储空间,Perplexity的“邀请好友”解锁高级功能。
这些设计都算不上新颖,但确实能让用户的停留时间更长:使用时长每增加1小时,产生的语料量就会翻3倍。
更狡猾的是 “错误诱导”。
企业方面会故意在回答里留小漏洞,引发用户主动纠错。
这些纠错数据能直接用于模型迭代,比人工标注的效率高5倍。
印度用户以为在帮AI进步,其实是当免费的数据质检员。
而在美国,这类质检员的时薪是25美元……
03、免费才是最贵的
在财务报表上,为大量印度免费用户提供算力支持,很明显是一笔巨额亏损。
但在AI研发部门的报表上,这又是极低成本的资产购入。
传统逻辑是:用户付费>运营成本=利润。
但AI训练的逻辑是:运营成本(算力)=数据采集成本。
以OpenAI为例,如果直接去购买7300万人的多轮对话数据,费用至少是几十亿美元。
但现在,只需要支付推理时的电费。
这是一场以算力换智力的宏大套利。
对企业而言,这毫无疑问是划算的。
比如比哈尔邦用户常用的“拉贾斯坦语”,全球能流利使用的仅500万人,但通过ChatGPT的对话收集,OpenAI已积累10万条该语言的语料,让模型识别准确率从65%提升到91%。
更珍贵的是文化语境。
宗教节日的祝福语、种姓制度的特殊称谓、地区性的俚语黑话等等,这些知识图谱的补全,是无法通过抓取通用网页数据集实现的,必须依靠人类“口口相传”给AI。
根据谷歌AI实验室的报告:接入印度方言数据后,Gemini的跨文化对话错误率下降了43%。
那这些成果最大的功臣,印度用户又充当了什么角色呢?

佃农,妥妥的数据佃农!
虽然享受了免费的各种高科技服务,但他们实际上是在没有股权、没有工资的情况下,为AI公司构建护城河。
农民查“农药配比”,贡献农业数据;小商贩算税率,补充金融科技语料;甚至家庭主妇问“剩菜改造食谱”,都在丰富生活服务数据库……这些场景化数据的市场规模已超过180亿美元。
最直观的就是ShareChat的。
其用户上传的视频数据被用来训练AI质量评估模型,通过近万个视频的主观打分,让无参考质量评估的误差缩小到0.2分以内。
这些“标注数据”直接帮助ShareChat提升了5%的用户时长,估值冲到28.8亿美元,但参与打分的用户连优惠券都没有。
……
按Counterpoint的测算,印度AI用户平均每天产生4.2条有效语料,每条语料的标注成本约0.2美元,一年就是306美元。
扣除免费套餐的运营成本(每人每年76美元),每个“数据矿工”每年能给AI公司创造230美元的净价值。
以ChatGPT 7300万日活为例,一年就能贡献167.9亿美元的财富。
这比印度2024年全年的AI产业总产值还高。
更关键的是什么呢?
矿工永远变不成 “矿场主人”。
现在印度用户用的是免费AI,未来当巨头关闭免费通道,他们就得交订阅费。
相当于矿工挖了一辈子矿,最后还要买自己挖的矿石。
目前的现状是:先发者拿走了数据,炼成了模型,然后把API卖回给印度的初创公司。
这已经是个完美的商业闭环,也是一个完美的剥削链条。
与19世纪印度给英国出口棉花,最后还要买英国布料的命运如出一辙。
04、尾声
就目前而言,印度市场的潜力,很可能是谷歌重归龙头地位的机会。
首先,谷歌有YouTube的视频数据、Maps的地理数据、Android的行为数据……维度比更倾向于单纯文本的OpenAI要丰富得多。
更关键的是语音交互数据。
众所周知,印度有大量文盲,最新的人数在2.8亿左右。
这些人群在互联网上的交流方式,首选只能是语音。
谷歌通过在语音识别和语音合成上的积累,结合本地运营向的支持和Gemini的多模态能力,可能在印度农村市场实现对OpenAI的“农村包围城市”。
但说到这里,大家可能都有一种奇怪的感觉。
OpenAI和谷歌的战争,战场居然在印度。
这跟日俄战争的战场在中国东北,有啥区别?
这已经涉及到数据主权问题。
印度政府已经意识到这一点。
印度电子和信息技术部最近也表明观点:不甘心只做数据的产地,想做AI的加工厂。
一旦莫迪政府决定收紧数据出境政策(类似GDPR的印度版DPDP法案),硅谷科技巨头的免费午餐可能会立刻结束。
这或许是未来最大的风险点之一。
免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。

迁址公告
古东管家APP
关于我们
请先登录后发表评论