TPU v7 của Google giảm chi phí suy luận 70%, thách thức kinh tế chip AI của Nvidia
Theo báo cáo của Goldman Sachs công bố ngày 21 tháng 1 năm 2026, TPU v7 của Google đã giảm chi phí suy luận khoảng 70% so với TPU v6, thu hẹp khoảng cách với GB200 NVL72 của Nvidia và thậm chí đạt ngang bằng ở một số chỉ số chi phí then chốt. Sự dịch chuyển này phản ánh xu hướng ngành từ tốc độ tính toán thô sang triển khai AI bền vững, hiệu quả về chi phí.
Phân tích của Goldman Sachs cho thấy hiệu suất vượt trội của TPU đến từ tích hợp hệ thống toàn diện: liên kết băng thông cao, bộ nhớ HBM, quy trình đóng gói CoWoS của TSMC và tối ưu hóa quy mô tủ máy. Google hiện đang sử dụng rộng rãi TPU cho suy luận mô hình Gemini, trong khi Anthropic đã đặt hàng hệ thống TPU tương lai trị giá 2,1 tỷ USD với Broadcom (AVGO-US), dự kiến giao hàng giữa năm 2026. Dù Nvidia (NVDA-US) vẫn dẫn đầu về thời gian phát triển và sinh thái CUDA, AMD (AMD-US) và Amazon (AMZN-US) vẫn còn chậm hơn trong việc giảm chi phí. Goldman Sachs duy trì mức đánh giá “Mua” đối với Nvidia và Broadcom, dự báo rõ ràng: GPU sẽ thống lĩnh đào tạo và tính toán tổng quát, trong khi ASIC tùy chỉnh sẽ chiếm thế mạnh trong các tác vụ suy luận mở rộng, ổn định, phù hợp với kỷ nguyên ROI theo từng token của AI.