Bạn không cần thẻ tín dụng để bắt đầu xây dựng với các AI API. Giữa các gói miễn phí (free tiers), mô hình mã nguồn mở và tín dụng đăng ký (signup credits), có đủ các lựa chọn không tốn phí để tạo nguyên mẫu (prototype), thử nghiệm và thậm chí chạy các khối lượng công việc sản xuất nhỏ.
Dưới đây là mọi tùy chọn miễn phí hiện có, được xếp hạng theo tính hữu dụng thực tế.
Nếu bạn đang đánh giá các lộ trình miễn phí như một bước đệm để chuyển đổi, hãy tham khảo so sánh giá và hướng dẫn cho nhà phát triển Trung Quốc. Lộ trình rẻ nhất trên lý thuyết không phải lúc nào cũng là lộ trình dễ vận hành nhất.
Nhóm 1: Các gói miễn phí chính thức (Không yêu cầu thẻ tín dụng)
Google AI Studio (Các mô hình Gemini)
Google vẫn có gói miễn phí chính thức mạnh nhất, nhưng các lựa chọn hữu ích đã chuyển sang dòng Gemini 3.1.
| Mô hình | Gói miễn phí | Tại sao nó quan trọng |
|---|---|---|
| Gemini 3.1 Flash-Lite Preview | Gói input/output miễn phí | Công việc agentic khối lượng lớn, giá rẻ |
| Gemini 3.1 Flash | Gói input/output miễn phí | Mô hình nhanh đa mục đích |
| Gemini 3.1 Pro | Gói input/output miễn phí | Khả năng suy luận mạnh hơn với ngữ cảnh dài |
| Gemini Embedding | Gói input miễn phí | Hữu ích cho các thử nghiệm RAG giai đoạn đầu |
Để tạo nguyên mẫu và các dự án cá nhân, đây vẫn là lựa chọn khó đánh bại. Google AI Studio vẫn là cách chính thức dễ dàng nhất để thử nghiệm một dòng mô hình tiên tiến hiện đại mà không cần chạm vào thẻ tín dụng.
from google import genai
client = genai.Client(api_key="YOUR_FREE_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash",
contents="Explain quantum computing in simple terms"
)
print(response.text)
Groq (Các mô hình mã nguồn mở, Inference nhanh)
Groq cung cấp quyền truy cập miễn phí vào các mô hình mã nguồn mở với tốc độ inference cực nhanh.
| Mô hình | Giới hạn miễn phí | Tốc độ |
|---|---|---|
| Llama 3.3 70B | 30 req/min | ~500 tokens/sec |
| Mixtral 8x7B | 30 req/min | ~480 tokens/sec |
| Gemma 2 9B | 30 req/min | ~750 tokens/sec |
Lợi thế về tốc độ của Groq là có thật. Đối với các ứng dụng nhạy cảm với độ trễ (latency) mà bạn có thể sử dụng mô hình mã nguồn mở, đây là tùy chọn miễn phí nhanh nhất.
Mistral (Le Plateforme)
Mistral cung cấp quyền truy cập API miễn phí cho các mô hình nhỏ hơn của họ.
| Mô hình | Giới hạn miễn phí |
|---|---|
| Mistral Small | Gói miễn phí giới hạn |
| Codestral | Miễn phí cho các tác vụ code |
Cloudflare Workers AI
Định mức miễn phí của Cloudflare hiện được tính bằng neuron thay vì số lượng request. Gói miễn phí bao gồm 10.000 neuron mỗi ngày, linh hoạt hơn hạn ngạch "N request" cứng nhắc nhưng có nghĩa là khối lượng miễn phí thực tế phụ thuộc vào mô hình bạn chạy.
Nhóm 2: Tín dụng đăng ký (Có thể yêu cầu thẻ tín dụng)
OpenAI
Các tài khoản mới nhận được tín dụng miễn phí có giới hạn (số lượng thay đổi theo khu vực và thời điểm). Sau đó, mức nạp tối thiểu là $5.
Anthropic
Các tài khoản API mới nhận được tín dụng miễn phí có giới hạn. Mức nạp tối thiểu là $5 sau khi hết tín dụng.
LemonData
Tài khoản mới nhận được $1 tín dụng miễn phí mà không cần thẻ tín dụng. Số tiền này bao gồm khoảng:
- 2.500 request GPT-4.1-mini (mỗi request 1K input + 500 output tokens)
- 150 request Claude Sonnet 4.6
- 500 request DeepSeek V3
Vì LemonData tổng hợp hơn 300 mô hình, $1 tín dụng của bạn có thể sử dụng cho tất cả các mô hình đó.
Hãy coi tín dụng đăng ký là vốn đệm, không phải là một gói miễn phí lâu dài. Chúng tốt nhất để thử nghiệm khả năng tương thích của nhà cung cấp, không phải để thiết kế một sản phẩm miễn phí tồn tại lâu dài dựa trên chúng.
OpenRouter
Gói miễn phí của OpenRouter hiện bao gồm hơn 25 mô hình với giới hạn 50 request mỗi ngày. Điều này đủ để thử nghiệm và tìm kiếm mô hình, nhưng không nên nhầm lẫn với một kế hoạch sản xuất miễn phí ổn định.
Nhóm 3: Các mô hình mã nguồn mở (Tự lưu trữ)
Nếu bạn có GPU (hoặc máy Mac chạy chip Apple Silicon), bạn có thể chạy các mô hình cục bộ với chi phí API bằng không.
Ollama (Thiết lập dễ nhất)
# Cài đặt
curl -fsSL https://ollama.com/install.sh | sh
# Chạy một mô hình
ollama run llama3.3
# Sử dụng như API (tương thích OpenAI)
curl http://localhost:11434/v1/chat/completions \
-d '{"model":"llama3.3","messages":[{"role":"user","content":"Hello"}]}'
Các mô hình tự lưu trữ phổ biến
| Mô hình | Tham số | RAM tối thiểu | Chất lượng |
|---|---|---|---|
| Llama 3.3 70B | 70B | 48GB | Gần mức GPT-4 |
| Qwen 2.5 72B | 72B | 48GB | Đa ngôn ngữ mạnh mẽ |
| DeepSeek R1 (distilled) | 32B | 24GB | Suy luận tốt |
| Mistral Small 3.1 | 24B | 16GB | Nhanh, hiệu quả |
| Phi-4 | 14B | 12GB | Tốt so với kích thước |
| Gemma 2 9B | 9B | 8GB | Nhẹ |
Yêu cầu phần cứng
- 8GB RAM: Có thể chạy các mô hình 7B (Gemma 2, Llama 3.2 3B)
- 16GB RAM: Có thể chạy các mô hình lên đến 14B (Phi-4, Mistral Small)
- 32GB RAM: Có thể chạy các mô hình 32B (DeepSeek R1 distilled)
- 64GB+ RAM: Có thể chạy các mô hình 70B+ (Llama 3.3, Qwen 2.5)
Mac Studio M4 Ultra với bộ nhớ thống nhất 192GB có thể chạy các mô hình lên tới 400 tỷ tham số, trở thành một giải pháp thay thế khả thi cho các phiên bản GPU đám mây để phát triển.
So sánh: Bạn nên sử dụng tùy chọn miễn phí nào?
| Trường hợp sử dụng | Lựa chọn miễn phí tốt nhất | Tại sao |
|---|---|---|
| Tạo nguyên mẫu | Google AI Studio | Gói miễn phí chính thức mạnh nhất hiện nay |
| Ưu tiên tốc độ | Groq | Inference mã nguồn mở nhanh nhất |
| Thử nghiệm sản xuất | LemonData $1 credit | Một key, nhiều dòng mô hình |
| Nhạy cảm về quyền riêng tư | Ollama (cục bộ) | Dữ liệu không bao giờ rời khỏi máy của bạn |
| Ứng dụng edge nhỏ | Cloudflare Workers AI | Neuron miễn phí + edge runtime |
| Embeddings | Google AI Studio | Điểm bắt đầu miễn phí chính thức dễ dàng nhất |
Kết hợp các gói miễn phí để đạt độ phủ tối đa
Một chiến lược thực tế cho các nhà phát triển độc lập:
- Sử dụng Google AI Studio để phát triển và thử nghiệm
- Sử dụng Groq cho các tính năng nhạy cảm với độ trễ (30 req/min)
- Sử dụng $1 tín dụng của LemonData cho các mô hình không có sẵn ở nơi khác (Claude, GPT-4.1)
- Chạy Ollama cục bộ để inference ngoại tuyến không giới hạn
Sự kết hợp này cho phép bạn tiếp cận hầu như mọi dòng mô hình lớn với chi phí gần như bằng không trong quá trình phát triển, với đủ dung lượng để xử lý các nguyên mẫu ban đầu.
Miễn phí không có nghĩa là an toàn cho sản xuất
Truy cập miễn phí rất tuyệt vời cho:
- Tạo nguyên mẫu
- Smoke tests
- Chạy đánh giá
- Thử nghiệm trình soạn thảo
Truy cập miễn phí thường yếu về:
- Độ trễ có thể dự đoán
- Khối lượng công việc được đảm bảo bởi SLA
- Khối lượng hàng ngày lớn
- Ngân sách dài hạn ổn định
Đó là lý do tại sao các nhóm thường bắt đầu với gói miễn phí và sau đó chuyển sang một ngân sách cổng thanh toán nhỏ khi sản phẩm vượt qua giai đoạn nguyên mẫu.
Điểm bàn giao rõ ràng rất đơn giản: một khi thiết lập miễn phí của bạn cản trở các quyết định phát hành sản phẩm thường xuyên hơn là hỗ trợ các thử nghiệm, đã đến lúc chuyển sang lộ trình trả phí.
Tại thời điểm đó, mục tiêu không còn là "duy trì miễn phí". Mục tiêu là "duy trì sự linh hoạt mà không cần nhân bản nhiều nhà cung cấp".
Khi nào nên bắt đầu trả phí
Các gói miễn phí không còn thực tế khi:
- Bạn cần hơn ~1.000 request/ngày một cách nhất quán
- Bạn cần đảm bảo thời gian hoạt động và SLA
- Bạn cần các mô hình không có trong gói miễn phí (Claude Opus 4.6, GPT-4.1 ở quy mô lớn)
- Yêu cầu về độ trễ của bạn vượt quá những gì gói miễn phí cung cấp
Tại thời điểm đó, con đường tiết kiệm chi phí nhất thường là một trình tổng hợp (aggregator) như LemonData hoặc OpenRouter, nơi một khoản nạp tiền nhỏ cho phép bạn truy cập vào hàng trăm mô hình mà không cần quản lý nhiều tài khoản nhà cung cấp.
Sẵn sàng vượt qua các gói miễn phí? lemondata.cc tặng bạn hơn 300 mô hình với $1 tín dụng miễn phí khi đăng ký. Không yêu cầu thẻ tín dụng.
