ಸ್ಟ್ಯಾಂಡ್ಔಟ್, ಸರ್ವಂ ವಿಷನ್, ನಿರ್ದಿಷ್ಟವಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಓದುವಿಕೆ ಮತ್ತು ಪಠ್ಯ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. OCR ತಂತ್ರಜ್ಞಾನವು ಚಿತ್ರಗಳು, ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ದಾಖಲೆಗಳು ಅಥವಾ ಕೈಬರಹದ ಟಿಪ್ಪಣಿಗಳಿಂದ ಪಠ್ಯವನ್ನು ಓದಲು ಯಂತ್ರಗಳನ್ನು ಅನುಮತಿಸುತ್ತದೆ.
ಸರ್ವಂ ದೃಷ್ಟಿ
ಸರಳವಾದ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯುವುದರ ಹೊರತಾಗಿ, ಇದು ಗ್ರಾಫ್ಗಳಿಂದ ಡೇಟಾ ಪಾಯಿಂಟ್ಗಳನ್ನು ಹೊರತೆಗೆಯಬಹುದು, ಚಾರ್ಟ್ಗಳಿಂದ ಟ್ರೆಂಡ್ಗಳನ್ನು ಅರ್ಥೈಸಿಕೊಳ್ಳಬಹುದು ಮತ್ತು ಕೋಷ್ಟಕಗಳು ನೆಸ್ಟೆಡ್ ಅಥವಾ ದೃಷ್ಟಿಗೆ ಸಂಕೀರ್ಣವಾದಾಗಲೂ ಸಂಕೀರ್ಣವಾದ ಟೇಬಲ್ ರಚನೆಗಳನ್ನು ಸಂರಕ್ಷಿಸಬಹುದು. ಈ ಮಾದರಿಯು ಹಿಂದಿ, ಬೆಂಗಾಲಿ, ತಮಿಳು, ತೆಲುಗು ಮತ್ತು ಮರಾಠಿಯಂತಹ ಪ್ರಮುಖ ಭಾರತೀಯ ಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಂತೆ 22 ಭಾಷೆಗಳಲ್ಲಿ ನಿಖರವಾಗಿದೆ.
ವಿಷನ್ ಸರ್ವಮ್ ವಿರುದ್ಧ ಜೆಮಿನಿ ಪ್ರೊ 3 ಮತ್ತು ಚಾಟ್ಜಿಪಿಟಿ
ಸರ್ವಂ ಸಹ ಸಂಸ್ಥಾಪಕ ಪ್ರತ್ಯೂಷ್ ಕುಮಾರ್ ಅವರ ಪ್ರಕಾರ AISarvam Vision olmoCR-Bench ನಲ್ಲಿ ಪ್ರಭಾವಶಾಲಿ 84.3% ನಿಖರತೆಯನ್ನು ಸಾಧಿಸಿದೆ, 80.20% ನಲ್ಲಿ Gemini 3 Pro, 78.80% ನಲ್ಲಿ DeepSeek OCR v2, ಮತ್ತು 69.80% ನಲ್ಲಿ ChatGPT ನಂತಹ ಇತರ ಪ್ರಮುಖ OCR ಸಾಧನಗಳನ್ನು ಮೀರಿಸಿದೆ.
ಮಾದರಿಯು OmniDocBench v1.5 ನಲ್ಲಿ 93.28% ಗಳಿಸಿತು, ಇದು ಮೂಲಭೂತವಾಗಿ ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಅಳೆಯಲು ಬಳಸುವ ಮಾನದಂಡವಾಗಿದೆ AI ಮಾದರಿಗಳು ಕಾಲಮ್ಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಮಿಶ್ರ-ಲೇಔಟ್ ವಿಷಯದಂತಹ ವಿವಿಧ ಸ್ವರೂಪಗಳಲ್ಲಿ ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ಓದಬಹುದು ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು. ಈ ಮಾನದಂಡದಲ್ಲಿ, ಸರ್ವಂ ವಿಷನ್ ಜೆಮಿನಿ 3 ಪ್ರೊ ಅನ್ನು 91.6% ಮತ್ತು ChatGPT 5.2 ಅನ್ನು 86.56 %t ನಲ್ಲಿ ಮೀರಿಸಿದೆ.
ಜೊತೆಗೆ, ಸರ್ವಂ ವಿಷನ್ ಪದದ ನಿಖರತೆ ಪರೀಕ್ಷೆಯಲ್ಲಿ 87.36% ನೊಂದಿಗೆ ಅಗ್ರಸ್ಥಾನದಲ್ಲಿದೆ, ಜೆಮಿನಿ 3 ಪ್ರೊಗೆ ಹೋಲಿಸಿದರೆ 82.51% ಮತ್ತು ChatGPT 38.60% ನಲ್ಲಿ 5.2.
ಬುಲ್ಬುಲ್ V3
OCR ಜೊತೆಗೆ, ಸರ್ವಂ AI ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ನೈಸರ್ಗಿಕ, ಅಭಿವ್ಯಕ್ತಿಶೀಲ ಮತ್ತು ಉತ್ಪಾದನೆ-ಸಿದ್ಧ ಧ್ವನಿಗಳನ್ನು ನೀಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಮುಂದಿನ-ಪೀಳಿಗೆಯ ಪಠ್ಯದಿಂದ ಭಾಷಣದ ಸಾಧನವಾದ ಬುಲ್ಬುಲ್ V3 ಅನ್ನು ಸಹ ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಈ ಮಾದರಿಯು 11 ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ 35 ಕ್ಕೂ ಹೆಚ್ಚು ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಧ್ವನಿಗಳನ್ನು ನೀಡುತ್ತದೆ, ಅದು ನೈಸರ್ಗಿಕ ಮತ್ತು ಅಭಿವ್ಯಕ್ತಿಗೆ ಧ್ವನಿಸುತ್ತದೆ.
“ಜನರು ವಾಕ್ಯದ ಮಧ್ಯದಲ್ಲಿ ಭಾಷೆಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತಾರೆ. ಪ್ರದೇಶದಿಂದ ಉಚ್ಚಾರಣೆಗಳು ಬದಲಾಗುತ್ತವೆ. ಹೆಸರುಗಳು, ಸಂಕ್ಷೇಪಣಗಳು ಮತ್ತು ಭಾವನೆಗಳು ಪದಗಳಷ್ಟೇ ಮುಖ್ಯವಾಗಿವೆ. ಭಾರತದಲ್ಲಿ ಕೆಲಸ ಮಾಡಲು, ಧ್ವನಿಯು ಈ ಎಲ್ಲವನ್ನು ಮುರಿಯದೆ ನಿಭಾಯಿಸಬೇಕು” ಎಂದು ಬ್ಲಾಗ್ ಪೋಸ್ಟ್ ಓದಿದೆ.
ಬುಲ್ಬುಲ್ V3 ಅನ್ನು ಸ್ವತಂತ್ರ ಆಲಿಸುವ ಅಧ್ಯಯನಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸಲಾಗಿದೆ ಮತ್ತು ಇದು ಮೂರು ಪ್ರಮುಖ ಅಂಕಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ಅಂಕಗಳನ್ನು ಗಳಿಸಿದೆ. ಮೊದಲನೆಯದಾಗಿ, ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಆಡಿಯೋ ಅಥವಾ ಪ್ರಮಾಣಿತ ಫೋನ್ ಕರೆಗಳಲ್ಲಿ ಇದು ಅತ್ಯಂತ ನೈಸರ್ಗಿಕ ಮತ್ತು ಮಾನವನಂತೆ ಧ್ವನಿಸುತ್ತದೆ. ಎರಡನೆಯದಾಗಿ, ಇದು ದೃಢವಾಗಿದೆ, ಅಂದರೆ ಇದು ಕಡಿಮೆ ದೋಷ ದರಗಳೊಂದಿಗೆ ಕೋಡ್-ಮಿಶ್ರಣ ಮತ್ತು ಸಂಖ್ಯಾಶಾಸ್ತ್ರದಂತಹ ಟ್ರಿಕಿ ಪಠ್ಯವನ್ನು ಓದಬಹುದು ಮತ್ತು ಮೂರನೆಯದಾಗಿ, ಇದು ಸ್ಥಿರವಾಗಿರುತ್ತದೆ, ಏಕೆಂದರೆ ಇದು ದೀರ್ಘ ರೆಕಾರ್ಡಿಂಗ್ಗಳು ಅಥವಾ ಹೆಚ್ಚಿನ-ಗಾತ್ರದ ಬಳಕೆಯಲ್ಲಿಯೂ ಸಹ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.
ಮೊದಲ ಕೆಲವು ಸೆಕೆಂಡುಗಳಲ್ಲಿ ಧ್ವನಿ ಸರಿಯಾಗಿಲ್ಲದಿದ್ದರೆ, ಕೇಳುಗರು ತ್ವರಿತವಾಗಿ ಆಸಕ್ತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತಾರೆ ಎಂದು ತಂಡವು ಅರಿತುಕೊಂಡಿತು. ಆದ್ದರಿಂದ, ಅವರು ಗಟ್ಟಿಯಾಗಿ ಪದಗಳನ್ನು ಓದದೆ, ಹೆಜ್ಜೆ ಹಾಕುವಿಕೆ, ಒತ್ತು ಮತ್ತು ಭಾವನಾತ್ಮಕ ಧ್ವನಿಯ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಬುಲ್ಬುಲ್ V3 ಅನ್ನು ನಿರ್ಮಿಸಿದರು. ಎಲ್ಲಿ ಒತ್ತು ನೀಡಬೇಕು, ಯಾವಾಗ ವಿರಾಮಗೊಳಿಸಬೇಕು ಮತ್ತು ಟೋನ್ ಮತ್ತು ವೇಗವನ್ನು ಹೇಗೆ ಹೊಂದಿಸಬೇಕು ಎಂಬುದನ್ನು ಇದು ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತದೆ.
