Merci pour le lien, je vais aller jeter un coup d'oeil. Ce qui me déplait le plus c'est que actuellement cette IA a besoin de puissance et de données pour fonctionner, cela elle va le chercher sur les serveurs Google, donc Google a accès à tout donc niveau vie privée... En plus de cela ça utilise du Deep Learning et cette technologie fonctionne avec des quantités monstreuses de données, données qui sont sans doute pris aux utilisateurs et ce pas forcément de manière anonyme.
You are viewing a single comment's thread from:
Effectivement, avec un bémol, car la puissance nécessaire n'est plus un problème pour ces acteurs qui utilisent leurs milliers de TPU/GPU non utilisés par leurs clients. AWS a bénéficié de ce support le premier et a été capable de sortir un Alexa performant.. mais à base de quelles données ??
Ce ne sont pas non plus les données qui ont servi à faire les entrainements qui me posent le plus de questions, car des données textuelles/vocales, il y en a beaucoup de disponibles, et on peut (ca veut pas dire qu'ils le font) respecter, avec quelques procédés, l'anonymat des sources et des concepts (privacité différentielle et compagnie).
Mais c'est surtout la façon dont elles ont été annotés/labélisées qui me sidère. Pour obtenir une telle qualité de réponses (même si ca ne doit pas fonctionner à tous les coups), ca demande un travail de labélisation/corrections monstrueux.
Je suis vraiment très curieux de savoir quelles sont les étapes mises en place pour arriver à faire ce travail. Surement un mix de supervisé/non-supervisé avec beaucoup d'humain derrière..