From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: X-Spam-Checker-Version: SpamAssassin 3.4.1 (2015-04-28) on sa.local.altlinux.org X-Spam-Level: X-Spam-Status: No, score=-1.9 required=5.0 tests=BAYES_00 autolearn=ham autolearn_force=no version=3.4.1 Date: Sun, 30 Aug 2020 17:21:34 +0200 From: Alexey Gladkov To: ALT Linux Team development discussions Message-ID: <20200830152134.zqpbglwztajblikj@comp-core-i7-2640m-0182e6> References: <20200827022952.GA8129@dad.imath.kiev.ua> <20200828175532.GA21836@altlinux.org> <20200830081407.GA7392@dad.imath.kiev.ua> <20200830100917.l4lqaoqreemfxzoc@comp-core-i7-2640m-0182e6> <20200830124422.GA14871@dad.imath.kiev.ua> MIME-Version: 1.0 Content-Type: text/plain; charset=utf-8 Content-Disposition: inline Content-Transfer-Encoding: 8bit In-Reply-To: <20200830124422.GA14871@dad.imath.kiev.ua> Subject: Re: [devel] automatic License X-BeenThere: devel@lists.altlinux.org X-Mailman-Version: 2.1.12 Precedence: list Reply-To: ALT Linux Team development discussions List-Id: ALT Linux Team development discussions List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Sun, 30 Aug 2020 15:21:42 -0000 Archived-At: List-Archive: List-Post: On Sun, Aug 30, 2020 at 03:44:23PM +0300, Igor Vlasenko wrote: > On Sun, Aug 30, 2020 at 12:09:17PM +0200, Alexey Gladkov wrote: > > > Гм. действительно. Вылетело из головы, когда писал. > > > Надо будет добавить поиск в исходниках соответствующих > > > юридических оборотов в библиотеку SourceAnalyzer. > > > > Я не видел ни одного проекта, который бы проверял лицензию правильно. Даже > > в гугле [1] считают расстояние левенштейна для текстов лицензий. > > [1] https://github.com/google/licenseclassifier/ > > Спасибо, занес себе в закладки. > Но расстояние левенштейна это для всяких патологических > случаев, вроде MIT-подобных лицензий, и то, > для их прореживания есть рабочие хаки. Расстояние левенштейна не подходит совсем для лицензий. Если я в лицензию добавлю три символа ("permitted" -> "not permitted"), то лицензия изменится на противоположную, а расстояние левенштейна будет утверждать, что тексты на 99% одинаковые. > В отличие от гугла, мне нужен не полный охват, > а охват типичных случаев. Нетипичные слусаи можно обработать и вручную. В этом плане 'diff -wB ...' будет вести себя правильнее при условии дополнительной обработки адресов и синонимов. А вот если лицензий больше одной, то будет очень сложно понять это "и" или "или". Вот и получается, что тривиальные случаи мантейнер и сам без труда выставит, а сложные только мантейнер (и то не всегда) сможет разобрать. Если за роботом всё равно нужно будет перепроверять (а это нужно будет делать в любом случае), то в таком роботе я не вижу смысла. -- Rgrds, legion