La Web Imágenes Vídeos Noticias Grupos Libros Gmail Más »
Grupos visitados recientemente | Ayuda | Acceder
Página principal de Grupos de Google
关于字符编码的问题, 有的行有的就不行
En este grupo hay demasiados temas que deben mostrarse primero. Para que este aparezca al principio de la lista, debes descartar esta opción para alguno de los anteriores.
Error al procesar tu solicitud. Por favor, inténtalo de nuevo.
marcar
  8 mensajes - Ocultar todos  -  Traducir todo al Traducido (ver todos los originales)
El grupo al cual envías entradas es un grupo Usenet. Si envías mensajes a este grupo, cualquier usuario de Internet podrá ver tu dirección de correo electrónico
Tu respuesta no se ha enviado.
Tu entrada se ha publicado correctamente.
 
De:
Para:
Cc:
Seguimiento:
Añadir Cc | Añadir seguimiento | Editar asunto
Asunto:
Validación:
Con fines de verificación, escribe los caracteres que veas en la imagen siguiente o los números que escuches haciendo clic en el icono de accesibilidad. Escucha y escribe los números que oyes.
 
忧郁王子  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 3 nov, 04:01
De: 忧郁王子 <mykinghea...@gmail.com>
Fecha: Tue, 3 Nov 2009 01:01:44 -0800 (PST)
Local: Mart 3 nov 2009 04:01
Asunto: 关于字符编码的问题, 有的行有的就不行
最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题.
程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的
title内容, 代码如下:
http://david-paste.cn/paste/57/

代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/
MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就有乱码的问题, 不知道是为什
么了.

同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?

希望能够得到大家的答复~谢谢大家


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
Zoom.Quiet  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 3 nov, 04:07
De: "Zoom.Quiet" <zoom.qu...@gmail.com>
Fecha: Tue, 3 Nov 2009 01:07:38 -0800 (PST)
Local: Mart 3 nov 2009 04:07
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
On Nov 3, 5:01 pm, 忧郁王子 <mykinghea...@gmail.com> wrote:
> 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题.
> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的
> title内容, 代码如下:http://david-paste.cn/paste/57/

> 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/
> MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就有乱码的问题, 不知道是为什
> 么了.

> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?

just try and test it;-)


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
deafwolf  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 3 nov, 04:08
De: deafwolf <deafwolfdr...@gmail.com>
Fecha: Tue, 3 Nov 2009 01:08:50 -0800 (PST)
Local: Mart 3 nov 2009 04:08
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
常规做法是读head的meta,可以得到编码,不过那个未必对
比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了
而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分

On Nov 3, 5:01 pm, 忧郁王子 <mykinghea...@gmail.com> wrote:


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
忧郁王子  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 3 nov, 04:21
De: 忧郁王子 <mykinghea...@gmail.com>
Fecha: Tue, 3 Nov 2009 01:21:45 -0800 (PST)
Local: Mart 3 nov 2009 04:21
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我看BeautifulSoup的手册上是说, 它会把所有进来的东西都转成unicode来处理的, 但是不知道为什么, 到了sina就不行了,
看到输出结果中, meta里确实编程utf-8了, 但是到中文就不行了. 郁闷了

On Nov 3, 5:08 pm, deafwolf <deafwolfdr...@gmail.com> wrote:


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
CHEN,Zi-zhao  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 4 nov, 00:49
De: "CHEN,Zi-zhao" <p5...@livedoor.com>
Fecha: Wed, 4 Nov 2009 14:49:27 +0900
Local: Mié 4 nov 2009 00:49
Asunto: Re: [CPyUG:107033] Re: 关于字符编码的问题, 有的行有的就不行
也许读取http header更方便些。

2009/11/3 deafwolf <deafwolfdr...@gmail.com>:

--
CHEN,Zi-zhao
w...@mrchen.info

    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
忧郁王子  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 4 nov, 04:44
De: 忧郁王子 <mykinghea...@gmail.com>
Fecha: Wed, 4 Nov 2009 01:44:19 -0800 (PST)
Local: Mié 4 nov 2009 04:44
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我今天换了lxml, 情况比BeautifulSoup好多了, 中文全部都转成unicode了, 放到HTML中, 直接显示中文了.

On Nov 3, 5:21 pm, 忧郁王子 <mykinghea...@gmail.com> wrote:


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
忧郁王子  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 4 nov, 04:45
De: 忧郁王子 <mykinghea...@gmail.com>
Fecha: Wed, 4 Nov 2009 01:45:02 -0800 (PST)
Local: Mié 4 nov 2009 04:45
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我今天换了lxml, 情况比BeautifulSoup好多了, 中文全部都转成unicode了, 放到HTML中, 直接显示中文了.

On Nov 4, 1:49 pm, "CHEN,Zi-zhao" <p5...@livedoor.com> wrote:


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
Chen GUO  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 4 nov, 23:11
De: Chen GUO <gcd0...@gmail.com>
Fecha: Thu, 5 Nov 2009 12:11:01 +0800
Local: Mié 4 nov 2009 23:11
Asunto: Re: [CPyUG:107199] Re: 关于字符编码的问题, 有的行有的就不行
UNICODE是个大族,不只是UTF8

On 11/4/09, 忧郁王子 <mykinghea...@gmail.com> wrote:


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
Fin de los mensajes
« Volver a “Debates” « Tema más reciente     Tema anterior »

Crear un grupo - Grupos de Google - Página principal de Google - Condiciones del servicio - Política de privacidad
©2009 Google